금융IT 이슈 따라잡기

home(코스콤) 뉴스룸 금융IT 이슈 따라잡기

[코스콤리포트] AIOps(AI옵스) 성공요소와 금융회사 활용방안

사업부 :
대외협력부
작성일 :
2023-09-26 15:00:00

글. 류길현(엑셈 신기술본부장·전무)


지난 9월초 서울국회의원회관에서는 디지털플랫폼정부(디플정) 구현을 위한 국회 토론회가 열렸다. 이날 과학기술정보통신부의 송상훈 정보통신정책관은 “초거대 인공지능(AI) 서비스 개발 지원에 110억원을 투입할 예정”이라고 강조했다. 또한 “전 세계적으로 디지털 대전환이 일어나는 가운데 SaaS 기업 육성이나 서비스 수출 등 세계로 뻗어나가는 중요한 동력으로 사용하게 될 것”으로 보았다. 정부당국은 디플정 개발에 있어 문제점을 적시 파악하고 빠르게 반영하기 위해 데브옵스(DevOps) 체제를 구축하는데 집중하고 있다.

최근에는 이 데브옵스에 AI 기반의 관리시스템을 도입한 AIOps(AI옵스)가 주목받고 있다. 데브옵스가 개발(Development)과 운영(Operations)의 합성어로 개발자와 IT 전문가 간 소통, 협업을 강조하는 개발환경이나 문화를 일컫는다면 AI옵스는 AI(인공지능)과 Ops(운영)의 합성어로 IT 운영 문제를 자동으로 파악하고 해결하기 위해 머신 러닝, 분석, 데이터 과학을 적용하는 다중 계층 기술 플랫폼이다. IT 운영을 위한 AI는 운영 부서가 현대 IT 환경이 생성하는 방대하고 복잡한 데이터를 효율적으로 관리할 수 있도록 하여, 가동 시간을 유지하고 서비스 중단을 예방하여 지속적인 서비스 개선이 이루어질 수 있도록 한다.

다른 IT 운영 플랫폼과 달리 AIOps(옵스)는 데이터를 쉽게 취합할 수 있고 머신 러닝을 통해 문제를 찾으며, 자동화 툴로 문제를 해결한다. 기존 모니터 툴을 대체하지 않고 기존 툴에 통합돼 문제에 대한 더 높은 가시성을 제공, 여러 모니터링 툴을 배우고 사용하는 복잡성을 없앤다. AI 기반의 새로운 IT 운영 기술로 떠오르고 있는 AI옵스의 특징과 장점 성공 요소 및 금융회사의 적용 방안에 대해 살펴본다.

AI옵스 개념과 동향

2014년 가트너는 AI 옵스 시대가 도래하게 될 것임을 최초로 언급했다. 이후 AI옵스 시장의 급속한 변화와 AI 모델의 기술 발전으로 AI옵스 개념을 IT 운영에 적용하기 시작했고, 국내에서도 최근 3~4년 전부터 AI옵스 기술 검토와 도입 사례들이 늘어나고 있는 상황이다.

특히 금융업계에서는 IT 운영자보다 심각한 장애 상황을 더 빠르고 정확히 사전에 인식할 수 있고 운영센터(담당자)와 개발팀 등 유관 부서와의 상호작용을 간소화하고 커뮤니케이션 일원화를 할 수 있는 장점, 더욱 복잡한 IT 운영 데이터 통합/분석을 통해 신속한 장애 대응과 IT 운영 자동화를 할 수 있는 관점에서 AI 옵스 도입을 적극적으로 검토하고 있다.

AI옵스를 성공적으로 운영하는 방법

가트너에서는 AI옵스에 대한 이해를 위해 현실적으로 IT 운영 담당자가 서비스 중단이나 장애에 대응하고자 어떤 작업을 수행하고 있고, 어떻게 분석/대응하고 있는지, 그리고 이러한 AI 기술을 접목하여 그런 프로세스를 어떻게 자동화하고 간소화 할 수 있는지를 다음과 같은 세가지 영역으로 분류하여 설명한다.

AIOps는 이러한 다양한 IT 운영 시스템에서 발생된 데이터를 수집/가공/저장하여 AI 기술을 접목하여 의미 있는 분석과 이상탐지, 예측, 근본원인 분석 등의 결과를 제시하여 빠르게 대응할 수 있는 기술이다.

AIOps 구축 방향과 목표

AIOps를 구축하기 위해서는 고객사별 다양한 IT 운영상의 정형/비정형 데이터 수집과 이렇게 수집된 데이터 정제 작업, 최종 정제된 데이터 중심의 데이터 마트 구축까지의 데이터 수집 플랫폼을 구성해야 한다. 구축한 데이터를 기반으로 AI 알고리즘의 다양한 머신 러닝과 딥 러닝 모델 학습을 수행, 이상징후탐지와 예측을 제시하여 선제적 장애 대응이 가능하도록 하며, 장애 발생 시 근본 원인 분석 및 장애에 대한 신속한 조치, 대응방안을 제시하여 빠르게 장애를 대응할 수 있는 체계를 구축하는 게 목표다.

AIOps 기술의 특장점

AIOps는 복잡한 IT 운영 시스템에서 수집된 데이터의 패턴 분석을 통하여 장애를 사전에 예측하거나 장애가 발생할 경우 원인을 신속하게 추적하도록 정보를 제공하여 MTTD(Mean Time to Discovery)와 MTTR(Mean Time to Repair)을 최소화 하도록 AI를 이용한 혁신적인 운영 방식을 제공한다.

현재 AIOps 적용 현황을 살펴보면 국내 솔루션은 일부 IT 운영 관제 시스템 분야에 적용되고 있고 해외 솔루션의 경우는 전역적 보안 관리 시스템이나 IT 시스템 관리의 일부분에 적용되어 데이터 분석용으로 사용되고 있다.

국내 대표적인 AIOps 솔루션이자 유일하게 금융업권 구축 경험을 가지고 있는 XAIOps(싸이옵스) 솔루션을 중심으로 주요 기술 수준과 특장점 및 국내 금융권 적용 사례 및 활용 방안을 다음 표에 소개한다.

금융업권의 AIOps 도입 필요성

최근 은행, 보험, 증권, 카드 등 주요 금융업권에서 발생된 IT 장애 상황을 살펴보면 매년 200여건의 장애 상황들이 발생한다.

이중 대부분의 장애 유형으로는 ▲단순 프로그램 오류로 인한 서비스 장애 발생 ▲하드웨어 결함이나 리소스 경합 등으로 인한 서비스 지연/중단 사례 ▲대외 기관간의 연동 등 외부 지연으로 인한 서비스 성능 지연 ▲인적 요인에 의한 장애 등이 있다.

이러한 장애 유형과 사례를 기초하였을 때, 기존의 단순한 Point(포인트) 단위의 성능 모니터링 방식과 정적인 임계치 수준의 장애 탐지 및 분석으로는 장애 원인 파악과 분석에 많은 시간이 소요되며 그만큼의 IT 운영 인력에 대한 비용도 많이 소모될 수 있는 상황이다. 이러한 문제점을 해결할 새로운 장애 대응 체계와 최신 기술 도입이 절실히 필요하다.

이를 위해 최근 AIOps에 대한 필요성과 적극적인 검토가 금융업권을 중심으로 이루어지고 있으며, 우선 도입하여 구축한 금융회사의 적용 사례와 실제 활용 사례들도 늘어나고 있다

엑셈의 ‘XAIOps’를 예로 들면 국내 최초 딥 러닝 모델을 탑재한 AIOps 솔루션으로 지난 3년간 공공기관 및 정부기관에 대한 구축 사례도 있지만, 시중 은행의 제1금융권 대규모 시스템에 지능형 IT 통합 운영 관제 시스템을 구축한 사례를 가지고 있다 해당 업체에 의하면 제1금융권 각각의 고객사별 목표와 지향점은 달랐지만, 최신 AI 기술을 IT 운영에 도입하여 빠른 장애 탐지와 신속한 장애 원인 분석 및 예측 기술을 통하여 선제적인 장애 대응 시스템을 구축하여 좀 더 지능적이고 체계적인 IT 운영이 가능하게 되었다는 평가를 받고 있다.

실제 금융업계에서 AIOps를 구축하여 활용하는 사례는 고객사별로 장애 패턴이나 유형이 다양하여 획일적으로 설명할 수는 없으나 각각의 영역에서 장애 포인트에 대한 의미 있는 신속한 분석과 예측 기능으로 장애를 사전에 대응하는 차원으로 다양하게 활용하고 운영하고 있는 상황이다.

AIOps 해외 도입 사례

해외에서는 국내보다 훨씬 더 광범위한 사업 영역에서 다양하게 적용하고 있다. 주로 공공기관에서 국민 편의를 위해 대국민 행정 서비스부터 군사계, 법조계, 의료·보건계까지 각종 분야에서 활발히 도입하고 있다. 미국은 국방부, 국무부, 육·공군, NASA, 국토안보부, 나스닥(NASDAQ), US Bank, 뉴욕시뿐 아니라 각종 정부 산하 기관·연구소 등 광범위한 공공 기관에서 AIOps를 도입해 사용하고 있다. 또한 네덜란드 법원, 영국 운전면허청, 스웨덴 블레킹 지역 위원회, 아랍에미리트 국영 의료보험사, 인도 전자통신기술부, 바레인 전자정부청 등도 AIOps를 도입했다.

공공 분야에서 이렇게 활용성이 높은 이유는 AI 및 기계학습 알고리즘을 통해 시스템 장애를 선제적으로 예측·방지할 수 있어 장애 발생 시 국가 안보나 사회 복지에 타격을 입는 각각 공공 분야의 주요 시스템에 탁월한 도입 효과를 가져오기 때문이다.

가령 결제 처리 회사인 월드페이(Worldpay)는 AIOps를 활용해 이벤트를 실행 가능한 상황들로 클러스터링하고 유망한 근본 원인을 규명함으로써 전통적인 모니터링 툴의 실패를 감소시키기도 했다. 미 보건복지산하부 산하 공공의료보험 추진기관인 CMS는 AIOps를 도입하여 시스템의 백엔드에서 최종사용자에 이르기까지 성능 모니터링 및 가시성을 확보하고 MTTR(Mean Time To Recovery)이 도입 전보다 75% 개선되었다.

또한 US뱅크는 AIOps를 도입해 거대한 IT 성능 데이터에 대해 장애 분석의 어려움을 해결했다. 즉 원인인 분석 및 상관관계 분석을 좀 더 효과적이고 빠르게 대응하여 더 낳은 서비스 가동 시간을 제공하고 고객 만족도를 향상시켰다.

우리나라에서는 해외 사례와는 달리 금융업권 중심으로 AIOps 우선 검토 및 도입 사례들이 늘어나는 추세다. 국산 SW 제품의 커스터마이징 능력과 고객사 환경에 맟춤형 서비스가 가능한 장점을 살려 외산 SW 보다는 국산 SW로 AIOps 시장이 발전되고 주목 받고 있다. 업계에서는 AIOps 솔루션도 점점 고도화 되어 최근 생성형AI 기술과, 초거대 언어 모델(LLM) 등의 기술을 최대한 활용한 쳇봇 기술을 탑재하여 좀 더 편리하고 쉽게 AIOps를 활용하고 운영할 수 있도록 하겠다는 방침이다.




* 저작권법에 의하여 해당 콘텐츠는 코스콤에 저작권이 있습니다.
* 따라서, 해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금합니다.

윗글
[카드뉴스] 키워드로 본 금융IT Issue 09월 #2
아랫글
[오피니언] 증권사 AI 기반 디지털 전환의 주요 과제와 이슈