흑백요리사가 보여줬던 기본 원리는 AI에도 똑같이 적용된다.
그는 AI 개발 과정에 음식 재료에 해당하는 데이터 준비 과정이 약 80%를 차지함에도, 대부분의 연구개발자들이 20%의 비중을 차지하는 모델 훈련(요리)에 99%의 노력을 집중하고 있다면서, 좋은 AI를 만들기 위해서는 원재료인 데이터의 품질을 높이는 데에 집중해야 한다고 주장했다. 그 근거로 모델 중심 접근법 대비 데이터 중심 접근법이 AI 성능 향상에 더 효과적임을 실증했고, 그 이후 데이터 중심 AI는 AI 개발에 있어 중요한 흐름이 되었다.
또다른 사례로, 얼마전 전 세계에 큰 충격을 주었던 중국의 딥시크 모델을 살펴보자. 딥시크의 놀라운 성능의 배경에는 모델 측면의 신기술을 적극적으로 채용한 점도 있지만, 잘 정제된 데이터셋을 이용해 강화학습을 통해 추론 성능을 크게 높인데 있었다는 것도 데이터의 중요성을 일깨워준다.
이처럼, 데이터사이언스 분야에 “Garbage in, Garbage out”이라는 유명한 격언이 있듯이 AI의 성능과 신뢰성은 원재료인 데이터가 좌우하며 그 중요성은 아무리 강조해도 지나치지 않다.
데이터가 중요한 것은 금융 AI라고 해서 다를 바 없다. 오히려, 다른 어떤 분야보다 데이터가 중요한 분야가 금융산업이라 볼 수 있다.
그러나, 다양하고 방대한 데이터가 있는 것처럼 보이는 금융산업에는 역설적이게도 실제로 AI에 활용할 수 있는 데이터가 많지 않다. 금융 데이터는 거시경제상황 등 외부요인에 따른 불규칙성이 존재하고 이벤트성 데이터가 많으며, 개인정보보호 등의 각종 규제, 법적·윤리적 책임 문제(대출 거절 등)와 고객에 대한 설명가능성 등으로 인해 활용에 많은 제약이 따르기 때문이다.
그렇다면, 이러한 제약 조건 내에서 우수한 금융 AI를 만들기 위해 데이터가 갖춰야 할 품질 요건은 어떤 것이 있을까? 앤드류 응 교수 등의 의견을 종합해 정리하면, 일관성, 포괄성, 피드백, 정확성, 독창성, 균형성의 6가지를 뽑을 수 있다.
사실, 꼭 AI가 아니더라도, 이 6가지 요건은 모든 데이터가 가져야할 덕목이겠지만, 필자는 특히 금융 AI에 더 중요한 요건이 포괄성과 균형성이라 생각한다.
포괄성은 AI가 활용되는 모든 경우에 대해 예측가능하도록 데이터가 다양하고 넓은 커버리지를 갖고 있어야 한다는 의미이다. AI는 학습한 데이터를 벗어난 경우에 대해서는 예측을 제대로 할 수 없기 때문이다. 일부만의 데이터로 학습돼 일부 계층만을 제대로 예측하도록 개발된 AI 신용평가모형으로 전국민을 평가해 대출을 실행할 수는 없는 일일 것이다.
균형성은 편향되지 않은 데이터를 말하고, 편향된 AI가 그 자체가 큰 리스크가 되는 사례는 굳이 나열하지 않아도 될 것이라 생각한다. AI 자체는 어떤 편향도 가지지 않지만, 결국 문제를 일으키는 것은 의도하던 의도하지않던간에 인간에 의해 편향된 데이터이다.
그러나, 아쉽게도 금융회사들이 각자 보유한 데이터는 포괄성과 균형성이 결여된 경우가 많다. 시장점유율이 높지 않아 충분한 정보가 없는 경우도 있고, 기관 특성상 고객 포트폴리오 자체가 편중된 경우도 많다. 우리나라의 대표적인 은행들에 대해 특정한 이미지가 떠오르는 것만 봐도 포트폴리오의 편중 가능성을 유추해 볼 수 있다.
금융회사의 내부 데이터 품질이 특히 포괄성과 균형성 측면에서 충분하지 못하다면, 금융회사 외부의 데이터를 이용한 데이터 확장을 통해 데이터의 다양성과 절대량을 충분히 확보해야 한다.
그 해결방안으로 생각해볼 수 있는 방식이 신용정보원 데이터와 같이 이미 품질이 확보된 데이터를 기반으로 합성데이터를 새롭게 생성해 이용하는 것이다.
신용정보원은 종합신용정보집중기관으로서 전국민(기업을 포함)의 신용정보를 집중·관리하고 있기 때문에, 신정원이 보유한 데이터는 국내의 다른 어떤 금융 데이터보다 포괄성과 균형성이 높다.
또한, 정교하게 집중·관리되고 있어 일관성, 피드백, 정확성, 독창성 등 다른 품질요건도 모두 충족시키는 이른바 “육각형 데이터”라 볼 수 있다. 다만, 이 데이터를 정보 주체의 동의 없이 활용하는 것은 불가능하며 신용정보원도 공유·활용을 엄격히 관리하고 있어 이를 그대로 활용할 수는 없다.
따라서, 신용정보원은 이를 합성데이터로 새롭게 생성해 제공함으로써 금융회사의 AI 활용을 지원할 계획이다.
합성데이터는 실제 데이터와 유사한 통계적 특성과 구조를 가질 수 있도록 새롭게 생성한 인공적인 데이터를 말한다. 만들어낸 데이터이기 때문에 프라이버시 측면에서 더 안전하며, 데이터 증강도 자유로이 할 수 있어 불균형하거나 불완전한 정보의 보완이 가능하고, 실제 데이터를 확보하는 것 대비 비용 측면에서도 큰 장점이 있다.
이러한 장점 때문에 AI 학습에는 실제 데이터보다 합성데이터 활용이 더 효과적이라는 평가가 나오고 있으며, 가트너(Gartner)는 최근 보고서에서 2030년에는 비즈니스 의사결정에서 합성데이터가 실제 데이터보다 더 많이 활용될 것이라 전망하기도 했다.
현재 신용정보원은 생성형AI를 이용해 금융권에 최적화된 합성데이터 생성 모델과 평가 방법에 대한 연구를 지속하고 있으며, 향후 합성데이터가 배포될 수 있는 제도적 기반이 마련되면 금융권에 합성데이터를 적극적으로 제공·지원할 계획이다.
필자는 올해 2025년이 AI산업과 우리 금융산업의 AI활용 측면에서 본격적인 도약의 한 해가 될 것이라 생각한다. 우리 금융산업이 데이터의 중요성을 인식하고 그 품질을 높이는데에 노력을 기울여서 이러한 도약이 금융산업의 퀀텀 점프(Quantum Jump)로 이어질 수 있기를 기대해본다.
이철흠 한국신용정보원 금융AI데이터센터장
가장 핫한 경제 소식! 한국금융신문의 ‘추천뉴스’를 받아보세요~
데일리 금융경제뉴스 Copyright ⓒ 한국금융신문 & FNTIMES.com
저작권법에 의거 상업적 목적의 무단 전재, 복사, 배포 금지