금융위원회는 31일 ‘금융 특화 한글 말뭉치’ 제공을 시작한다고 밝혔다.
국내 금융사들은 그동안 해외에서 일반 사용자들을 위해 개발된 상용 AI(Chat GPT, HyperCLOVA 등), 오픈소스 AI(LLaMA3.3, EXAONE 등)를 활용해 챗봇·뉴스 분석 등 AI 서비스를 제공해왔다.
그러나 한국어로 된 금융 용어, 우리나라 금융 법규 등 전문화 데이터가 부족해, AI 서비스의 고도화와 내부 업무 활용 등에는 어려움을 겪고 있었다.
이번에 지원하는 '금융 특화 한글 말뭉치'는 총 12,600건, 규모는 약 45GB 이상이며, 구체적으로는 ▲사전학습용 6,700건 ▲추가학습(Fine-tuning)용 1,100건 ▲검색증강생성(RAG)용 3,800건 ▲평가지원용 1,000건으로 구성된다.
국내 금융 용어 사전, 금융 법규 등 활용해 말뭉치 구축
AI 모델의 금융 전문지식 습득을 위한 '사전학습용 말뭉치'의 경우 금융감독원, 은행연합회, 금융연수원 등의 금융용어 사전, 금융 일반지식 자료를 활용해 만들어졌다.
금융에 특화된 AI 서비스 개발을 위한 추가학습용 말뭉치는 국내 금융정책·제도 설명자료, 금융 법규·가이드라인과 보험연수원의 기초 연수자료를 활용해 구축했다.
금융위 측은 "일반적인 AI 모델에 학습용 데이터를 적용할 경우, 한국어로 된 금융 용어에 대한 이해력과 국내 금융제도·법규 등에 대한 전문성을 향상시킬 수 있다"고 설명했다.
AI 모델이 외부의 최신 정보와 전문 데이터를 참고해 더욱 정확한 답변을 도출하도록 하는 '검색증강생성(RAG, Retrieval-Augmented Generation)용 말뭉치'도 지원한다.
AI가 금융 관련 제도나 법규의 최신 개정 내용을 반영하지 않은 잘못된 답변을 제공할 경우 이용자의 권리를 침해하거나 재산상 손해를 입힐 수 있기 떄문이다.
금융위는 RAG용 말뭉치 구축을 위해 '금융소비자보호법'과 관련 참고자료, 전자금융거래법 등 연계법의 관련 조문 등을 활용했다.
AI의 허구 정보 생성 예방 노력도
AI 활용의 대표적인 장애요인으로 생성형 AI가 허구의 정보를 생성하는 환각(Hallucination), 성별·인종 등에 대한 선입견을 학습하는 편향(Bias) 등이 있다.
금융위는 이에 대한 대응책으로 AI 모델의 금융 지식·추론능력과 잠재적 유해성을 평가하기 위한 '평가지원용 말뭉치'도 지원하기로 했다.
학습데이터와 별도로 구축된 평가지원용 말뭉치를 통해 금융사들은 AI의 객관적인 성능과 공정성을 검증할 수 있게 됐다.
금융 공통분야 말뭉치 이용을 희망하는 모든 금융사는 금융결제원 데이터 공유 플랫폼을 통해 신청하고 말뭉치를 다운로드 받을 수 있다.
금융위는 오는 6월 말까지 진행되는 이번 시범사업 기간 동안 금융사들의 조기 활용을 촉진하고, 이용 기관들의 다양한 경험과 의견을 확보하기 위해 말뭉치를 무료로 제공할 방침이다.
금융위 관계자는 "올해 하반기에는 금융 공통분야 말뭉치의 유형과 규모를 확대하고, 내년부터는 금융 업권별 특화 말뭉치를 지원할 수 있도록 다양한 원천 데이터 보유기관·유관기관과 지속적으로 협의해나갈 계획"이라고 밝혔다.
김성훈 한국금융신문 기자 voicer@fntimes.com
가장 핫한 경제 소식! 한국금융신문의 ‘추천뉴스’를 받아보세요~
데일리 금융경제뉴스 Copyright ⓒ 한국금융신문 & FNTIMES.com
저작권법에 의거 상업적 목적의 무단 전재, 복사, 배포 금지