ETRI, 구글보다 뛰어난 한국어 AI 언어모델 공개...구글 버트 개선한 '코버트'
상태바
ETRI, 구글보다 뛰어난 한국어 AI 언어모델 공개...구글 버트 개선한 '코버트'
  • 박근우 기자
  • 승인 2019.06.11 13:58
  • 댓글 0
이 기사를 공유합니다

학습한 형태소의 수 총 45억 개...데이터를 한 번에 처리하는 한국어 모델도 개발 계획

사람이 하는 말을 정확히 이해하고 적절한 대답을 찾도록 도와주는 AI(인공지능)용 한국어 데이터베이스(언어모델)가 나왔다.

구글의 한국어모델보다 질의응답, 문장 내 개체 역할 인식 등 성능이 뛰어난 것으로 평가된다. 

11일 한국전자통신연구원(ETRI)에 따르면 AI 서비스 개발을 위해 독자적으로 구축한 한국어 특화 딥러닝 언어모델 ‘코버트(KorBERT)’를 10일 홈페이지에 공개했다. 

ETRI의 언어모델은 AI가 언어를 학습할 수 있도록 구축한 일종의 데이터베이스다.

언어를 숫자로 표현한 뒤 AI 기술의 일종인 딥러닝을 이용해 학습을 한다. 이 과정에서 어떤 단어가 특정 조건에서 얼마나 많이, 그리고 자주 나타나는지를 확률로 계산해 언어와 함께 모았다.

ETRI 연구팀이 새로 개발한 한국어 특화 언어모델을 시연하는 모습

예를 들어 “날씨” 다음에는 “어때”가 올 확률, 그 뒤 대답에 “좋아”가 올 확률 등을 단어와 함께 기록한 데이터다.

딥러닝이 “날씨 어때”라는 질문에 “맛있어”라고 답하지 않고 “좋아”라고 답해야 맞다는 사실을 학습하려면 이런 언어모델이 중요하다.

기존 언어모델은 구글이 구축한 다국어 언어모델인 버트(BERT)가 널리 사용됐다.

'버트'는 문장 내 어절을 한 글자씩 끊은 뒤 서로 연결시켜 앞뒤로 자주 만나는 글자를 단어로 인식한다. ‘날씨 어때’의 겨우 ‘날씨’ '씨어’ ‘어때’를 각각 비교해 자주 조합되는 ‘날씨’와 ‘어때’를 단어로 보고 끊어 읽는 식이다.

구글은 40만 건 이상의 위키백과 문서 데이터를 이런 식으로 학습해 한국어 언어모델을 개발했다.

ETRI의 '코버트'는 구글의 버트를 한국어 특성에 맞게 개선했다.

코버트는 기존의 데이터 외에 최근 10년간의 신문기사와 백과사전 데이터 23기가바이트(GB)를 추가로 학습시켜 학습량을 늘렸다. 

코버트가 학습한 형태소의 수는 총 45억 개에 이른다.

여기에 ‘날씨가 어때’의 ‘가’처럼 조사가 붙는 한국어의 문법 특성을 반영해, 사전에 형태소를 분석하는 과정을 추가했다. 딥러닝 학습 과정도 한국어에 맞게 세밀하게 조절했다.

ETRI는 자체 성능 분석 결과, 코버트는 문서의 주제를 분류하거나 문장 유사도를 추론하는 시험, 문장 내에 등장하는 인물의 역할을 인식하는 시험, 질문에 제대로 대답을 하는 시험 등 5개 평가 항목에서 버트보다 평균 4.5% 높은 점수를 기록했다.

특히 질문에 대한 답을 검색한 뒤 정답이 있는 단락의 순위를 매기는 시험에서 구글보다 7.4% 뛰어난 점수를 기록했다.

한국어 질의응답에 최적화된 언어모델이라는 얘기다.

연구팀은 코버트를 AI비서나 질의응답 등에 활용할 수 있을 것으로 기대하고 있다.

배용진 ETRI 언어지능연구그룹 연구원(왼쪽)과 임준호 선임연구원이 코버트의 작동 원리를 설명하고 있다.

김현기 ETRI 언어지능연구그룹 책임연구원은 “한국어에 최적화된 언어모델을 통해 한국어 분석, 지식추론, 질의응답 등 다양한 한국어 딥러닝 기술이 향상될 것”이라고 말했다.

특히 '공공AI오픈API' 데이터 서비스 포털에 공개한 데다, 기존의 딥러닝 프레임워크인 텐서플로우 등에서 활용 가능해 기업과 연구기관 개발자는 물론 학생의 교육 등에도 폭넓게 활용될 전망이다.

ETRI 연구팀은 앞으로 더 긴 데이터를 한 번에 처리하는 한국어 모델을 개발해 버트 모델의 근본적인 한계도 극복할 계획이다. 

박근우 기자  lycaon@greened.kr

▶ 기사제보 : pol@greened.kr(기사화될 경우 소정의 원고료를 드립니다)
▶ 녹색경제신문 '홈페이지' / '페이스북 친구추가'
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.