국립국어원, 인공지능 한국어 학습용 자료 공개

국립국어원, 인공지능 한국어 학습용 자료 공개

이경우 기자
입력 2020-08-27 12:38
수정 2020-08-27 12:52
  • 기사 읽어주기
    다시듣기
  • 글씨 크기 조절
  • 댓글
    0

일상 대화, 웹, 신문, 서적 등 한국어 빅데이터 13종 18억 어절

‘모두의 말뭉치’ 첫 화면. 국립국어원 제공
‘모두의 말뭉치’ 첫 화면. 국립국어원 제공
25일 13종 18억 어절 분량의 말뭉치가 국립국어원 ‘모두의 말뭉치’(https://corpus.korean.go.kr)에 공개됐다.

국립국어원은 이번에 공개한 자료는 2018~19년 구축한 것으로, ‘모두의 말뭉치’ 사이트에서 온라인 약정서를 작성하고 승인을 받으면 누구나 이용할 수 있다고 밝혔다.

이에 앞서 문화체육관광부와 국어원은 1998년부터 2007년까지 ‘21세기 세종계획’을 추진하며 약 2억 어절의 자료를 공개한 바 있다.

‘모두의 말뭉치’에는 최근 10년간의 신문 기사와 서적 2만 188종, 일상생활의 음성 대화와 메신저 대화, 방송 자료, 대본 등이 들어 있다. 또한 컴퓨터가 한국어를 더 잘 이해할 수 있도록 형태, 구문, 의미, 개체 등 언어 단위별로 분석한 자료 1100만 어절도 담겨 있다. 한국어 사용자의 직관과 판단 정보를 분석한 문법성 판단과 어휘 관계 자료 40만건도 포함돼 있다.

이번 자료에서는 일상 대화, 메신저, 웹 문서 등 구어체의 비중을 높였는데, 특히 표준어뿐만 아니라 다양한 지역별, 연령별 대화 자료들도 포함됐다. 인공지능(AI) 스피커, 챗봇 등의 대화형 서비스가 늘어나는 추세를 반영한 것이다.

이에 따라 한국어 인공지능 서비스를 개발하는 중소기업과 새싹기업(스타트업·벤처기업)들이 한국어 처리 기술 개발에 쉽게 접근할 수 있게 됐다. 대기업이나 관련 연구기관 등도 다양한 서비스를 개발하는 데 도움을 받을 수 있다.

이번에 공개한 말뭉치는 한국어 빅데이터라고 할 수 있는데, 국어원은 10월 초 말뭉치 활용을 주제로 전문가 토론회를 개최한다.

이경우 전문기자 wlee@seoul.co.kr
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지
close button
많이 본 뉴스
1 / 3
학생들 휴대폰의 도청앱 설치 여러분의 생각은?
지난 달 대전의 한 초등학교에서 교사가 김하늘(8)양을 살해한 사건이 발생한 데 이어 정신질환을 가진 교사가 3세 아들을 살해하고 극단적인 선택을 하는 사건이 알려지면서 학부모들이 불안에 떨고 있다. 개학을 앞두고 불안한 학부모들은 아이의 휴대전화에 도청앱까지 설치하고 있다. 하지만 일부 교사들은 이 도청앱의 오남용으로 인한 교권침해 등을 우려하고 있다. 학생들의 휴대폰에 도청앱을 설치하는 것에 대한 여러분의 생각은 어떤가요?
오남용이 우려된다.
안전을 위한 설치는 불가피하다.
광고삭제
광고삭제
위로