국립국어원장 "204억 들여 AI 기반인 10억 어절 구축"
문화 2018/12/06 17:11 입력

100%x200

소강춘 국립국어원장

소강춘 원장 "남북 언어 통일 앞서 통합 추진"
중단됐던 말뭉치 구축 사업 10년만에 재개

(서울=뉴스1) 여태경 기자 = "내년 한 해동안 총 204억원을 투입해 인공지능(AI) 등에 활용 가능한 국가 공공재 성격의 대규모 국어 말뭉치(Corpus)를 구축하겠습니다."

취임 100일을 맞은 소강춘 국립국어원장(61)은 6일 서울 종로구 한 식당에서 기자간담회를 열고 이 같은 내년 중점 추진 사항을 발표했다.
 

컴퓨터로 가공, 처리, 분석할 수 있도록 저장된 언어 자료인 말뭉치 구축사업은 1998~2007년 진행한 후 10년 넘게 중단됐다. 당시 세종 말뭉치는 2억 어절을 구축, 현재까지 사용되고 있다.

하지만 10년 간 급속도로 변화한 언어와 기술 환경과 저작권 문제에 대응하기에는 턱없이 부족한 상황이다. 현재 일본의 경우 150억 어절, 중국은 800억 어절, 미국은 3000억 어절 정도를 구축했다.

이에 국립국어원은 내년까지 10억 어절, 10년 동안 150억 어절을 구축한다는 목표이다. 또 저작권 문제를 해결해 중소 업체에서도 쉽게 사용·활용할 수 있도록 할 계획이다.

소 원장은 남북언어 이질화 문제에 대해서는 "남북언어 통일은 굉장히 어렵지만 언어자료를 통합하는 것은 어렵지 않다"면서 "내년부터 시작해서 틀을 잡으려고 한다"고 말했다.

특히 남북 간 큰 차이를 보이고 있는 경제·의학, 농수산·산업·건설, 행정·법률 등 분야별 남북 전문용어 구축을 위한 연구를 추진할 예정이다. 또 북한어 말뭉치 구축 등 한민족 언어 자료 수집과 언어 통합 연구를 진행한다.

이밖에도 누구나 쉽게 정보를 생산, 유통할 수 있는 사회구조에 맞게 개방형 우리말 사전인 '우리말샘'과 국어대사전을 보완하고 전문가들도 이해하기 어려운 공공언어를 개선해 나가기로 했다. 아울러 수어나 점자 사용 환경을 개선하고 한국수어사전 정보 구축 사업도 더욱 확대할 예정이다.


haru@news1.kr



저작권자 ⓒ 뉴스1 코리아, 무단 전재 및 재배포 금지

뉴스&핫이슈! 디오데오(www.diodeo.com)
Copyrightⓒ 디오데오. 무단전재 및 재배포 금지