뷰페이지

국립국어원, 인공지능 한국어 학습용 자료 공개

국립국어원, 인공지능 한국어 학습용 자료 공개

이경우 기자
입력 2020-08-27 12:38
업데이트 2020-08-27 12:52
  • 글씨 크기 조절
  • 프린트
  • 공유하기
  • 댓글
    14

일상 대화, 웹, 신문, 서적 등 한국어 빅데이터 13종 18억 어절

‘모두의 말뭉치’ 첫 화면. 국립국어원 제공
‘모두의 말뭉치’ 첫 화면. 국립국어원 제공
25일 13종 18억 어절 분량의 말뭉치가 국립국어원 ‘모두의 말뭉치’(https://corpus.korean.go.kr)에 공개됐다.

국립국어원은 이번에 공개한 자료는 2018~19년 구축한 것으로, ‘모두의 말뭉치’ 사이트에서 온라인 약정서를 작성하고 승인을 받으면 누구나 이용할 수 있다고 밝혔다.

이에 앞서 문화체육관광부와 국어원은 1998년부터 2007년까지 ‘21세기 세종계획’을 추진하며 약 2억 어절의 자료를 공개한 바 있다.

‘모두의 말뭉치’에는 최근 10년간의 신문 기사와 서적 2만 188종, 일상생활의 음성 대화와 메신저 대화, 방송 자료, 대본 등이 들어 있다. 또한 컴퓨터가 한국어를 더 잘 이해할 수 있도록 형태, 구문, 의미, 개체 등 언어 단위별로 분석한 자료 1100만 어절도 담겨 있다. 한국어 사용자의 직관과 판단 정보를 분석한 문법성 판단과 어휘 관계 자료 40만건도 포함돼 있다.

이번 자료에서는 일상 대화, 메신저, 웹 문서 등 구어체의 비중을 높였는데, 특히 표준어뿐만 아니라 다양한 지역별, 연령별 대화 자료들도 포함됐다. 인공지능(AI) 스피커, 챗봇 등의 대화형 서비스가 늘어나는 추세를 반영한 것이다.

이에 따라 한국어 인공지능 서비스를 개발하는 중소기업과 새싹기업(스타트업·벤처기업)들이 한국어 처리 기술 개발에 쉽게 접근할 수 있게 됐다. 대기업이나 관련 연구기관 등도 다양한 서비스를 개발하는 데 도움을 받을 수 있다.

이번에 공개한 말뭉치는 한국어 빅데이터라고 할 수 있는데, 국어원은 10월 초 말뭉치 활용을 주제로 전문가 토론회를 개최한다.

이경우 전문기자 wlee@seoul.co.kr
많이 본 뉴스
‘민생회복지원금 25만원’ 당신의 생각은?
더불어민주당은 22대 국회에서 전 국민에게 1인당 25만원의 지역화폐를 지급해 내수 경기를 끌어올리는 ‘민생회복지원금법’을 발의하겠다고 밝혔습니다. 민주당은 빠른 경기 부양을 위해 특별법에 구체적 지원 방법을 담아 지원금을 즉각 집행하겠다는 입장입니다. 반면 국민의힘과 정부는 행정부의 예산편성권을 침해하는 ‘위헌’이라고 맞서는 상황입니다. 또 지원금이 물가 상승과 재정 적자를 심화시킬 수 있다고 우려합니다. 지원금 지급에 대한 당신의 생각은?
찬성
반대
모르겠다
광고삭제
위로