1600개 언어 듣고 변환… 메타, ‘바벨탑의 저주’ 풀 AI 기술 공개

1600개 언어 듣고 변환… 메타, ‘바벨탑의 저주’ 풀 AI 기술 공개

임주형 기자
임주형 기자
입력 2025-11-11 17:52
수정 2025-11-11 17:52
  • 기사 읽어주기
    다시듣기
  • 글씨 크기 조절
  • 댓글
    0

‘옴니링구얼’ ASR 체계 공개

LLM 통해 적은 수의 음성도 인식
사용 적은 저자원 언어 문자로 구현
70억 음성 인코더 오픈소스 공개
“언어 장벽 넘어 다양한 소통 확대”
이미지 확대
메타가 10일(현지시간) 1600여개 언어를 문자로 구현할 수 있는 인공지능(AI) 기술 ‘옴니링구얼’을 선보였다. 사진은 메타 로고 앞에서 스마트폰을 사용하는 이용자의 모습. 로이터 연합뉴스
메타가 10일(현지시간) 1600여개 언어를 문자로 구현할 수 있는 인공지능(AI) 기술 ‘옴니링구얼’을 선보였다. 사진은 메타 로고 앞에서 스마트폰을 사용하는 이용자의 모습.
로이터 연합뉴스


서아프리카 국가 라이베리아와 시에라리온에는 바이족과 일부 소수민족이 쓰는 ‘바이’(Vai)라는 언어가 있다. 사하라사막 이남 아프리카 대표 언어족인 니제르콩고어족의 ‘만데어’ 계열로 분류된다. 라틴 문자나 아랍어 문자를 기반으로 하지 않는 문자 체계를 가진 몇 안 되는 아프리카 언어 중 하나로 주목받지만 사용하는 인구는 12만명에 불과하다. 이런 소수언어도 인식해 문자로 변환하는 인공지능(AI) 기술이 페이스북·인스타그램 모회사 메타에 의해 개발됐다. 사실상 전 세계의 모든 언어를 인식할 수 있는 AI가 등장한 것으로, ‘바벨탑의 저주’를 풀 획기적인 기술로 평가된다.

메타의 기초AI연구(FAIR) 팀은 10일(현지시간) 소수언어 등 전 세계 1600여개 언어를 문자로 구현할 수 있는 자동음성인식(ASR) 체계를 공개했다. 메타는 모든 언어를 인식할 수 있다는 뜻을 담아 이 기술을 ‘옴니링구얼’(Omnilingual)이라고 이름 지었다.

메타는 “현재 대부분의 ASR은 인터넷에 널리 존재하는 소수의 ‘고자원 언어’에 집중돼 있다. 널리 사용되지 않거나 자원이 부족한 ‘저자원 언어’ 사용자는 ASR을 이용할 수 없는 경우가 많아 디지털 격차가 심화된다”며 “옴니링구얼에는 AI로 이전에는 기록되지 않았던 500개의 저자원 언어가 포함된다”고 밝혔다.

현재 주요 AI는 공식적으로 수십 개 정도의 언어를 인식하고 문자 변환을 지원하고 있다. 방대한 데이터 학습을 통해 인간의 언어를 이해하고 생성하는 대규모언어모델(LLM)에 의존하고 있어 데이터가 많은 고자원 언어에서는 잘 동작하지만 그렇지 않은 저자원 언어에서는 구동이 제한적이다. 새로운 언어 지원을 추가하려면 전문가가 주도하는 미세조정을 거쳐야 하는 불편함도 있다. 하지만 옴니링구얼은 ‘LLM-ASR’로 불리는 새로운 접근법을 통해 적은 수의 음성·문자 데이터 쌍만 있어도 기본적인 수준의 음성 인식 기능이 가능하다는 게 메타의 설명이다.

다만 옴니링구얼의 저자원 언어 문자 변환 오류율은 아직 고자원 언어보다는 높다. 사용량이 절대적으로 적기 때문이다. 메타가 공개한 자료를 보면 고자원 언어 249종 중에선 236종(94.8%)이 오류율 10% 미만으로 파악됐다. 하지만 저자원 언어 546종에선 195종(35.7%)만이 고자원 언어 변환율과 비슷한 정확도를 보였다. 메타는 이날 옴니링구얼에 적용된 매개변수 70억개 규모 음성 인코더를 누구나 활용할 수 있도록 오픈소스로 풀었다. 음성 데이터를 자동으로 AI가 이해할 수 있는 벡터 데이터 형태로 정렬하는 도구다.



메타는 “옴니링구얼은 전 세계적으로 음성 기술 접근성을 확대한 중요한 진전으로, 가장 소외된 언어권의 사람들도 고품질 음성-텍스트 변환 시스템을 이용할 수 있도록 보장한다”며 “궁극적으로 언어 장벽을 허물고 다양한 언어 및 문화적 배경을 가진 사람들 간의 소통을 가능하게 하는 것이 목표”라고 밝혔다.
2025-11-12 2면
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지
close button
많이 본 뉴스
1 / 3
'새벽배송 금지'에 대한 여러분의 생각은 어떤가요?
민주노총 택배노조의 ‘새벽배송 금지’ 제안을 두고 논란이 거세지고 있다. 노동자의 수면·건강권을 지켜야 한다는 주장과, 새벽 배송을 원하는 노동자들의 ‘일할 권리’, 민생경제를 지켜야 한다는 반발이 정면으로 맞붙고 있다. 여러분은 어떤 생각을 갖고 계신가요?
1. 새벽배송을 제한해야 한다.
2. 새벽배송을 유지해야 한다.
광고삭제
광고삭제
위로