본문 바로가기

멀티모달 음성, 문자 번역 AI 모델...메타, 최대 100개 언어 지원 '심리스M4T'

반응형

번역기는 컴퓨터, 인터넷, 스마트폰만큼이나 일상과 업무에서 자연스럽고 꼭 필요한 도구가 됐다. 인공 번역 기술의 발전은 제법 오랜 역사를 가지고 있다. 하지만 지금처럼 제법 쓸만한 번역기가 활용되기 시작한 것은, 인공 지능이 번역에 본격적으로 활용되기 시작한 이후다. 그러나 아직 한계는 있다 문자 입력을 문자 출력으로 번역하거나, 음성 입력을 음성 출력으로 번역하는 단일 모달리티에 머물러 있기 때문이다.

메타(Meta)가 싱글 모달 중심이던 AI 기반 번역 기술을 한 단계 진화시킨 멀티모달 AI 모델 심리스M4T(SeamlessM4T)를 발표했다. 문자와 음성을 동시에 지원하는 심리스M4T는 문자-문자, 음성-음성, 문자-음성, 음성-문자 형태로, 상황에 따라 편리하고 효율적인 다국어 번역 기능을 제공한다. 지원하는 언어는 최대 100개에 달한다.

메타가 공개한 SeamlessM4T는 최대 100개 언어를 지원하는 문자 및 음성 번역 멀티모달 AI 모델로, 서로 다른 언어 간에 음성 입력을 음성 또는 문자로 문자 입력을 문자 또는 음성으로 번역한다. (자료 : Meta)


인공 지능은 말 그대로 사람의 지능을 모방한 기술 또는 기계인 만큼 사람과 밀접한 관련이 있다. 어떤 형태로든 사람과 의견과 의미를 교환하는 상호작용이 필요하고, 이를 위해 서로가 인식하고 이해할 수 있는 의사소통 채널과 수단이 필요하다. 이를 테면 언어, 문자. 그림, 소리, 영상, 사진 등의 형태로 서로 소통을 해야 한다.

이러한 소통 수단을 모달리티(Modality)라고 하고, 두 개 이상의 모달리티를 사용하는 인공 지능 모델을 멀티모달 AI라고 부른다. 예를 들어 구글 번역기는 문자나 문장을 입력하면 이를 다른 언어의 문자와 문장으로 번역한다. 음성 입력의 경우도 마찬가지로 음성으로만 번역해서 결과를 알려주는 단일 모달 번역기다. 하지만 심리스M4T는 거의 100개에 달하는 언어의 음성을 인식하고, 이를 음성 또는 문자로 번역한다.

영어로 말하면 이를 한국어로 번역해서 음성으로 들려주거나 이를 문장으로 출력한다는 뜻이다. 음성-문자 번역은 최대 100개 언어를 지원하고, 음성-음성 번역의 경우는 100개 언어에 대한 입력과 35개 언어에 대한 출력이 가능하다. 문자-음성의 경우도 100개의 입력 언어와 35개의 출력 언어를 지원한다. 문자-문자 번역의 경우는 최대 100개 언어까지 가능하다.

심리스M4T는 연구자와 개발자가 연구용 라이선스에 따라 활용할 수 있는 오픈 사이언스 형태로 공개됐다. 또한 27만 시간 분량의 음성과 문자 정렬을 마이닝한 심리스얼라인(SeamlessAlign) 개방형 다중 모달 번역 데이터 세트를 함께 공개했다. 2022년에는 200개 언어를 지원하는 문자-문자 번역 모델인 NLLB(No Language Left Behind)를 출시했고, 대규모 다국적 음성-음성 번역 데이터 세트인 스피치매트릭스(SpeechMatrix)를 개발하기도 했다.

메타는 "우리는 음성 및 텍스트 문장 인코더의 완전한 제품군인 SONAR와 다중 모드 데이터 처리 및 병렬 데이터 마이닝을 위한 라이브러리인 스톱스(stopes)를 사용하여 자체 단일 언어 데이터 세트에 대한 마이닝을 쉽게 수행할 수 있도록 한다. 모든 연구 발전은 당사의 차세대 시퀀스 모델링 라이브러리인 페어섹2(fairseq2) 에 의해 지원된다"고 밝혔다.

아울러 "우리가 지원하는 저자원 및 중간 자원 언어의 성능이 크게 향상되었다. 이는 디지털 언어 발자국이 더 작은 언어입니다. 우리는 또한 영어, 스페인어, 독일어와 같은 리소스가 많은 언어에 대해서도 강력한 성능을 유지하고 있다. 심리스M4T는 별도의 언어 식별 모델이 필요 없이 소스 언어를 암시적으로 인식한다"고 전했다.

 

Syndicated to WWW.CIOKOREA.COM

반응형