본문 바로가기

'사람처럼 자연스럽게, 거의 실시간 번역'...메타, 심리스 커뮤니케이션 모델 공개

반응형

정확한 번역은 기본이고 말 속에 담긴 느낌까지 전달하는 AI 번역의 시대가 한 발짝 더 다가왔다. 메타(Meta)가  멀티모달 AI 모델인 심리스M4T(SeamlessM4T)를 한 단계 업그레이드한 '심리스M4T v2'를 기반으로, 사람 음성처럼 자연스러운 표현이 가능한 심리스익스프레시브(SeamlessExpressive)와 거의 실시간으로 번역을 제공하는 스트리밍 번역 모델 심리스스트리밍(SeamlessStreaming)을 개발했기 때문이다,

메타(Meta)가 심리스M4T를 공개한 것은 2023년 8월인데 불과 4개월 만에 일취월장한 새로운 AI 번역 모델을 세상에 선보였다. 심리스M4T는 문자-문자, 음성-음성, 문자-음성, 음성-문자 방식으로 다국어 번역을 지원한다. 문자-문자는 최대 100개 언어, 문자-음성은 100개의 입력 언어와 35개의 출력 언어를 지원했다. 다양한 나라의 언어를 문자와 음성으로 정확하게 번역하는 것이 심리스M4T의 재주였다.

메타가 사람 음성처럼 자연스럽게 거의 실시간으로 번역이 가능한 AI 번역인 '심리스 커뮤니케이션 모델(Seamless Communication models)'을 공개했다. (자료 : Meta)


심리스M4T v2는 여기에 '사람처럼 자연스러운 음성으로 실시간 번역'이라는 능력을 추가했다. '끊어짐 없이 매끄러운'이라는 심리스에 담긴 의미처럼 번역한 내용을 실제 사람이 말하는 것처럼 좀 더 자연스럽게 만든 것이 심리스익스프레시브다. 예를 들어 속삭이듯이 말을 했다면 번역된 다른 언어 음성도 속삭이듯이 말하고, 말하다가 잠깐 멈춘다면 역시 번역 음성도 멈춤 시간을 그대로 반영한다. 

이제까지 등장한 AI 기반 기계 번역에서 합성한 사람 음성은 정확한 의미 전달이 목적인 만큼 '감정'은 배재한 채 '내용'을 담는데 초점이 맞춰져 있었다. 그래서 우리가 알고 있는 전형적인 로봇 같은 음성에 익숙해져 있다. 심리스익스프레시브는 이런 점을 개선해 말하는 사람의 목소리 크기나 톤, 잠깐의 멈춤이나 강조, 슬픔, 흥분, 기쁨과 같은 감정까지 고려한 번역 음성을 들려주도록 진화하고 있다.

심리스스트리밍은 약 2초 간의 대기 시간을 거친 후 거의 실시간으로 번역을 해준다. 지금까지 AI 번역이 순차 통역이었다면 심리스스트리밍은 동시통역에 비유할 수 있다. 기존의 번역 시스템은 말하는 사람이 말을 마치면 그때부터 번역을 시작하지만, 심리스스트리밍은 몇 초의 지연 시간을 갖고 바로 번역에 들어가는 것이다.

메타는 "심리스스트리밍은 거의 100개에 달하는 입력 및 출력 언어에 대해 자동 음성 인식 및 음성-텍스트 번역을 지원하며, 거의 100개에 달하는 입력 언어와 36개 출력 언어에 대해 음성-음성 번역을 지원한다. 오픈 사이언스(open science)에 대한 접근 방식에 따라 연구자들이 이 연구를 기반으로 구축할 수 있도록 네 가지 모델을 모두 공개적으로 출시할 예정이다"라고 밝혔다.

앞에서 언급한 네 가지 모델은 메타가 '심리스 커뮤니케이션(Seamless Communication)' 모델이라고 소개하고 있는 '심리스M4T v2', '심리스익스프레시브', '심리스스트리밍', '심리스(Seamless)'를 의미한다. 여기에는 더 넓은 범위의 언어를 지원하는 심리스얼라인(SeamlessAlign), 데이터세트의 표현성에 초점을 맞춘 심리스얼라인익스프레시브(SeamlessAlignExpressive) 등이 포함된다. 자세한 내용은 메타 블로그에서 확인할 수 있다.

 

 Syndicated to WWW.CIOKOREA.COM

반응형