본문 바로가기

200개 언어 번역, 번역 품질 44% 향상...메타, 최신 AI 모델 NLLB-200 발표

"오늘 우리는 NLLB의 중요한 혁신을 발표한다. 우리는 NLLB-200이라는 단일 AI 모델을 구축했으며, 이를 통해 200개의 다른 언어를 번역하여 이전 기술이 달성할 수 있었던 것보다 훨씬 더 정확한 결과를 제공한다. NLLB-200은 번역 품질을 평균 44% 향상한다. NLLB-200은 현재 기술을 더 넓은 범위의 언어로 액세스 할 수 있도록 하며, 미래에는 가상 경험도 보다 쉽게 액세스 할 수 있도록 도와줄 것이다." 

메타(Meta)가 추진 중인 NLLB(No Language Left Behind) 프로젝트의 진행 상황을 공개했다. 2022년 2월 NLLB 프로젝트가 진행 중이라는 사실을 공식적으로 공개한 지 약 5개월 만에 그동안의 성과를 밝힌 것이다. NLLB는 메타가 진행 중인 인공 지능을 활용한 두 가지 기계 번역(MT ; machine translation) 프로젝트 중 하나로, 전 세계 언어를 번역할 수 있는 인공 지능을 개발하는 것을 목표로 하고 있다.

전 세계 인구의 20% 이상은 상용화된 번역 기술 서비스를 받을 수 없다. 사용자 수가 적은 소수의 언어를 모국어로 사용하는 사람들을 위한 기계 번역은 디지털 격차 해소를 위해 필요하다. (자료:Meta)


현재 NLLB는 앞에서 언급한 대로 200개의 언어를 번역할 수 있는 수준에 도달했으며, 이전에 연구되었던 인공 지능 번역과 비교할 때 평균 44% 높은 점수를 받았다. 주목할만한 것은 일부 아프리카 및 인도 기반의 언어는 NLLB-200의 번역이 70% 이상 정확한 결과를 보였다는 점이다. 전 세계적으로 통용되는 공용어나 주류 언어가 아닌 언어에서 비교적 높은 정확도를 보여줬다는 것을 눈 여겨 볼만하다.

NLLB 프로젝트는 언어 문제로 디지털 정보와 문화에서 소외되고 있는 사람들의 디지털 격차를 해소하겠다는 목적으로 출발한 프로젝트다. 상대적으로 사용자가 많지 않은 언어를 모국어로 사용하는 사람들에게 기계 번역 서비스를 제공함으로써, 그들에게 정보 접근성을 높이고 메타버스와 같은 확장된 가상 세계에서의 몰입형 경험을 자유롭게 경험할 수 있는 기반을 만드는 것이다.

인공 지능을 활용한 기계 번역이 실제로 활용 가능한 수준의 높은 번역 정확도를 제공하려면, 먼저 번역할 언어의 데이터를 학습하는 과정이 필요하다. 문제는 학습할 수 있는 예제가 적은 언어일 경우, 학습할 데이터 양이 제한되기 때문에 정확성을 높이는 데 한계가 있다. NLLB는 이러한 문제를 해결하기 위해 기계 번역을 위한 새로운 형태의 고급 AI 모델을 구축해 프로젝트를 진행하고 있다.

이를 위해 메타는 다국어 번역 모델을 빠르게 평가하고 개선할 수 있는 다국어 번역 데이터 세트인 FLORES(Facebook Low Resource)를 구축했다. 지난 2월 NLLB 프로젝트를 공개했을 때만 해도 101개의 언어를 평가할 수 있는 FLORES-101을 사용할 수 있었는데, 이제 200개 언어까지 평가할 수 있는 FLORES-200 데이터 세트까지 구축했다.

FLORES를 사용하면 각각의 언어에서 FLORES의 성능을 측정해 번역 품질이 얼마나 우수한 지를 확인할 수 있다. 메타는 기계 번역 연구자와 개발자들이 번역 도구 개발 및  연구에 활용할 수 있도록 NLLB-200 모델과 FLORES-200 데이터 세트를 공개하고 있다. 또한 모델 교육 코드와 교육 데이터 세트를 다시 만들 수 있는 코드도 공개하고 있다.

 

 Syndicated to WWW.CIOKOREA.COM 

반응형

태그