본문 바로가기

반응형

멀티모달

AI를 위한 839명의 인간 활동 기록...메타, 멀티모달 데이터 세트 Ego-Exo4D 발표 메타가 1,422시간 이상의 분량의 인간 활동을 영상으로 기록한 이고-엑소4D(Ego-Exo4D)를 발표했다. 이고-엑소4D는 839명의 참가자가 전 세계 13개 도시에서 일상적인 생활 속에서 활동하는 '숙련된 사람의 행동'을 다채널 영상과 오디오로 담아낸 멀티모달, 멀티뷰, 비디오 데이터 세트로, AI를 위한 비디오 학습 및 다중 모드 인식에 활용할 수 있는 요긴한 자료다. 이고-엑소4D는 요리, 음악, 축구, 건강, 농구, 춤, 자전거 수리, 암벽 등반을 하는 사람과 주변에 카메라를 설치하고 다양한 각도에서 인간의 활동을 기록했다. 사람은 안경 형태의 웨어러블 카메라를 이용해 현재하고 있는 행동을 1인칭 시점에서 기록한 자기중심적(egocentric)인 영상을 촬영하도록 했고, 사람 주변에 설치한 여.. 2023. 12. 8. 더보기
'사람처럼 자연스럽게, 거의 실시간 번역'...메타, 심리스 커뮤니케이션 모델 공개 정확한 번역은 기본이고 말 속에 담긴 느낌까지 전달하는 AI 번역의 시대가 한 발짝 더 다가왔다. 메타(Meta)가 멀티모달 AI 모델인 심리스M4T(SeamlessM4T)를 한 단계 업그레이드한 '심리스M4T v2'를 기반으로, 사람 음성처럼 자연스러운 표현이 가능한 심리스익스프레시브(SeamlessExpressive)와 거의 실시간으로 번역을 제공하는 스트리밍 번역 모델 심리스스트리밍(SeamlessStreaming)을 개발했기 때문이다, 메타(Meta)가 심리스M4T를 공개한 것은 2023년 8월인데 불과 4개월 만에 일취월장한 새로운 AI 번역 모델을 세상에 선보였다. 심리스M4T는 문자-문자, 음성-음성, 문자-음성, 음성-문자 방식으로 다국어 번역을 지원한다. 문자-문자는 최대 100개 언어,.. 2023. 12. 6. 더보기
멀티모달 음성, 문자 번역 AI 모델...메타, 최대 100개 언어 지원 '심리스M4T' 번역기는 컴퓨터, 인터넷, 스마트폰만큼이나 일상과 업무에서 자연스럽고 꼭 필요한 도구가 됐다. 인공 번역 기술의 발전은 제법 오랜 역사를 가지고 있다. 하지만 지금처럼 제법 쓸만한 번역기가 활용되기 시작한 것은, 인공 지능이 번역에 본격적으로 활용되기 시작한 이후다. 그러나 아직 한계는 있다 문자 입력을 문자 출력으로 번역하거나, 음성 입력을 음성 출력으로 번역하는 단일 모달리티에 머물러 있기 때문이다. 메타(Meta)가 싱글 모달 중심이던 AI 기반 번역 기술을 한 단계 진화시킨 멀티모달 AI 모델 심리스M4T(SeamlessM4T)를 발표했다. 문자와 음성을 동시에 지원하는 심리스M4T는 문자-문자, 음성-음성, 문자-음성, 음성-문자 형태로, 상황에 따라 편리하고 효율적인 다국어 번역 기능을 제공한.. 2023. 8. 24. 더보기
텍스트로 고품질 오디오 및 음악 생성...메타, 오픈 소스 AI '오디오 크래프트' 출시 메타가 다양한 용도로 활용할 수 있는 음향 효과와 음악을 생성하는, 생성형 AI 도구인 오디오크래프트(AudoCraft) 키트를 출시했다. 오디오크래프트는 뮤직젠(MusicGen), 오디오젠(AudioGen), 엔코덱(EnCodec) 세 가지로 구성되어 있으며, 오픈 소스로 제공되는 만큼 누구나 자유롭게 활용이 가능하다. 뮤직젠은 라이선스 받은 음악으로 학습을 시킨 음악 생성형 AI로, 악보나 악기 등에 대한 전문적인 지식 없이 '음악'을 만드는 작곡에 활용할 수 있다. 오디오젠은 공개된 음향 효과를 기반으로 학습한 인공 지능으로 다양한 음향 효과로 사용할 수 있는 '소리'를 생성한다. 엔코덱은 더 적어진 아티팩트(artifact)로 더 고품질의 음악을 생성할 수 있는 능력을 향상한 생성형 AI다. 엔코.. 2023. 8. 4. 더보기
생각하는 대로 이미지 생성, 다양한 형태로 사람과 소통...AI는 멀티모달로 진화중 소식이나 기술로 접하는 인공지능은 '나'와 조금은 동떨어져 보이지만, 실생활 속에 인공지능은 이미 '나'의 삶 곳곳에 자리를 잡고 있다. 인터넷 포털 속에서 제공하는 수 많은 정보나 검색 엔진부터 메신저, 스트리밍, 게임, 음성 비서, 사진이나 동영상 앱 등 이미 수 많은 곳에서 인공지능이 활약하고 있다. 하지만 지금까지의 인공지능은 인간의 감각이나 능력 중에서 어느 한 가지에 초점을 맞춰 특화 시킨 것이 대부분이다. 예를 들어 문자와 문장을 인식하고 분석해 검색이나 번역에 활용하고, 음성으로 정보를 주고 받는 음성 기반 인공지능 비서, 영상이나 동영상 속의 사물이나 문자를 인식하고 구분하는 것이 그렇다. | 텍스트-이미지 또는 언어-이미지 등 여러 채널로 상호작용하는 멀티모달 AI 컴퓨터, 스마트폰, .. 2022. 12. 9. 더보기

반응형