'Multimodal' 태그의 글 목록

본문 바로가기

Multimodal

120초 대화 3초 만에 AI로 생성…딥마인드, 오디오 생성 기술 ‘사운드스트림’과 ‘오디오LM’ “최신 음성 생성 기술은 대화 스크립트와 화자 전환 표시(speaker turn markers)만 주어지면 2분 분량의 대화를 화자 일관성을 가진 높은 오디오 품질로 생성할 수 있다. 이 모델은 단일 텐서 프로세싱 유닛(TPU) v5e 칩에서 3초 이내에 한 번의 추론 패스로 이 작업을 수행한다. 즉, 실시간보다 40배 이상 빠르게 오디오를 생성한다.”구글 딥마인드(DeepMind)가 그동안 진행해 온 오디오 생성 연구의 기반이 된 기술 개요를 ‘오디오 세대의 지평을 넓히다’라는 제목으로 블로그를 통해 소개했다. 단순한 소리 생성과 합성에서 시작한 오디오 생성 연구는 실제 사람의 목소리를 완벽에 가깝게 생성하는 것은 물론이고 어조, 음색, 감정 표현까지 실제 사람과 구분하기 힘들 만큼 구현하는 단계에 이.. 2024. 11. 19. 더보기

AI를 위한 839명의 인간 활동 기록...메타, 멀티모달 데이터 세트 Ego-Exo4D 발표 메타가 1,422시간 이상의 분량의 인간 활동을 영상으로 기록한 이고-엑소4D(Ego-Exo4D)를 발표했다. 이고-엑소4D는 839명의 참가자가 전 세계 13개 도시에서 일상적인 생활 속에서 활동하는 '숙련된 사람의 행동'을 다채널 영상과 오디오로 담아낸 멀티모달, 멀티뷰, 비디오 데이터 세트로, AI를 위한 비디오 학습 및 다중 모드 인식에 활용할 수 있는 요긴한 자료다. 이고-엑소4D는 요리, 음악, 축구, 건강, 농구, 춤, 자전거 수리, 암벽 등반을 하는 사람과 주변에 카메라를 설치하고 다양한 각도에서 인간의 활동을 기록했다. 사람은 안경 형태의 웨어러블 카메라를 이용해 현재하고 있는 행동을 1인칭 시점에서 기록한 자기중심적(egocentric)인 영상을 촬영하도록 했고, 사람 주변에 설치한 여.. 2023. 12. 8. 더보기

멀티모달 음성, 문자 번역 AI 모델...메타, 최대 100개 언어 지원 '심리스M4T' 번역기는 컴퓨터, 인터넷, 스마트폰만큼이나 일상과 업무에서 자연스럽고 꼭 필요한 도구가 됐다. 인공 번역 기술의 발전은 제법 오랜 역사를 가지고 있다. 하지만 지금처럼 제법 쓸만한 번역기가 활용되기 시작한 것은, 인공 지능이 번역에 본격적으로 활용되기 시작한 이후다. 그러나 아직 한계는 있다 문자 입력을 문자 출력으로 번역하거나, 음성 입력을 음성 출력으로 번역하는 단일 모달리티에 머물러 있기 때문이다. 메타(Meta)가 싱글 모달 중심이던 AI 기반 번역 기술을 한 단계 진화시킨 멀티모달 AI 모델 심리스M4T(SeamlessM4T)를 발표했다. 문자와 음성을 동시에 지원하는 심리스M4T는 문자-문자, 음성-음성, 문자-음성, 음성-문자 형태로, 상황에 따라 편리하고 효율적인 다국어 번역 기능을 제공한.. 2023. 8. 24. 더보기

문자-비디오 변환 AI 시장 37.1% 성장 전망...컨설팅 부문에서 생성AI 시장 주도 글로벌 '문자-비디오 변환 AI' 시장 규모가 2027년까지 37.1%의 성장률을 기록하며 초고속으로 성장할 전망이다. 2022년 1억 달러로 추정되는 시장 규모는 2027년에 9억 달러 규모로 급성장할 것으로 예상된다. 비디오가 고객 참여 및 유지율을 높이는 중요한 도구로 자리 잡으면서, 기업에서의 비디오 수요가 증가가 시장 성장할 주도할 것으로 보인다. 마켓앤마켓(MarketsandMarkets)이 '2027년까지 글로벌 텍스트-이미지 변환 AI 시장 전망(Text-to-Video AI Market - Global Forecast to 2027)' 보고서를 발표했다. 보고서는 텍스트-이미지 변환 AI 시장을 구성 요소(소프트웨어, 서비스), 배포 모드(온프레미스, 클라우드), 조직 규모(대기업, 중소.. 2023. 4. 18. 더보기

생각하는 대로 이미지 생성, 다양한 형태로 사람과 소통...AI는 멀티모달로 진화중 소식이나 기술로 접하는 인공지능은 '나'와 조금은 동떨어져 보이지만, 실생활 속에 인공지능은 이미 '나'의 삶 곳곳에 자리를 잡고 있다. 인터넷 포털 속에서 제공하는 수 많은 정보나 검색 엔진부터 메신저, 스트리밍, 게임, 음성 비서, 사진이나 동영상 앱 등 이미 수 많은 곳에서 인공지능이 활약하고 있다. 하지만 지금까지의 인공지능은 인간의 감각이나 능력 중에서 어느 한 가지에 초점을 맞춰 특화 시킨 것이 대부분이다. 예를 들어 문자와 문장을 인식하고 분석해 검색이나 번역에 활용하고, 음성으로 정보를 주고 받는 음성 기반 인공지능 비서, 영상이나 동영상 속의 사물이나 문자를 인식하고 구분하는 것이 그렇다. | 텍스트-이미지 또는 언어-이미지 등 여러 채널로 상호작용하는 멀티모달 AI 컴퓨터, 스마트폰, .. 2022. 12. 9. 더보기

이전 1 다음

티스토리툴바