본문 바로가기

텍스트로 고품질 오디오 및 음악 생성...메타, 오픈 소스 AI '오디오 크래프트' 출시

반응형

메타가 다양한 용도로 활용할 수 있는 음향 효과와 음악을 생성하는, 생성형 AI 도구인 오디오크래프트(AudoCraft) 키트를 출시했다. 오디오크래프트는 뮤직젠(MusicGen), 오디오젠(AudioGen), 엔코덱(EnCodec) 세 가지로 구성되어 있으며, 오픈 소스로 제공되는 만큼 누구나 자유롭게 활용이 가능하다.

뮤직젠은 라이선스 받은 음악으로 학습을 시킨 음악 생성형 AI로, 악보나 악기 등에 대한 전문적인 지식 없이 '음악'을 만드는 작곡에 활용할 수 있다. 오디오젠은 공개된 음향 효과를 기반으로 학습한 인공 지능으로 다양한 음향 효과로 사용할 수 있는 '소리'를 생성한다. 엔코덱은 더 적어진 아티팩트(artifact)로 더 고품질의 음악을 생성할 수 있는 능력을 향상한 생성형 AI다.

엔코덱(EnCodec) 신경 오디오 코덱을 사용하여 원시 신호에서 개별 오디오 토큰을 학습하고, 이를 통해 음악 샘플에 대한 새로운 고정 '어휘'를 제공해 오디오 언어 모델을 교육한다. (자료 : Meta AI)


생각하는 것을 문자로 쓰기만 하면, 그것이 무엇이든 척척 만들어내는 생성형 AI의 활약 무대가 넓어지고 깊어지고 있다. 메타가 선보인 오디오 크래프트를 활용하면 음향과 음악을 만들고 활용하는 전문적인 영역의 문턱을 없앨 수 있다. 오랜 학습과 경험을 쌓아야 하고 어느 정도 재능이 있어야 가능했던 영역이, 누구나 원하는 것을 문자로 입력하면 즉석에서 만들어지는 것이다.

이를 테면 '드럼 비트가 있는 80년대 일렉트로닉', '재즈 인스트루멘탈, 미디엄 템포, 경쾌한 피아노' 등으로 원하는 음악 종류나 패턴을 입력하면 바로 음악을 생성해 준다. 사람의 손을 직접 거쳐야 하는 '작곡'과는 다소 거리가 있을 수 있지만, 기업이나 개인이 소셜미디어나 웹사이트 등에서 사용할 음악을 만드는 데 손색이 없다.

디지털 혁신이 그야말로 혁신에서 일상이 되면서, 업무 환경이나 개인 일상의 디지털화는 이제 당연한 것으로 여겨진다. 문서, 사진, 영상, 음향, 음악 등의 다양한 요소를 혼합하고 융합해서 활용하는 멀티모달이 일상화되면서, 그러한 요소로 만들어진 콘텐츠에 대한 수요 역시 가파르게 증가하고 있다. 그런 모든 것을 사람이 직접 해야 한다면, 그런 과정에 필요한 인력과 비용을 감당하는 것은 쉽지 않다.

오디오크래프트와 같은 생성형 AI를 활용하면 인스타그램에 올릴 사진이나 동영상에 쉽고 빠르게 배경 음악을 생성해서 넣을 수 있다. 상품 설명에 삽입할 잔잔한 피아노 연주가 흐르는 사운드 트랙을 만드는 것도, 재주나 능력이 필요 없는 단순한 기능이 될 뿐이다. 개 짖는 소리, 태풍이 몰려온 바다의 파도 소리, 가을바람에 구르는 낙엽 소리처럼 다양한 종류의 음향 효과로 바로 만들어 적용할 수 있다.

메타는 "오디오크래프트는 음악과 사운드 생성 및 압축을 모두 한 곳에서 처리한다. 구축 및 재사용이 쉽기 때문에 더 나은 사운드 제너레이터, 압축 알고리즘 또는 음악 제너레이터를 구축하려는 사용자는, 동일한 코드 기반에서 모든 작업을 수행하여 다른 사람이 수행한 작업을 기반으로 구축할 수 있다. 모델을 단순하게 만드는 데 많은 노력을 기울였지만, 최신 기술을 지원할 수 있도록 하는 데도 최선을 다했다"라고 밝혔다.

아울러 "사람들은 모델을 쉽게 확장하고 연구용 사용 사례에 맞게 조정할 수 있다. 사람들에게 모델에 대한 액세스 권한을 부여하여 필요에 맞게 조정하면 거의 무한한 가능성이 있다. 이것이 바로 우리가 이 모델 제품군을 통해 하고자 하는 일이다. 사람들에게 작업을 확장할 수 있는 힘을 주는 것이다"라며 개발 취지를 설명했다.

 

Syndicated to WWW.CIOKOREA.COM

반응형