본문 바로가기

매월 10억분 이상의 음성 언어 처리...구글, 스피치 AI 폭발적인 성장과 활용 소개

반응형

인간과 컴퓨터 사이의 상호 작용을 '입력'과 '출력'이라는 건조하고 기계적인 단어로 정의하던 때가 있었다. 지금도 그때와 별로 달라진 것이 없는 것 같지만 실상은 그렇지 않다. 컴퓨터, 스마트폰, 스마트 스피커나 디스플레이와 같은 컴퓨팅 도구와 '말'로 소통하는 것이, 일상적인 수준으로 가능한 세상이 열렸기 때문이다.

문자를 음성으로 변환(TTS;Text-To-Speech)하거나 음성을 문자로 변환(STT:Speech-To-Text)하는 기술은, 사람과 컴퓨팅 도구의 상호작용에서 새로운 지평을 열명 혁신의 길을 넓혀가고 있다. 특히 음성을 문자로 인식, 분석, 변환하는 STT가 AI 기술과 결합하면서, 스피치 AI 분야는 경계를 특정할 수 없을 만큼 다양한 분야로 확산되고 확대되고 있다.

엠바디드의 목시(Moxie)는 스피치 AI를 적용해 아동과의 상호작용을 돕는 로봇이다. 아이들이 친구나 가족과 대화하는 것처럼 말을 주고받으며, 사회, 정서, 인지 학습을 돕는다. (자료:Embodied)

구글 클라우드의 스피치 제품 관리자인 칼럼 반즈(Calum Barnes)가 구글 공식 블로그를 통해, 구글 클라우드 고객의 대표적인 스피치(Sppech) AI 사례 세 가지를 소개했다. 구글 클라우드가 STT API를 공개 베타 형식으로 출시한 것이 2017년 4월 19일이다. 그로부터 5년이 지나는 동안 스피치 AI의 변화와 성장을 보면, 이제 본격적으로 사람과 기계가 말로 소통할 수 있는 시대가 된 것을 실감할 수 있다. 

그는 구글 클라우드의 스피치 API가 한 달에 처리하는 음성 언어가 10억 분 분량이라고 전한다. 이는 옥스퍼드 영어 사전(Oxford English Dictionary) 전체를 정상적인 말하기 속도로 받아 적을 경우, 50만 번 이상 필사하는 분량과 비슷하다. 질과 양적인 면에서 사람의 말을 인식하고 문자로 변환하는 능력이, 상호작용할 수 있는 중요한 수단으로 활용되고 있다는 의미다. 

인터렉티브텔(InteractiveTel)은 클라우드 기반 고객 상호 작용 분석, 통화 추적 및 통신 솔루션 전문 업체다. 음성 및 텍스트 통신을 실시간으로 분석하고, 고객 경험과 비즈니스 결과를 개선해 의사 결정을 가속화할 수 있도록 해 주는, 특허받은 AI 기반 통화 추적 및 대화 분석 솔루션을 가지고 있다.

예를 들어 자동차 딜러에게 고객이 상담 전화를 걸었을 때, 구매할 수 없는 자동차에 대한 문의를 할 경우, 인터렉티브텔 플랫폼은 대화 내용을 분석한 후 딜러에게 경고 메시지를 보낸다. 그리고 비슷한 차량 재고가 있는지 알려준다. 플랫폼은 해당 고객과 대리점에서 상담을 받은 적이 있는지 대화를 분석해서 알고 있으며, 감정 분석을 통해 영업 사원과 고객 간의 상호 소통이 원활한지를 분석하기도 한다. 

인터렉티브텔은 2017년 구글 클라우드에서 STT API를 출시했을 때, 이를 도입하면서 전사(transcription) 정확도가 30% 향상됐다. 이전에는 일관되지 않은 결과 생성으로 인해 어려움을 겪었지만, 인터렉티브텔 플랫폼의 대표적인 KPI인 유지율(retention rate)이 STT API 도입 후 96%를 유지하고 있다. 

엠바디드(Embodied)는 개인과 가족의 삶의 질을 향상하는 동반 로봇(companion robots)을 통해, 사람 중심의 보살핌과 웰빙 혁명을 추구하는 로봇 및 AI 전문업체다. 사람과 로봇의 자연스러운 상호작용을 위한 목적으로 개발한 소셜엑스(SocialX)라는 플랫폼을 기반으로, 어린이의 사회, 정서, 인지 학습을 도와주는 목시(Moxie)라는 로봇을 개발하고, 판매 또는 대여를 통한 서비스를 제공하고 있다.

목시는 친구들과 상호 하는 것처럼 친근하게 대화하고 소통할 수 있는, 어린이의 눈높이에 맞춘 로봇으로 역시 스피치 AI를 활용한다. 가정에서 아이들의 학습과 정서 발달을 돕거나, 병원에서 치료와 회복을 돕는다. 예를 들어 아이가 "나는, 우주를 좋아해"라고 말하면, 목시는 천문학과 관련된 대화로 전화하고 이를 이어가며, 북클럽에서 책을 읽으면 목시는 질문과 토론을 이어가는 식이다.

엠바디드의 설립자이자 CEO인 파올로 피르자니안(Paolo Pirjanian)은 "우리는 부모가 기술을 통해 아이들을 도울 수 있기를 바란다. 로봇은 아이들이 힘든 감정을 공유하면서, 친구, 가족, 그리고 주변 세계와 소통할 수 있도록 도와주는 공간을 제공한다. 로봇이 처음부터 어린이를 정확하게 이해해야 상화작용에 적합한 리소스를 활용할 수 있기 때문에, 클라우트 스피치 AI는 상호작용을 위한 출발점이 된다"고 전했다.

허브스팟(HubSpot)은 CRM(Customer Relationship Management) 플랫폼 전문업체로 대화형 인텔리전스(Conversation Intelligence)를 통해 인사이트를 얻는 방법으로 음성 데이터를 활용하고 있다. 그리고 이를 위해 STT API 위에 구축된 여러 가지 모델의 독점 스택을 사용하고, 다양한 API 기능을 음성 분석에 활용하고 있다.

예를 들어 회의에 참석한 사람들의 말하는 내용을 자동으로 메모하고 분석해서, 음성 데이터를 CRM 데이터와 연결하여 추세를 측정하거나 시장의 변화 식별에 활용한다. 대화 내용을 API 기반의 스피치 AI를 통해 빠르고 효율적으로 분석할 수 있고, 문맥 편향(contextual biasing)이나 화자 태깅(speaker tagging)과 같은 다양한 API 기능을 활용할 수 있다.

칼럼 반즈는 "이러한 사례에서 알 수 있듯이, 스피치 AI 기술은 그 자체로 강력하다. 그리고 이전에 볼 수 없었던 경험을 위해, 많은 AI를 결합하는 보다 발전되고 야심찬 사용 사례의 중요한 출발점이기도 하다. 필요한 용도에 맞게 음성을 정확하게 전사하고 이해할 수 있게 되면, 다양한 다른 AI 서비스 및 애플리케이션을 레이어링한 데이터로부터, 더 매력적인 경험이나 더 깊은 통찰력을 얻을 수 있다"고 밝혔다.

 

 Syndicated to WWW.CIOKOREA.COM

반응형