MS, 향상된 AI '자동 이미지 캡션' 개발...기존 보다 정확도 2배, 2020년 말 출시

사진은 두 가지 모습으로 존재한다. 첫째는 마음의 문을 열고 감정과 감성에 뿌리를 내리는 예술, 둘째는 판단의 영역에서 소통과 지식의 수단인 정보. 물론 예술과 정보로서의 두 가지 속성을 동시에 가질 수도 있다. 하지만 그것의 존재 이유와 목적에 따라, 사진 그 자체만으로는 2% 부족할 때가 있다. 사진에 대한 설명이 말 또는 글로 곁들여져야, 사진의 담긴 의미와 메시지를 전달하는데, 더욱 효과적일 수 있다는 얘기다.

특히 문서나 기록에 포함되는 사진은 캡션(Caption)이 선택이 아닌 필수요소다. 사진에 대한 설명을 첨부한 경우와 그렇지 않은 경우는, 의미를 전달하는 시간이나 정확성에서 많은 차이가 난다. 사진에 대한 설명이 없다면 내용을 파악하기 힘들거나 불가능한 경우도 종종 존재한다. 사진을 사용한 목적이 느낌이 아닌 정보의 전달이라면, 캡션의 역할과 중요성은 더욱 커진다.

마이크로소프트 연구팀이 ‘사람이 작성하는 설명보다 정확한 사진 캡션을 생성하는 인공지능’ 시스템을 구축했다고 블로그를 통해 공개했다. 이번에 개발한 새로운 모델은 애저(Azure) 인공지능 서비스의 일부인 ‘애저 코그너티브 서비스 컴퓨터 비전(Azure Cognitive Services Computer Vision)’ 제품을 통해 고객들에게 제공될 예정이다.

마이크로소프트가 인공지능을 활용해 정확성을 높인 ‘자동 캡션 기능’을 공개했다. 이번에 개발한 자동 캡션 기능은 기존의 마이크로소프트의 이미지 캡션 모델 보다 정확성이 2배 향상됐다. (화면:Microsoft)

이번에 공개된 인공지능 자동 캡션 기능을 애저 환경에서 사용할 수 있게 되면, 개발자들은 이를 활용해 서비스 접근성을 향상할 수 있게 된다. 또한 '시잉 AI(Seeing AI)’에 이를 통합하고 있으며, 올해 말이 되면 윈도와 맥 환경의 마이크로소프트 워드(Word)와 아웃룩(Outlook), 윈도 및 맥과 웹(Web) 환경의 파워포인트(PowerPoint) 용으로 출시할 예정이다.

마이크로소프트는 "자동 이미지 캡션을 사용하면 검색 결과로 반환된 사진부터 프레젠테이션에 포함된 이미지에 이르기까지, 모든 이미지의 중요한 콘텐츠에 액세스할 수 있다. 이번에 공개한 연구를 통해 이러한 결과를 개선할 수 있지만, 시스템이 매번 완벽한 결과를 반환한다는 의미는 아니다”라고 밝혔다. 이전보다 자동 캡션 기능의 성능이 향상된 것은 맞지만 때로는 기대에 못 미치는 경우도 있다는 의미다.

이러한 인공지능 기반의 자동캡션 기능은 활용 분야가 다양하고 필요성도 계속해서 증가하고 있다. 예를 들어 웹이나 소셜 미디어, 전자 문서 등에 첨부된 이미지에는 대체 텍스트를 포함하는 것으로 접근성을 크게 높일 수 있다. 그래서 시각 장애인이 콘텐츠에 접근하고 이해하는 데 대체 텍스트는 필수적인 요소다. 사진이 제대로 표시되지 않는 상황에서 사진의 내용 짐작할 수 있도록 해주고, 정확한 검색 결과를 출력하기 위해서도 반드시 필요하다.

이러한 사진 설명을 사람이 일일이 작성해서 첨부해야 한다면, 많은 시간이 필요하고 효율도 떨어진다. 사진에 대한 캡션을 작성한다는 것은, 생각보다 복잡한 과정이 필요하다. 우선 사진 속의 장면과 상황을 분석해 어떤 일이 일어나고 있는지 이해해야 한다. 그리고 사물과 행동 사이의 관계를 알아야 하고, 이를 사람이 이해할 수 있는 문장으로 요약하고 설명을 작성해야 한다.

마이크로소프트는 인공지능의 정확성을 높이기 위해 사진과 태그를 하나로 결합한 ‘시각적 어휘 사전(visual vocabulary)’을 활용했다. 단어 태그와 쌍을 이루는 풍부한 이미지 데이터 세트를 사용해, 대규모 인공지능 모델을 훈련시키고 각각의 태그를 이미지의 특정 개체에 매핑했다. 그런 다음 캡션이 있는 이미지 데이터 세트와 결합하고 훈련 시켜 문장 작성하는 방법을 학습시킨다.

이렇게 학습된 시각적 어휘는 새로운 개체가 포함된 이미지를 분석하고 설명을 작성하는 데 활용한다. 이렇게 훈련시킨 인공지능은 노캡(nocaps)에서 평가했을 때 사람이 작성한 이미지 설명보다 더 정확했다는 것이 마이크로소프트의 설명이다. 아울러 새로운 자동 이미지 캡션 시스템은 2015년부터 마이크로소프트 제품 및 서비스에 사용된 이미지 캡션 모델보다 2배 더 우수하다고 밝혔다.

⧉ Syndicated to WWW.CIOKOREA.COM

저작자표시 비영리 변경금지 (새창열림)

'🅣•TREND•TECHNOLOGY > ARTIFICIAL INTELLIGENCE' 카테고리의 다른 글

AI로 정확하고 빠르게 제품 결함 콕 집어낸다...구글, '시각 검사 AI 솔루션' 발표 (0)	2021.06.23
AI가 도로 위 포트홀 찾는다...구글, ML활용 도로 보수 사례 공개 (0)	2021.01.14
도시 나무 심기에 AI와 항공 사진 활용...구글, 열섬 현상 해결하는 '트리 캐노피 랩' (0)	2020.11.19
실시간 3D 감지 모델과 벤치마크 지원...구글, '오브젝트론 데이터 세트' 출시 (0)	2020.11.11
구글은 어떻게 교통 상황을 예측할까?...'AI가 분석한 교통 패턴+실시간 교통 정보' (0)	2020.09.08
갈수록 똑똑해지는 스마트 스피커…아마존, 알렉사에 그룹대화 등 4가지 기능 추가 (0)	2020.06.03
이미지 센서와 AI 엣지를 단일칩으로…소니, AI 지원 '지능형 비전 센서' 발표 (0)	2020.05.18
알파벳 26자에 담아낸 AI 이야기…구글, OII와 협력해 초보자용 'AI 가이드' 제작 (0)	2020.03.30

MS, 향상된 AI '자동 이미지 캡션' 개발...기존 보다 정확도 2배, 2020년 말 출시

'🅣•TREND•TECHNOLOGY > ARTIFICIAL INTELLIGENCE' 카테고리의 다른 글

'🅣•TREND•TECHNOLOGY/ARTIFICIAL INTELLIGENCE' Related Articles

티스토리툴바