본문 바로가기

반응형

🅣•TREND•TECHNOLOGY/ARTIFICIAL INTELLIGENCE

'언어 지원, 이미지 생성, 기후 변화 대응'...구글, 'AI가 기술을 확장하는 세 가지 방법' "2012년 이전에는 컴퓨터가 말이나 글을 보고, 듣고, 이해하는 데 정말 어려움을 겪었다. 지난 10년 동안 우리는 AI 분야에서 특히 빠른 발전을 이루었다. 그리고 오늘 변화하는 AI의 세 가지 영역에 대해 소개한다. 첫째는 AI를 사용하여 더 많은 언어로 기술에 액세스 할 수 있도록 하는 것이다. 둘째는 AI가 창의성을 강화할 수 있는 방법을 탐색한다. 셋째는 기후 적응을 포함한 사회적 공익을 위한 AI다." 구글의 제프 딘(Jeff Dean) 선임 연구원이 구글 블로그에 'AI가 전 세계적으로 유용한 기술을 확장하는 3가지 방법(3 ways AI is scaling helpful technologies worldwide)'이라는 제목으로, 구글이 진행하고 있는 혁신적인 인공 지능 기술 활용 사례를.. 2022. 11. 3. 더보기
AI가 만든 '스톡 이미지' 시대 열린다...셔터스톡, 오픈AI 이미지 생성기 API로 연동 셔터스톡(Shutterstock)이 오픈AI와의 파트너십을 확대하고, 인공 지능이 만든 이미지를 고객들에게 제공하기 위한 실행 계획을 발표했다. 이를 위해 오픈AI의 인공지능 이미지 생성 플랫폼인 달·이(DALL·E)를 API로 연동할 예정이다. 앞으로 몇 달 동안 진행될 연동 작업이 마무리되면, 고객들이 셔터스톡 사이트에서 이미지 생성기에 접근해 원하는 이미지를 직접 생성하고 사용할 수 있게 된다. 이미 오픈AI는 셔터스톡과 파트너 관계를 맺고, 달·이의 학습에 필요한 이미지를 셔터스톡으로부터 제공 받았다. 이번 계획은 이러한 파트너십을 더욱 확대해 고객이 셔터스톡에 연결된 달·이를 활용해 이미지를 만들고, 이미지 생성 기능에 학습 데이터로 이미지를 제공한 작가에게 로열티 형태로 기여자에 대한 보상을 .. 2022. 11. 2. 더보기
"당신의 '상상'은 비디오가 된다"...메타, 제너레이티브 AI '메이크 어 비디오' 공개 "일몰, 고해상도의 아름다운 열대 해변에서 아이스크림을 먹는 골든 리트리버", "하늘을 나는 빨간 망토와 슈퍼 히어로 복장을 한 개", "초상화를 그리는 테디베어". 무엇을 상상하든, 그 상상을 텍스트로 입력하면, 동영상 클립으로 만들어준다. 메타가 새롭게 선보인 동영상 제너레이티브(Generative) AI 얘기다. 메타가 텍스트를 입력하면 동영상 클립을 생성하는 '메이크 어 비디오(Make a Video)를 공개했다. 최근 들어 텍스트 입력을 기반으로 이미지를 생성하는 텍스트-이미지 생성 AI가 봇물처럼 등장하는 가운데, 이제는 한발 더 나아가 동영상까지 생성할 수 있는 인공 지능으로 발전한 것이다. 아직은 영상 품질이 떨어지고 불과 몇 초 정도의 동영상 클립만 만들 수 있지만, 다음 단계로 진화하는.. 2022. 10. 5. 더보기
사람 말귀 더 잘 알아듣는 AI...오픈AI, 다국어 음성 인식 '위스퍼' 아키텍처 공개 '음성을 인식한다'는 하나의 문장에는 많은 의미가 들어가 있다. 사람 목소리를 알아듣고, 어떤 언어를 사용하는지 알 수 있어야 하고, 말하는 내용을 이해할 수 있어야 하며, 때로는 맥락까지 간파해야 한다. 결국 인공 지능이 '음성을 인식할 수 있다'는 것은, 궁극적으로 '인간 수준'의 정확성과 완벽함을 가진 언어 능력을 가지고 있어야 한다. 오픈AI(OpeanAI)가 공개한 위스퍼(Whisper)는 바로 그런 수준의 음성 인식 수준을 갖는 인공 지능을 개발하기 위한 오픈 소스 기반 다국어 음성 인식 아키텍처다. 음성 인식을 통한 유용한 애플리케이션을 구축하고, 강력한 음성 처리를 위한 연구에 활용할 수 있는 모델 및 추론 코드를 깃허브(github)를 통해 공개했다. 오픈AI가 공개한 위스퍼는 다국어 및.. 2022. 9. 23. 더보기
직접 만든 콘텐츠에 AI 성우 목소리를...머프, 사람만큼 자연스러운 AI 음성 라이브러리 기계적으로 합성한 사람의 목소리는 실제 사람의 그것과 확실하게 구별된다. 그런 때가 있었다. 내용을 알아듣는 데 문제는 없지만, 누가 들어도 사람의 목소리는 아니었다. 텍스트를 음성으로 바꿔주는 TTS(Text To Speech)를 사용하는 분야는 다양한데, 이런 로봇처럼 어색한 목소리와 함께 생활하는 시간이 제법 길었다. 하지만 인공 지능이 본격적으로 음성 합성에 활용되면서 확연히 구별 되던 그 경계가 점점 사라지고 있다. 미국 스타트업인 머프.에이아이(MURF.AI)는 2020년에 10월에 설립된 새내기 기업이다. 인공지능 기반의 음성 합성 기술을 활용해 다양한 언어의 목소리를 서비스로 제공하는데, 언어에 따라 조금씩 차이는 있지만 사람 목소리처럼 편하고 자연스럽다. 2022년 9월 기준으로 21개 .. 2022. 9. 22. 더보기
아바타 제작도 클라우드 AI로 간편하게...엔비디아, '옴니버스 ACE' 발표 메타버스와 같은 가상세계에서 활동하고 활약하는 사람을 구현하는 것은 쉽지 않은 작업이다. 존재하지 않는 가상의 인물을 만들어낼 수도 있고, 실제로 존재하는 사람을 가상공간에 맞게 모델링할 수 있다. 어떤 경우가 되었든 가상 비서나 디지털 휴먼처럼 상호작용이 가능한 가상인물을 만들어 실제로 활용하려면, 이를 구축하고 구현해서 배포할 수 있는 기술, 장비, 인력 등이 있어야 한다. 엔비디아가 이러한 작업을 개발자가 좀 더 쉽고 간편하게 할 수 있는 클라우드 기반 AI 모델 및 서비스 모음인 '엔비디아 옴니버스 아바타 클라우드 엔진(NVIDIA Omniverse Avatar Cloud Engine, 이하 옴니버스 ACE)를 발표했다. 옴니버스 ACE를 활용하면 상호작용이 가능한 대화형 아바타를 빠르고 쉽게 구.. 2022. 8. 11. 더보기
100만 명에게 AI 이미지 생성 제공...오픈AI, DALL·E 2 베타 출시 오픈AI가 인공 지능을 활용한 이미지 생성 및 편집 AI 시스템인 DALL·E 2를 베타 버전으로 일반 사용자에게 제공한다. 앞으로 몇 주 동안에 걸쳐 대기자 명단에 등록한 사용자 100만 명을 초대하고, 이들은 무료로 제공되는 크레딧을 활용해, 이미지를 생성, 편집, 변형할 수 있다. 더 많은 이미지를 얻거나 편집하고 싶은 사람은 추가 크레딧을 유료로 구매해서 사용할 수 있다. DALL·E는 오픈AI가 지난 2021년 1월에 공개한 영어를 사용하는 자연어 처리 기반 이미지 생성 인공 지능이다. 자연어 형태의 문자(Text)와 이미지를 사용해서, 텍스트 설명을 이해하고 이를 기반으로 이미지를 생성한다. 오픈AI는 테슬라의 설립자인 일론 머스크 등이 2021년 설립한 인공 지능연구소로, GPT-3(Gene.. 2022. 7. 23. 더보기
그래프코어, 슈퍼컴 수준의 IPU 성능 달성...MLPerf 벤치마크 결과 공개 그래프코어가 지능형 처리 장치인 IPU-POD64 시스템에 대한 첫 번째 MLPerf 벤치마크 결과를 공개했다. 이번 벤치마크에서 IPU-POD64는 BERT 학습 시간에서 9분, ResNet-50 학습 시간에서 14.5분을 기록했다. 이는 슈퍼컴퓨터에 버금가는 성능으로, 경쟁사와 대비할 때 달러당 성능 지표에서 확고한 우위를 선점한 것이라고 그래프코어는 밝혔다. 컴퓨팅 시스템의 성능은 단순하게 하드웨어의 기계적인 사양만으로는 성능을 객관적으로 평가하기 힘들다. 그래서 필요한 것이 주로 사용하는 용도와 목적에 맞도록 설계된 벤치마크 프로그램이다. 최근 들어 인공지능 처리능력을 극대화한 GPU, IPU 등의 사용 범위와 규모가 커지면서, 이들 시스템이나 플랫폼의 성능을 테스트하는 MLPerf와 같은 벤치마.. 2021. 7. 8. 더보기
AI로 정확하고 빠르게 제품 결함 콕 집어낸다...구글, '시각 검사 AI 솔루션' 발표 구글 클라우드가 사람 눈에 의존하는 전통적인 방식의 품질관리보다 정확성과 효율성을 높인, 인공지능과 컴퓨터 비전을 활용한 새로운 '시각 검사 AI 솔루션(Visual Inspection AI solution)'을 블로그를 통해 공개했다. 시각 검사 AI 솔루션은 숙련된 전문가가 일일이 눈으로 확인해 제품 결함이나 불량제품을 선별하던 작업을, 자동화 공정을 통해 빠르고 정확하게 처리할 수 있도록 한 것이 특징이다. 다양하고 복잡한 생산공정에서 결함이 있는 불량 제품이 생기는 것은 피할 수 없는 일이다. 그래서 생산 마지막 단계에서 결함이 있는 제품을 골라내는 작업은 어떤 제조 분야에서나 꼭 필요한 과정이다. 품질관리가 정확하고 빠르게 이루어지지 않으면, 작업 지연, 수율 감소, 고객 불만, 사후 서비스 발.. 2021. 6. 23. 더보기
AI가 도로 위 포트홀 찾는다...구글, ML활용 도로 보수 사례 공개 인공지능의 존재와 활약을 접하는 것이 이제 일상이 됐다. 하지만 일상과 업무에서 접하게 되는 인공지능 보다, 보이지 않는 영역에서 활약하는 인공지능이 훨씬 많다는 것을 알아야 한다. 구글의 클라우드 파트너인 스프링ML(SpringML)과 미국 멤피스시의 협력 사례가 그런 것 중 하나다. 구글이 기계학습을 활용해 도로 유지 보수 효율을 높인 사례를 공식 블로그에 공개했다. 미국 테네시주에 있는 멤피스시는 스프링ML이 제공하는 분석 및 기계학습 솔루션을 활용해, 일 년 동안 약 6만 3,000개의 포트홀(pothole)을 찾아내고 보수한 것이다. 포트홀은 도로 위에 움푹 파인 구멍으로, 그대로 방치하면 사고 위험성을 높인다. 빗물과 과적 차량에 의한 압력이나 도로 노후 등으로 생기며, 포트홀로 인한 사고를 .. 2021. 1. 14. 더보기
도시 나무 심기에 AI와 항공 사진 활용...구글, 열섬 현상 해결하는 '트리 캐노피 랩' 도시가 갈수록 뜨거워지고 있다. 지구 온난화로 평균 기온이 높아진 데다, 콘크리트로 지어진 도시에 갇힌 열이 갈 곳이 없다. 같은 도시 공간에서도 특별히 뜨거운 곳이 생기기도 하는데 이를 열섬(Urban Heat Island)이라고 한다. 구글이 ‘트리 캐노피 랩(Tree Canopy Lab)’ 프로젝트를 통해 이러한 열섬 현상을 해결하는 제시 한다. 인공지능, 구글 지도 엔진(Google Earth Engine), 항공 사진이 활용되는데, 트리 캐노피의 핵심은 인공지능이다. 콘크리트 건물이 빼곡하게 들어찬 도시 공간에 열섬이 생기면 다양한 문제가 생긴다. 뜨거운 열기가 도심 건물이나 빌딩 사이에 갇혀 이동하지 않기 때문에 기온이 올라가고, 공기 흐름이 정체되기 때문에 대기 오염도 심해진다. 열섬 현상이.. 2020. 11. 19. 더보기
실시간 3D 감지 모델과 벤치마크 지원...구글, '오브젝트론 데이터 세트' 출시 구글이 컴퓨터 비전 분야의 기계 학습 과정에서 활용할 수 있는, 3D 비디오 클립 모음인 '오브젝트론(Objectron) 데이터 세트'를 발표했다. 오브젝트론 데이터 세트는 다양한 각도에서 더 많은 공통 객체를 담고 있는 객체 중심의 비디오 클립 모음으로, 실시간으로 3D 객체를 감지하는 기계 학습과 벤치마킹 등에서 활용할 수 있다. 기계 학습 기반의 컴퓨터 비전 기술을 구현하려면, 효율적인 알고리즘과 방대하고 정확한 학습 데이터가 필요하다. 학습하는 방법과 과정이 우수해야 하고, 학습에 필요한 양질의 데이터는 많을수록 좋다. 이렇게 학습된 인공지능 기술을 3D 객체를 감지, 분석, 이해하는 데 적용하면, 증강 현실, 로봇 공학, 이미지 검색 등 광범위한 분야와 응용 프로그램에서 활용할 수 있는 잠재력을.. 2020. 11. 11. 더보기
MS, 향상된 AI '자동 이미지 캡션' 개발...기존 보다 정확도 2배, 2020년 말 출시 사진은 두 가지 모습으로 존재한다. 첫째는 마음의 문을 열고 감정과 감성에 뿌리를 내리는 예술, 둘째는 판단의 영역에서 소통과 지식의 수단인 정보. 물론 예술과 정보로서의 두 가지 속성을 동시에 가질 수도 있다. 하지만 그것의 존재 이유와 목적에 따라, 사진 그 자체만으로는 2% 부족할 때가 있다. 사진에 대한 설명이 말 또는 글로 곁들여져야, 사진의 담긴 의미와 메시지를 전달하는데, 더욱 효과적일 수 있다는 얘기다. 특히 문서나 기록에 포함되는 사진은 캡션(Caption)이 선택이 아닌 필수요소다. 사진에 대한 설명을 첨부한 경우와 그렇지 않은 경우는, 의미를 전달하는 시간이나 정확성에서 많은 차이가 난다. 사진에 대한 설명이 없다면 내용을 파악하기 힘들거나 불가능한 경우도 종종 존재한다. 사진을 사용.. 2020. 10. 16. 더보기
구글은 어떻게 교통 상황을 예측할까?...'AI가 분석한 교통 패턴+실시간 교통 정보' 교통 정보 분석을 기반으로 한 최적화된 이동 경로 예측은, 경로 안내 기능을 갖춘 전자 지도가 가진 가장 핵심적인 기능이다. 현재 위치와 목적지를 선택하면, 불과 몇 초 만에 최적 경로를 알 수 있다. 빠르면 1-2초 만에 끝나 버리기 때문에 간단한 작업처럼 보이지만 실제 그 이면에서는 수많은 작업이 수행된다. 그렇다면 구글 지도는 어떻게 이동 경로를 결정하고, 이동 시간과 도착 시간을 예측할까? 구글 지도 제품 관리자인 요한 라우(Johann Lau)가 구글 블로그를 통해, 구글 지도가 최적 경로를 계산하고 이동 시간을 예측하는 방법에 대해 다음과 같이 소개했다. 구글 지도에 딥마인드의 기계 학습을 활용한 교통 정보 예측이 적용되면서, 전 세계 주요 도시의 예측 정확도가 개선됐다. (자료:DeepMin.. 2020. 9. 8. 더보기
갈수록 똑똑해지는 스마트 스피커…아마존, 알렉사에 그룹대화 등 4가지 기능 추가 아마존(Amazon)이 음성인식 인공지능 서비스인 알렉사(Alexa)에 '모든 장치에 드롭 인(Drop In) 적용', '모든 장치에 알림', '사진 공유 및 리액션', '매일 음악 추천’ 등의 새로운 기능을 추가했다. 아울러 호주와 뉴질랜드 개발자를 위한 ADR(Alexa Developer Rewards) 프로그램 지원, 알렉사 오토(Alex Auto) 관련 소식 등을 발표했다. 드롭 인은 아마존이 2017년 알렉사 쇼(Alexa Show)를 발표하면서 탑재한 일종의 통신 기능으로, 스마트 스피커인 에코를 인터컴처럼 활용해 가족이나 지인들과 바로 대화를 할 수 있도록 해준다. 이번에 적용된 ‘모든 장치에 드롭 인(Drop In for all of you’은 이를 확장한 것으로, 집 안에 있거나 가족들이.. 2020. 6. 3. 더보기
이미지 센서와 AI 엣지를 단일칩으로…소니, AI 지원 '지능형 비전 센서' 발표 소니가 1,230만 화소의 이미지 센서(Pixel Chip)와 AI(Artificial Intelligence) 프로세서(Logic Chip)를 하나로 통합한 지능형 비전 센서(Intelligent Vision Sensors)를 선보였다. 기본형인 IMX500(Bare Chip Product)과 패키지형인 IMX501(Package Product) 두 가지 모델이 있으며, 샘플 기준으로 IMX500은 지난 4월부터 공급되고 있고 IMX501은 6월에 출시할 예정이다. 다양한 장치와 센서가 인터넷으로 연결되는 IoT(Internet of Things)와 장치에서 데이터를 직접 처리하는 엣지 컴퓨팅이 빠르게 성장하고 있다. 인터넷에 연결된 수많은 장치나 센서에서 수집한 데이터는, 네트워크를 통해 서버나 클라.. 2020. 5. 18. 더보기
알파벳 26자에 담아낸 AI 이야기…구글, OII와 협력해 초보자용 'AI 가이드' 제작 AI를 보통 사람들이 쉽게 이해할 수 있도록 알리는 일에 구글과 옥스퍼드 인터넷 연구소(OII;Oxford Internet Institute)가 손을 잡았다. AI(Artificial Intelligence)에 대한 정보가 넘쳐나지만, 그중에서 사실과 거짓을 구별하거나, 보통 사람들이 이해하기 쉬운 설명을 찾기가 쉽지 않다. 그래서 OII와 구글이 협력하여 ‘AI의 A to Z(The A-Z of AI)라는 온라인 가이드를 제작했다. '인공지능의 A-Z'는 인공지능의 이해를 돕기 위한 안내서다. AI가 무엇이고, 어떻게 작동하며, 우리 주변에서 어떻게 사용되며, 무엇을 변화시키고 있는지 등에 대해 소개하고 있다. 평범한 사람들을 위한 설명서인 만큼 최대한 쉽고 간단하게 만들었다. 특히, 알파벳 A부터 Z.. 2020. 3. 30. 더보기
인공지능을 재난과 재해 대응에 활용...미국 적십자사의 미씽 맵 프로젝트 해마다 전 세계에서 재난으로 10만 명이 목숨을 잃고, 재난에 영향을 받거나 삶의 터전을 잃는 사람이 2억 명에 달한다. 이렇게 재난에 취약한 사람들은 대부분 개발도상국에 거주하는 사회적 약자들이다. 이들이 거주하는 지역은 지도에 표시되지 않을 만큼, 사회적 인프라가 열악한 곳이다. 이런 지역에서 재난이 발생하면, 어디서 문제가 생겼는지 확인하기도 어렵고, 빠르고 신속하게 구조 및 구호 활동을 벌이기도 쉽지 않다. 미국 적십자에서는 이러한 문제를 해결하기 위해 '미씽 맵(Missing Map)'이라는 프로젝트를 진행해 오고 있다. 미씽 맵은 이름 그대로 ‘지도에 표시되지 않은 취약 지역’을 찾아, 지도에 표시해서 정확한 위치와 도로 등을 쉽게 확인할 수 있도록 하는 프로젝트다. 자원봉사자들이 위성 사진을.. 2020. 1. 8. 더보기
AI로 유방암 진단 정확성 높인다...딥마인드, 오진율 줄인 '유방암 진단' AI 모델 질병의 진단과 치료에 인공지능을 활용하고 적용하려는 연구가 광범위하게 이루어지고 있다. 그중에서도 다양한 종류의 암을 공략하려는 인공지능 연구가 활발하다. 이번에는 구글이 유방암 진단에 활용할 수 있는 인공지능 모델을 개발했다고 발표했다. 딥마인드(DeepMind)가 연구 중인 ‘유방암 진단 인공지능 모델’을 활용하면, 전문의보다 정확하게 유방암을 진단할 수 있다고 블로그를 통해 공개했다. 유방암은 전 세계적으로 여성들에게 가장 큰 영향을 주는 질병이다. 영국에서만 한 해에 5만 5,000명 이상이 유방암 진단을 받고, 미국 여성 8명 중 1명은 살면서 유방암에 걸린다. 유방암을 진단하는 데는 엑스레이(X-Ray) 촬영과 디지털 유방 조영술이 가장 널리 사용된다. 하지만 이러한 방법으로 유방암을 조기 진.. 2020. 1. 3. 더보기
‘음성’ 의료 기록 ‘문자’로 변환…아마존, 의료용 자동 음성 인식 기능 출시 AWS(Amazon Web Services)가 의료 분야에 특화된 기계학습 자동 음성인식(ASR;Automatic Speech Recognition) 서비스인 '아마존 트랜스크라이브 메디컬(Amazon Transcribe Medical, 이하 ATM)’을 출시했다. ATM은 AWS가 기존에 제공해 오던 아마존 트랜스크라이브를, 의학전문용어까지 인식하고 문자로 변환할 수 있도록 확장한 관리형 서비스다. 아마존 트랜스크라이브는 음성 인식과 문자 변환을 서비스 형태로 제공하고, 사용한 만큼 비용을 지불하고 확장과 축소가 간단하다. 스마트폰, 태블릿, 컴퓨터 등에 장착된 마이크를 통해 음성을 캡처해, 웹 소켓 프로토콜 기반의 스트리밍 API로 보내면, 실시간으로 음성을 인식하고 텍스트로 변환한다. 이렇게 인식과.. 2019. 12. 11. 더보기

반응형