본문 바로가기

엔비디아 텔사 T4 GPU 발표...업계 최고 추론 가속화 AI 플랫폼 제공

반응형

4차 산업혁명을 태동하게 하고 성장시키고 있는 진보와 혁신은, 다양한 기술과 도전이 융합하고 협력한 결과다. 존재하지 않던 것들이 누군가에 의해 만들어지고, 이미 있던 것 속에서 새로운 것을 발견하는 과정이 반복되고 있다. 그 과정에서 흐름을 주도하는 주체가 바뀌기도 하고, 우선순위가 역전되기도 한다. 현재 시점에서 그 혁명의 흐름을 이끄는 선두에는 인공지능이 다양한 분야의 기술 트렌드를 주도하고 있다.


엔비디아(NVIDIA)가 급속하게 진화하고 있는 인공지능 서비스와 시장을 겨냥한 AI 데이터 센터 플랫폼을 출시했다. AI 데이터 센터 플랫폼은 음성, 비디오, 이미지 및 추천(recommendation) 서비스를 위한 플랫폼으로, 업계에서 가장 빠르고 진보된 추론 가속화 기능을 제공하는 것이 특징이다. AI 데이터 센터 플랫폼은 엔비디아 테슬라 T4 GPU, 엔비디아 텐서RT 5, 엔비디아 텐서RT 추론 서버 세 가지로 구성된다.


테슬라 T4는 대부분 서버에 쉽게 장착되는 75와트의 소형 PCIe 폼 팩터로 제공되며, FP16에 65 테라 플롭스, INT8에 130 테라 플롭스, INT4에 260 테라 플롭스의 성능을 제공한다. 메모리는 16GB의 GDDR6를 채용했으며, 일 초에 최대 320GB의 데이터를 전송할 수 있다.(출처:https://www.nvidia.com/)


엔비디아 텐서RT 하이퍼스케일 플랫폼(NVIDIA TensorRT Hyperscale Platform)이라 불리는 AI 데이터 센터 플랫폼을 구성하는 가장 중요한 핵심 요소는 새로 선보인 엔비디아 텔슬라 T4 GPU(NVIDIA Tesla T4 GPU)다. 텔사 T4는 320개의 튜링 텐서(Turing Tensor) 코어와 2,560개의 CUDA 코어로 구성된 고성능 GPU다. 


텔슬라 T4는 AI 추론을 위해 FP32에서 FP16, INT8 및 INT4와 같은 유연한 다중 정밀도 기능을 통해 빠른 속도와 정밀도를 제공한다. 추론 성능의 경우 인텔 제온 골드(Xeon Gold) 6140 CPU와 비교할 때 최대 40배 빠르다고 엔비디아는 밝혔다. 텔슬라 T4는 최대 38개의 풀 HD 비디오 스트림을 디코딩할 수 있어서, 비디오 트랜스 코딩 성능도 이전 세대의 GPU와 비교하면 2배 이상 빠르다.


엔비디아 텐서RT 하이퍼스케일 플랫폼를 구성하는 두 번째 요소인 엔비디아 텐서RT 5(NVIDIA TensorRT 5)는  추론 최적화 도구 및 런타임 엔진으로 튜링 텐서 코어(Turing Tensor Cores)를 지원하고 다중 정밀도 작업 부하에 대한 신경 네트워크 최적화 세트를 확장한다. 세 번째는 컨테이너형 마이크로 서비스 소프트웨어인 엔비디아 텐서RT 추론 서버(NVIDIA TensorRT 추론 서버)로, 응용 프로그램에서 데이터 센터 생산에 AI 모델을 사용할 수 있도록 해준다. 엔비디아 GPU 클라우드 컨테이너 레지스트리 에서 자유롭게 사용할 수 있으며, 데이터 센터 처리량 및 GPU 활용을 극대화할 수 있다.


엔비디아 비즈니스(Accelerated Business) 담당 부사장 겸 본부장인 이안 벅 (Ian Buck)은 "우리 고객은 AI가 모든 제품과 서비스를 접하고 개선할 미래를 향해 경쟁하고 있다. NVIDIA TensorRT Hyperscale 플랫폼은 이전에 가능하다고 생각했던 것보다 빠르고 효율적으로 이를 실현하기 위해 만들어졌다.”라고 텔사 T4 GPU 기반의 AI 데이터 센터 플랫폼 출시 소감을 밝혔다.


Syndicated to WWW.CIOKOREA.COM


반응형