데이터독, GPU 모니터링 출시 기업의 AI 확장을 위한 비용 및 성능 최적화 지원

데이터독(Datadog, Inc., NASDAQ: DDOG), AI 기반 옵저버빌리티 및 보안 플랫폼을 선도하는 Datadog은 GPU 모니터링의 정식 출시를 발표했다. 이번 신제품은 증가하는 AI 비용을 확장 가능하고 효과적으로 관리하려는 기업들이 직면한 핵심 과제 중 하나를 해결한다.



"GPU 인스턴스는 컴퓨팅 비용의 14%를 차지합니다. 이는 기업들이 확장 가능하고 스마트한 방식으로 AI 퍼스트 기술을 구축하려 할 때 큰 과제가 됩니다. 비용 증가 추이는 파악할 수 있지만, 사업 부문별 GPU 비용 배분이나 워크로드 컨텍스트 파악, 개선을 위한 명확한 실행 방안을 도출하기는 쉽지 않습니다. 그 결과 체계적인 예산 수립과 계획이 매우 어려워집니다."라고 Datadog 최고 제품 책임자(CPO) 얀빙 리(Yanbing Li)는 말했다.

GPU Monitoring의 출시는 단일 솔루션으로 AI 스택 전반에 걸친 통합 가시성을 제공하는 첫 사례 중 하나다. 고객은 GPU 플릿의 상태, 비용, 성능을 이를 사용하는 팀과 직접 연결한 단일 뷰를 통해 병목이 발생한 워크로드를 빠르게 파악하고 비용을 효율적으로 절감할 수 있다.

"리소스 비효율, 학습 및 추론 워크로드 지연, 비용 증가가 생기면 AI 비용 관리는 경영진의 핵심 아젠다로 부상합니다. GPU 비용 관리가 중요한 과제라는 점에는 모두 공감하지만, 대부분의 기업은 여전히 솔루션을 실험하는 단계에 머물러 있으며 스택 전반의 상황을 단일 뷰로 파악하는 데 어려움을 겪고 있습니다. GPU Monitoring은 이전에는 확보하기 어려웠던 수준의 효율성과 안정성을 통해 이 문제를 해결합니다."라고 얀빙은 덧붙였다.

현재 대부분의 GPU 도구들은 디바이스 상태에 대한 기본 지표만 제공할 뿐, 부서간 리소스 사용 불균형으로 인한 병목 문제를 드러내거나 학습 및 추론 워크로드 실패의 원인을 설명하지 못하고, 어떤 디바이스가 유휴 상태이거나 비효율적으로 사용되고 있는지에 대한 가시성도 부족하다. 이러한 가시성 부재는 조사 속도를 늦추고, 안전한 기본값에 대한 의존으로 리소스가 과도하게 프로비저닝되면서 결국 불필요한 비용으로 이어진다.

GPU 모니터링은 플릿 전반의 텔레메트리를 이를 소비하는 워크로드와 직접 연결해 이러한 작업을 간소화하고, 플랫폼 엔지니어링 팀과 머신러닝 팀이 함께 문제를 분석할 수 있는 통합 뷰를 제공한다. 이를 통해 팀은 다음을 수행할 수 있다:

•      과도한 비용 없이 AI 확장: 플릿 사용 패턴에 대한 가시성과 예측을 바탕으로 신규 GPU 구매와 기존 GPU 활용 여부에 대한 명확한 가이드를 제공함으로써, 플랫폼 팀은 불필요한 구매와 긴 조달 사이클을 피하고, 머신러닝 팀은 더 빠르게 용량을 확보하며, 경영진은 예측 가능한 지출을 통해 더 높은 ROI를 달성할 수 있다.
•      AI 제공 속도 가속화: 중단된 워크로드를 GPU, 파드, 실행 프로세스와 직접 연계해 병목 원인을 신속히 파악하고 해결함으로써, 엔지니어는 AI 프로젝트 출시에 집중할 수 있다.
•      비용이 많이 드는 장애 방지: 비정상 GPU를 사전에 식별해 장애가 클러스터 전체로 확산되기 전에 대응함으로써 학습 및 추론 지연을 방지한다.
•      GPU 지출 ROI 극대화: 팀이 GPU 활용률과 비용을 직접 관리하고, 과잉 예약되거나 활용되지 않는 GPU를 쉽게 파악할 수 있어 리소스를 회수하고 재할당함으로써 낭비되는 지출을 줄일 수 있다.

GPU 모니터링은 현재 정식 출시(GA)되었다.