미래를 시작하는 GPU, 엔비디아 블랙웰과 RTX 50 시리즈의 변화와 현주소

CES 2025에서 진행된 엔비디아 에디터스 데이는 지포스 RTX 50 시리즈와 코드명 블랙웰 아키턱처의 모든 것이 소개되는 자리였다.

젠슨 황이 진행한 키노트가 일반 소비자 대상의 제품 홍보 행사였다면 에디터스 데이는 기술적인 변화와 그들이 설계한 미래를 소개하는 보다 전문적인 내용이 다뤄지는 자리였는데 어제 밤 NDA 해제와 함께 일제히 관련 기사들이 올라왔다.

아쉽게도 이 자리에 초대 받지는 못했지만 전달 받은 자료와 외신들의 기사를 통해 지포스 RTX 50 시리즈와 코드명 블랙웰의 변화에 대해 지금부터 정리해 볼까 한다.

참고로, 기술 소개 보다는 필자가 이해한 전반적인 변화를 정리한 것이니 참고 바란다.

 

블랙웰, 게임의 미래를 시작하는 GPU

일단, 코드명이 다시 통합됐다. 엔비디아가 HPC나 데이터센터용 GPU 코드명을 게임용 GPU와 분리한 것이 벌써 몇 세대 전인데 블랙웰부터 이를 다시 통일한 것이다.

아무래도 게임용 GPU의 근본 설계가 AI에 포커스된 HPC나 데이터센터용 GPU와 다르지 않게된 것이 주된 이유인 것으로 보이는데 그것이 바로 블랙웰의 핵심이다.

블랙웰은 뉴럴 렌더링일 전면에 내세웠다. 일반적으로 뉴럴 렌더링이라하면 사진이나 평면으로 정의된 이미지에서 고품질 3차원 구조를 생성해내는 것을 말해 왔지만 블랙웰의 뉴럴 렌더링은 조금 다르다.

특정 기술이 아닌 전반적인 렌더링 단계의 변화를 의미하는 것이며 여기에 뉴럴 렌더링 기술이 들어간다는 것을 말한다.

엔비디아는 이런 변화를 실현시키기 위해 뉴럴 세이더를 만들고 이를 SM에 통합했다.

연산 유닛 자체로는 큰 변화가 아니지만 전통적인 렌더링 기법에 한정됐던 세이더 코드로 텐서 코어를 활용한 신경망 기반 작업을 처리할 수 있게 만들어 개발자 보다 적극적으로 AI 기술을 게임에 적용할 수 있게된 것이다.

거기다 마이크로소프트도 이러한 변화를 적극 수용해 DirectX의 새로운 API 표준으로 협력 벡터를 도입하겠다 밝혔으며 지포스 RTX 50 시리즈 하드웨어로 이를 활용할 수 있을 뿐만 아니라 AMD나 인텔, 퀄컴과도 이에 대한 지원을 추진해 나가겠다고 밝힌 상태다.

지금 당장은 엔비디아 혼자만의 기술이겠지만 DirectX의 표준이 되고 이를 지원하는 생태계가 만들어질 것이라고 이해하면 된다.

물론, 협력 벡터와 뉴럴 세이더가 보다 대중화 되고 생태계가 커질 것이라는 보장이 없는 것도 사실이다.

하지만 2018년 9월, 처음 하드웨어 레이트레이싱을 등장시켰던 그때도 지금과 비슷했지만 적극적인 엔비디아의 노력과 기술 개선, 업계 변화 등을 통해 하드웨어 레이트레이싱은 트리플 A 게임 타이틀에 없어선 안될 기술이 됐다.

그리고 엔비디아가 누구인가, 단순히 기술만 만들어 내고 내버려 두는 기업이 아니다.

기술을 만들었으면 이를 사용할 수 있는 도구도 함께 제공하는 것이 엔비디아다. 그래서 블랙웰에도 뉴럴 세이더를 활용할 기술들이 여럿 소개 됐으며 그것들이 이번 에디터스 데이에서 소개된 뉴럴 메터리얼과 뉴럴 라디언스 캐시, RTX 스킨, 뉴럴 페이스, 메가 지오메트리다.

이 기술들은 아직 실제 게임에 적용되진 않았지만 일부 기술들은 엔비디아가 예를 든 몇 가지 게임에서 패치를 통해 배포될 예정이다. 추후 신작 게임에도 이런 기술이 도입되긴 하겠지만 하드웨어 레이트레이싱이 그러했듯 보편적으로 사용되기까지는 몇 세대를 거처가야 할 수도 있다.

 

지포스 RTX 50 시리즈의 현실

블랙웰은 게임용 GPU의 미래를 보여줬다. 다양한 렌더링 단계에서 신경망과 AI를 활용할 수 있는 변화의 선두에 있다. 단순히 방향성만 보여준 것도 아니고 실제 이를 활용할 방법과 도구까지 준비해놨다.

지금까지 그래왔듯이 엔비디아는 블랙웰로 시작한 변화를 업계 전반의 변화로 만들어가게 될 것이다.

하지만, 이건 어디까지나 미래의 이야기다.

RTX 시리즈가 처음 등장했듯때 처럼 블랙웰은 현실을 기준으로 평가 받을 수 밖에 없다. 그리고 그 기준이 되는 건 일명 깡성능이라 불리는 전통적인 렌더링 성능과 이제는 어느 정도 대중화(?)된 레이트레이싱 성능이어야 한다.

엔비디아도 이를 모를리 없고 그래서 준비도 했지만 외신들이 정리한 자료로는 기대 만큼의 결과를 얻긴 어려워 보인다.

일단, 독일 컴퓨터베이스에 따르면 대표 모델인 RTX 5090을 제외하고는 많아 봤자 20% 성능 증가가 예상될 뿐이고 RTX 5080은 슈퍼도 아닌 4080 보다 15%가 앞설 것으로 추정된다고 한다.

세이더 코어도 33% 증가한 RTX 5090을 제외하면 적게는 4%에서 최고 17% 증가라서 인상적인 세대 교체는 이뤄내기 어려울 수도 있다는 반응이 나오고 있다. 더군다나 공개된 벤치마크 자료 대부분이 DLSS4에 기반을 한 것이라서 깡성능과 레이트레이싱 성능은 매체들의 리뷰가 나와봐야 평가가 가능한 상황이다.

그나마 다행인건 RTX 5090을 제외한 나머지 제품 MSRP가 RTX 40 시리즈와 동일하거나 더 낮췄다는 것인데 국내처럼 환율이 발목을 잡을 경우 실질적인 체감 가격은 인상될 수 밖에 없어 지역에 따라 평가와 반응이 엇갈릴 수도 있다.

미국이야 어차피 같은 가격이니 반응이 좋겠지만 우리처럼 최근 1~2년 사이 환율이 올라간 지역이라면 개선된 성능이나 추가된 기능 만큼 인상된 가격을 주고 사는 것이나 마찬가기가 된다.

 

DLSS4, 구세주가 될 수 있을까?

지포스 RTX 50 시리즈의 구세주는 따로 있다. 엔비디아가 전면에 내세운 DLSS4가 바로 그것이다.

DLSS4의 핵심은 크게 2가지로 나뉘는데 그 첫번째가 프레임 생성 배수의 증가다.

자세한 기술적 설명은 시간 상 패스하고 기존 DLSS3에서 1 프레임 당 1개의 프레임을 추가했던 것을 1 프레임 당 3개의 프레임을 추가한 것이 DLSS4의 프레임 생성 기능이다. 더 간단히 얘기해서 DLSS 없이 평균 프레임이 15FPS 게임을 30 FPS로 만들어주는 것이 DLSS3고 60FPS로 2배 더 높여주는 것이 DLSS4다.

이렇게 프레임이 증가하면 지연 시간이 증가하고 그로 인해 게임에서 즉각적인 움직임 실현할수 없을 수도 있지만 그런 문제도 없다는 것이 엔비디아 측 설명이다. 공개된 자료에도 실제 PC 지연 시간은 DLSS 3.5와 DLSS4의 차이가 없었으며 오히려 1ms가 적은 것으로 나오기도 했다.

두 번째 변화는 DLSS에 사용하는 AI 모델의 변경이다.

지금까지 사용해온 CNN 모델 대신 트랜스포머 모델로 변경한 것인데 지난 6년여간 사용된 CNN 기반 모델은 더 이상 품질 개선이 불가능할 만큼 한계에 다다른 것과 달리 트랜스포머 모델은 그 이상의 품질을 실현할 수 있으며 앞으로 더 개선될 것이라고 한다.

트랜스포머 모델이 이렇게 까지 품질을 개선할 수 있는 이유는 더 큰 데이터 세트를 활용하여 학습할 수 있을 뿐만 아니라 주어진 데이터의 가장 관련성 있는 부분만 집중해 처리하고 기존 방식으론 어려운 영역까지 우선할 수 있는 트랜스포머 모델만의 셀프 어텐션이라 불리는 특성 때문이다.

이런 AI 모델의 변화 덕분에 DLSS4가 적용된 게임들은 더 나은 슈퍼 샘플링 품질을 실현할 뿐만 아니라 광선 재구성의 품질도 한층 개선 됐으며 더 나은 안정성과 모션을 실현할 수 있다는 것이 엔비디아 측 설명이다.

어쩌다보니 전반적으로 DLSS4에 대한 소개가 된 것 같은데 이제 결론을 말하자면 DLSS4도 구세주가 되긴 어렵지 않을까 한다. MFG로 소개된 4배율 프레임 생성을 제외한 트랜스포머 모델의 특징들은 기존 세대 제품에도 그대로 적용되기 때문이다.

프레임에 민감한 게이머라면 4배율 프레임 생성 하나만으로도 지포스 RTX 50 시리즈 이유는 충분하겠지만 모든 게임도 아니고 DLSS가 적용된 게임 중에서도 일부만이 지원하는 기능을 위해 세대 교체를 적극적으로 고민할 게이머가 얼마나 될지 의문이라서 실제 경험해 보고 판단해야 할 부분이라 생각한다.

그나마 다행인건 DLSS4의 주요 특징을 기존 DLSS 기반 게임에 바로 적용할 수 있는 기능이 엔비디아 앱으로 제공된다는 것인데 이런 부분에 더해 기존 프레임 생성 기술의 이질감 없는 기대 이상의 경험만 제공한다면야 긍정적인 평가도 충분히 가능할 것이다.

 

발상의 전환, 지포스 RTX 50 파운더스 에디션

엔비디아의 그래픽카드 설계는 언제나 예상을 벗어났다. 발열이나 소음 문제를 해결하기 위해 무게와 크기를 억제 했던 전통적인 설계에서 벗어난 것도 엔비디아였고 8핀 PCIe 커넥터를 12VHPWR로 대체를 시작한 것도 엔비디아였다.

이번에 소개된 파운더스 에디션도 전혀 예상 못한 변화가 있었다.

바로, 모듈형 PCB다.

엔비디아는 파운더스 에디션의 쿨링 효율을 극대화 시키기 위해 디스플레이 출력과 PCIe 슬롯 부분을 분리했다. 핵심이 되는 GPU와 메모리 그리고 전원부만 하나의 PCB로 최대한 작게 만들었고 이를 그래픽카드 중심에 배치했다.

DP와 HDMI 출력에 필요한 포트와 PC와 연결할 PCIe x16 슬롯 부분은 따로 분리해 모듈화 시킨 것인데 이렇게 배치된 구조를 통해 2개의 팬 만으로 TDP가 증가한 RTX 5090을 더 작은 크기와 무게로 소화할 수 있게 만든 것이다.

디스플레이 출력 포트와 PCIe x16 슬롯을 따로 떼어내면서 공간이 생겼고 그 공간 사이로 좌측 팬에서 불어 넣은 공기가 원활하게 배출되면서 쿨링 효율이 크게 개선 됐다고 보면 된다.

전통적인 그래픽카드 설계로 보면 너무 실험적인 구조지만 결과 자체는 매우 성공적인 것 같다. 소음이나 감당할 수 있는 TDP 모두 기존 기존 듀얼 팬 구조의 한계를 뛰어넘은 것으로 소개됐다.

물론, 비슷한 크기와 듀얼 팬 구조라는 기준에서의 한계 극복이라서 RTX 40 시리즈의 파운더스 에디션 처럼 전통적인 설계와 큰 크기 보다 나은 방식이라고 말할 순 없지만 그래픽카드 제조사의 경우 그 만큼 생산비를 절감할 수 있고 소비자 입장에서도 크기와 무게에 따른 문제들을 피할 수 있는 건 사실이다.

양쪽 모두에 도움이 되는 변화라면 엔비디아 뿐만 아니라 업계 전체에서 고민해 봐야 할 부분인데 과연 엔비디아가 제시한 자료 만큼의 결과가 있을지는 좀 더 지켜봐야 할 부분이 있다.

 

엔비디아의 가격 정책, 이것이 가능한 이유는?

블랙웰의 포지션이 좀 애매할 수 있다지만 그럼에도 불구하고 가격이 이 모든 불안과 논쟁을 잠재울 수 있다고 생각한다. 환율이나 지역적인 문제는 그들의 의지로 해결되는 문제도 아니니 이 부분은 어쩔 수 없다.

그럼 이런 가격이 가능했던 이유는 뭘까? 엔비디아가 자신들의 이윤을 줄여서 판다는 것일까? 아니면 다른 무언가로 가격을 낮췄다는 것일까?

필자는 이 비밀이 바로 TSMC에 있다고 생각한다.

TSMC와 엔비디아의 계약 조건 핵심인 공정 부분에서 블랙웰 가격을 낮추거나 같은 가격으로 유지할 부분이 있었다고 보는 것이다.

블랙웰 기반 GPU를 생산하는 TSMC 4NP 공정도 어차피 4N기반이라서 기본적으로 생산 단가 인상 요인이 크지 않다. 같은 4NP 공정으로 HPC와 데이터센터용 블랙웰도 생산 중이라 4NP 노드의 가장 큰 고객인 엔비디아에 무리한 가격 인상 요구는 있을 수 없는 일이다.

결국 엔비디아 입장에서도 단가 인상이 명백한 3nm 기반으로 넘어가는 대신 가격 경쟁력을 유지하면서 세대 교체가 가능한 4NP를 선택하는 것이 지금으로썬 최선였고 그것이 이번 가격 결정의 핵심으로 작용했다는 것이 필자의 생각이다.