인텔 최신 기술의 집약체 '루나 레이크', P 코어와 Xe2 GPU 핵심만 정리

인텔이 공개한 루나 레이크는 최신 기술과 아키텍처가 집약됐다. CPU와 GPU 그리고 NPU까지 인텔이 개발한 모든 기술의 집약체가 바로 루나 레이크로 확인된 것이다.

루나 레이크의 포지션이 노트북이나 휴대용 폼팩터에 한정된다는 것이 안타깝겠지만 너무 실망할 필요는 없다.

루나 레이크에 적용된 기술들이 모두 데스크탑 PC로 투입될 차세대 CPU와 GPU에 적용될 것이기 때문이다. 오히려 루나 레이크에는 적용하지 못했던 기술까지 투입될 가능성이 높다.

그런 이유로 인텔의 차세대 데스크탑 CPU와 GPU의 방향성과 성능을 알고 싶다면 루나 레이크에 대해 알아보는 것이 좋을텐데 이를 위해 이번 기사를 준비해 봤다.

 

루나 레이크의 핵심 P 코어, 라이언 코브

루나 레이크의 P 코어 코드명은 라이언 코브다. 메테오 레이크까지 사용한 레드우드 코브 보다 많은 부분이 개량된 최신 CPU 코어다.

인텔이 공개한 수치로는 IPC 기준 14%나 향상됐다니 캐시 용량이나 클럭빨만 앞세웠던 그런 세대 교체 보다는 확실한 성능 향상을 경험할 수 있다고 볼 수 있다.

그럼 이 14%의 IPC 개선을 어떻게 실현했을까?

인텔이 공개한 자료로는 아주 정석적인 변화가 있음이 확인됐다. CPU로 입력된 명령을 디코드하고 이 명령들을 동시에 처리하는 길을 확장한 것이다.

메테오 레이크에 사용한 레드우드가 6개의 디코드 유닛과 8개의 uOP 캐시 블럭을 사용한 것과 달리 8개의 디코드 유닛과 12개의 uOP 캐시 블럭을 사용했으며 실제 실행 유닛을 연결하는 포트도 12개에서 18개까지 확장했다.

근본적으로 동시에 처리 가능한 개수를 확장하면 당연히 IPC가 증가하고 이런 개량이 CPU 코어의 정석이라 할 수 있지만 이 정도로 크게 확장된 경우는 자주 있는 일이 아니다.

루나 레이크는 인텔이 처한 공정 및 생산 상황과 경쟁 구도의 변화로 인해 과감한 선택이 필요했던 것으로 보이는데 그 과감한 선택 때문에 하이퍼스레딩까지 빼버리게 됐다.

하이퍼스레딩을 뺀 이유는 루나 레이크라는 포지션 때문으로 소개됐다. 루나 레이크를 모바일용으로 설계하기 위해 개발 중이던 라이언 코브를 평가하게 됐고 하이퍼스레딩 없는 CPU 코어로 워크로드를 최적화하고 삭제한 유닛으로 CPU 코어의 다이 면적을 줄이기로 한 것이다.

덕분에 전력당 성능은 하이퍼스레딩 대비 5%나 개선 됐지만 면적당 성능은 15%나 감소해 생산성이나 수율을 감안하면 어쩔 수 없는 선택 였다는 것이 인텔의 설명이다. 그래도 하이퍼스레딩 없는 구조와 이 정도 타협으로 IPC가 14%나 개선 됐다는 것은 놀랄만한 일이다.

만약, 라이언 코브에 하이퍼스레딩까지 적용하고 데스크탑 CPU로 출시된다면 레드우드 대비 17% 이상의 IPC 개선도 가능할 수 있고 이것이 현재의 14세대 코어 프로세서와 비교된다면 20% 이상도 기대할 수 있게 된다

타협 없는 구조의 데스크탑 CPU가 기다려지는 이유가 바로 이것인데 이미 애로우 레이크에 라이언 코브가 탑재된다고 알려졌으니 큰 이변이 없는 이상 우리들의 기대를 충족시키기엔 충분할 것이다.

 

2세대 인텔 Arc GPU의 핵심, Xe2

루나 레이크에 처음 적용된 Xe2 GPU도 근본 구조가 변경됐다.

스레드 컨트롤 유닛 하나에 8-WIDE ALU 2개가 묶여 SIMD8 단위의 웨이브프런트를 구성했던 Xe와 달리 단일 컨트롤 유닛에 16-WIDE ALU를 조합한 SIMD16 단위의 웨이브프런트로 처리하게 구조가 변경됐다.

이런 구조 변경은 SIMD4 단위였던 Gen11에서 SIMD8 단위로 변경된 Xe와 맥을 같이하는 것이며 웨이브프런트 크기를 늘리면 실행 주기가 줄어들어 그 만큼 효율이 증가하고 성능 개선에도 효과적이기에 이런 방향성을 이어간 것으로 풀이된다.

Xe 시절에도 언급되었지만 AMD도 GCN에서 RDNA로 세대로 넘어가며 비슷한 방향성의 구조를 실현해 효과를 본적 있고 계속 방향성을 유지해 왔다.

하지만 이런 구조가 Xe2 코어의 확장을 의미하진 않는다. Xe 코어의 16개 256-bit 벡터 엔진이 Xe2 코어의 8개 512-bit 벡터 엔진과 물리적 구성은 차이가 없다. 벡터 엔진 기준으로 FP32 기준으로 클럭당 처리량은 Xe의 2개가 Xe2의 1개나 마찬가지다.

그래서 효율적인 개선은 있어도 물리량의 근본 변화는 기대하기가 힘들지만 이런 방향성으로 얻어지는 효과가 있는 것은 확실하니 일찍부터 너무 실망할 필요는 없다.

물리량의 변화는 레이트레이싱 유닛에서 확인됐다. Xe2에 적용된 RTU는 3개의 순회 파이프라인이 구성됐고 각각의 파이프라인 마다 6개의 박스 교차 테스트를 동시에 진행할 수 있게 만들었다.

여기에 더해 삼각형 교차 테스트를 동시에 2개 진행할 수 있어 2개의 순회 파이프라인에 총 12개의 박스 테스트와 1개의 삼각형 교차 테스트만 진행할 수 있던 Xe의 RTU 보다 더 빨리 광선을 추적하고 처리할 수 있게 된 것이다.

Xe2 코어 마다 RTU의 양적 증가가 꽤 큰 편이니 깡성능이라 불리는 전통적인 랜더링 성능 보다는 레이트레이싱이 적용된 게임에서 FPS 증가가 더 클 것으로 예상된다.

개별 Xe2 코어의 확장 자체는 아쉽지만 투입되는 Xe2 코어가 더 많이 할당되면 그만이니 깡성능에 대한 아쉬움도 없지 않을까 한다.