Axg

영위다의 Grace CPU 슈퍼칩의 아키텍처가 CPU+GPU 라면, 인텔과 AMD 가 내놓은 Falcon Shores XPU 칩, Instinct MI300 칩 역시 CPU+GPU 구조일 때 CPU+GPU 의 일체형 아키텍처는 우연의 일치라고 부를 수 없다.

더욱' 공교롭게도' 이 세 가지 칩은 모두 데이터 센터를 위한 장면이다. 즉, 앞으로 2 년 안에 AMD, 영위다, 인텔은 모두 혼합 CPU+GPU 칩을 갖고 데이터 센터 시장에 진출할 것이다.

CPU+GPU 의 형태가 향후 칩 설계의 트렌드로 자리잡았다고 할 수 있습니다.

인텔 xpu 출시

인텔은 공식적으로 XPU 라고 부르는 특수한 융합형 프로세서' Falcon Shores' 를 발표했습니다. 핵심은 인텔의 x86 CPU 와 Xe GPU 하드웨어를 같은 제온 칩에 넣는 새로운 프로세서 아키텍처입니다.

Falcon Shores 칩은 블록 기반 (Tile) 설계로 HPC, AI 어플리케이션 요구 사항을 더 잘 충족할 수 있는 확장성, 유연성을 갖추고 있습니다.

Intel 에서 제공한 수치에 따르면 Falcon Shores 는 현재 수준에 비해 에너지 소비량이 5 배 이상, x86 컴퓨팅 밀도가 5 배 이상, 메모리 용량과 밀도가 5 배 이상 증가했습니다.

Falcon Shores 칩은 2024 년에 출시됩니다.

AMD, APU 출시

AMD 는 데이터 센터 분야에서도 야망을 보여줍니다.

APU 는 AMD 가 전통적으로 내장형 비디오 카드에 사용했던 클라이언트 CPU 의' 가속 처리 장치' 명명법이다. 2006 년 Opteron CPU 의 전성기 이후 AMD 는 APU 사용을 꿈꿔 왔으며 2010 년부터 PC 를 위한 최초의 APU 를 출시했습니다. 이어 소니 Play Station4 와 5, Microsoft Xbox XS 에서 맞춤형 APU 시리즈 게임기를 출시했고, 2013 년 X2100 과 2017 년 X3000 인 Opteron APU 도 선보였다.

최근 AMD 가 발표한 로드맵에 따르면, 2023 년 Instinct MI300 칩을 출시할 예정인데, 이는 AMD 가 출시한 최초의 100 억 회의 APU 로, AMD 는 이를' 세계 최초의 데이터 센터 APU' 라고 부른다.

이 APU 는 CPU 와 GPU 커널을 하나의 패키지로 결합한 칩으로, 특히 Zen4 기반 Epyc CPU 와 새로운 CDNA3 아키텍처를 사용하는 GPU 를 결합합니다.

AMD 는 Instinct MI300 이 Instinct MI250X 보다 8 배 이상의 AI 교육 성능을 제공할 것으로 예상하고 있으며, Instinct MI200 시리즈를 지원하는 CDNA2 GPU 아키텍처에 비해 Instinct MI300 용 CDNA3 아키텍처는 AI 워크로드에 5 배 이상의 와트당 성능 향상을 제공할 것으로 예상하고 있습니다.

Instinct MI300 은 2023 년에 출시됩니다.

영위다 그레이스 슈퍼칩

GPU 디자인에 주력해 온 영위다가 지난해 Arm 아키텍처 기반 CPU 진출을 발표했을 때 파문을 일으켰다.

지난 3 월, 영위다는 HPC 와 대규모 인공지능 어플리케이션을 해결하는 Grace Hopper 슈퍼칩을 출시했다. 이 칩은 NVLink-C2C 를 통해 NVIDIA Hopper GPU 와 Grace CPU 를 하나의 통합 모듈에 통합했습니다.

CPU+GPU 의 Grace Hopper 코어 수를 절반으로 줄이고 LPDDR5X 메모리도 512GB 에 불과하지만 그래픽 카드가 많은 80GBHBM3 메모리는 총 대역폭이 3.5TB/s 인 1000W 로 랙당 42 개 노드를 수용할 수 있습니다.

영위다 역시 2023 년 상반기에 슈퍼칩을 출시할 것을 약속했다.

출시 된 시간 노드에서 Intel Falcon Shores 칩, AMD Instinct MI300, yingweida Grace Hopper 수퍼 칩은 각각 2024 년, 2023 년, 2023 년 상반기에 출시되었습니다.

CPU+GPU 의 형태로, 왜 3 대 거물들의 관심을 불러일으켜 데이터 센터에 배치하고 있는가?

첫째, 디지털 경제 시대에 계산력은 사회 생산 생활의 모든 측면에 광범위하게 융합되는 새로운 생산력이 되고 있다. 데이터 센터는 계산력의 물리적 적재이며 디지털 발전의 핵심 인프라입니다. 글로벌 데이터 센터는 2021 년 글로벌 데이터 속 극장 시장 규모가 679 억 달러를 넘어 2020 년보다 9.8 포인트 증가했습니다. 그 결과, 거대한 시장을 가진 데이터 센터는 이미 기술 거물들에 의해 주목을 받고 있습니다.

둘째, 데이터 센터는 많은 양의 데이터를 수집하므로 데이터 센터에 구축해야 하는 칩은 CPU 와 GPU 를 결합하면 계산력을 높일 수 있습니다. Raja Koduri, 인텔 수석 부사장 겸 가속 컴퓨팅 시스템 및 그래픽 (AXG) 그룹 총괄 이사의 연설에서 HPC 시장을 성공적으로 확보하려면 엄청난 양의 데이터 세트를 처리할 수 있는 칩이 필요하다고 언급했습니다. GPU 는 수백 개의 코어를 동시에 병렬로 작업할 수 있는 강력한 컴퓨팅 기능을 갖추고 있지만, 현재 개별 GPU 에는 큰 데이터 세트가 개별 GPU 메모리에 쉽게 들어가지 않아 비디오 메모리 데이터가 느리게 새로 고쳐질 때까지 기다리는 데 시간이 걸린다는 단점이 있습니다.

특히 메모리 문제, CPU 와 GPU 를 같은 아키텍처에 배치하면 중복 메모리 복제본을 제거하여 문제를 개선할 수 있으며, 프로세서는 더 이상 데이터를 액세스/변경하기 위해 전용 메모리 풀로 복제할 필요가 없습니다. 통합 메모리 풀은 두 번째 메모리 칩 풀, 즉 CPU 에 연결된 DRAM 이 필요하지 않음을 의미합니다. 예를 들어, Instinct MI300 은 CDNA3 GPU 작은 칩과 Zen4 CPU 작은 칩을 하나의 프로세서 패키지로 결합하고, 이 두 개의 프로세서 풀은 패키지 HBM 메모리를 * * * 즐길 것입니다.

영위다 관계자는 NVLink-C2C 상호 연결을 통해 Grace CPU 가 기존 CPU 보다 15 배 빠른 Hopper GPU 로 데이터를 전송한다고 밝혔다. 그러나 데이터 세트 규모가 큰 시나리오의 경우 NVLink 및 AMD 의 Infinity Fabric 과 같은 고속 인터페이스가 있더라도 HPC 급 프로세서가 데이터를 매우 빠르게 조작하기 때문에 CPU 와 GPU 간에 데이터를 교환하는 지연 시간과 대역폭 비용이 여전히 높습니다. 따라서 이 링크의 물리적 거리를 최소화할 수 있다면 많은 에너지를 절약하고 성능을 향상시킬 수 있습니다.

AMD 에 따르면 이 아키텍처는 개별 CPU 및 GPU 를 사용하는 구현에 비해 APU 가 전력 소비를 줄일 수 있도록 설계되었습니다. 인텔은 또한 Falcon Shores 칩이 대역폭, 와트당 성능, 컴퓨팅 밀도 및 메모리 용량을 크게 증가시킬 것이라고 밝혔다.

여러 개의 개별 구성 요소를 통합하면 장기적인 이점을 얻을 수 있지만 CPU 와 GPU 를 하나의 칩에 간단하게 통합하는 것은 아닙니다. Intel, yingweida, AMD 의 GPU+CPU 는 모두 Chiplet 방식을 선택했습니다.

전통적으로 복잡한 IC 제품을 개발하기 위해 공급업체는 모든 기능을 동일한 칩에 통합하는 칩을 설계했습니다. 이후 세대마다 칩당 기능 수가 급격히 증가했다. 최신 7nm 및 5nm 노드에서 비용과 복잡성이 급증했습니다.

Chiplet 디자인을 사용하여 기능 및 프로세스 노드가 다른 모듈식 칩 또는 작은 칩을 동일한 칩에 캡슐화합니다. 칩 고객은 이러한 작은 칩 중 하나를 선택하여 고급 패키지로 조립할 수 있습니다. SoC (Ship-on-Chip System) 의 대안으로 새롭고 복잡한 칩 설계를 생성합니다.

바로 작은 칩의 특성 때문에, 세 거물들은 스스로 멀티칩 상호 연결을 발전시키는 동시에 맞춤형 서비스를 펼쳤다.

인텔은 Falcon Shores 를 출시할 때 Chiplet 방법을 사용하여 다양한 제조 공정으로 제조된 여러 칩과 서로 다른 프로세서 모듈을 하나의 칩 패키지에 단단히 끼울 수 있다고 소개했습니다. 이를 통해 인텔은 칩에 넣을 수 있는 CPU, GPU, I/O, 메모리 유형, 전력 관리 및 기타 회로 유형에 대해 더 높은 수준의 사용자 정의를 수행할 수 있습니다.

특히, Falcon Shores 는 필요에 따라 다양한 블록 모듈, 특히 x86CPU 코어, XeGPU 코어를 구성할 수 있으며, 수와 비율은 모두 매우 유연하여 어떤 용도로 쓰이는가에 따라 달라질 수 있습니다.

현재 인텔은 라이센스를 위해 x86 아키텍처를 개방하고 있으며 고객이 Arm 및 RISC-V 커널을 하나의 패키지에 넣을 수 있도록 Chiplet 정책을 개발했습니다.

최근 AMD 도 맞춤형 문을 열었습니다. AMD CTO 인 마크 페이퍼 마스터는 분석가의 날 회의에서 "칩을 쉽고 유연하게 구현하는 데 주력하고 있다" 고 말했다.

AMD 를 통해 고객은 소형 칩 패키지 내에 여러 개의 코어 입자 (chiplet 또는 compute tiles 라고도 함) 를 구현할 수 있습니다. AMD 는 이미 tiles 를 사용하고 있지만, 이제 AMD 는 x86 CPU 및 GPU 와 함께 2D 또는 3D 패키지에 포함할 수 있는 타사 제조 가속기 또는 기타 칩을 허용합니다.

AMD 의 맞춤형 칩 전략은 칩 패키지 중 코어 입자의 상호 연결인 새로운 Infinity Architecture 4.0 을 중심으로 전개됩니다. 독점 Infinity fabric 은 CXL 2.0 상호 접속과 호환됩니다.

또한 Infinity 상호 연결은 ucie (universal chiplet interconnect express) 를 지원하여 패키지 내 chiplet 을 연결합니다. UCIe 는 이미 인텔, AMD, Arm, 구글, 메타 등의 회사의 지원을 받았다.

전반적으로 AMD 의 서버 GPU 트랙은 Intel, yingweida 와 매우 유사합니다. 이 세 회사는 모두 CPU+GPU 포트폴리오 제품 방향으로 발전하고 있으며, 영위다의 GraceHopper(Grace+MI300), 인텔의 Falcon Shores XPU (혼합 및 일치 CPU+GPU) 를 단일 패키지에서 동시에 사용하고 있습니다. 세 경우 모두 이러한 기술은 최고의 CPU 와 최고의 GPU 를 결합하여 완전히 구속되지 않은 워크로드를 위해 설계되었습니다.

시장조사회사 Counterpoint Research 의 연구분석가인 Akshara Bassi 는 "칩 면적이 커지고 결정원 완성률 문제가 중요해짐에 따라 멀티칩 모듈 패키징 설계는 단일 칩 설계보다 더 나은 전력 소비량과 성능을 얻을 수 있다" 고 말했다.

Chiplet 은 계속 존재할 것이지만, 현재로서는 이 분야는 고립된 섬이다. AMD, Apple, Intel 및 Yingweida 는 자체 연구 상호 연결 설계를 특정 패키징 기술에 적용하고 있습니다.

2018 년 인텔은 EMIB (임베디드 멀티웨이퍼) 기술을 논리 웨이퍼 3D 스택 기술로 업그레이드했습니다. 2019 년 인텔은 두 개 이상의 Foveros 칩을 상호 연결할 수 있는 Co-EMIB 기술을 출시했습니다.

AMD 는 먼저 Chiplet 모델을 제시하여 2019 년 소형 칩 기술을 전면적으로 채택하여 기술적 우위를 얻었다. Lisa Su 는 연설에서 향후 계획을 밝혔습니다. "Dell 과 타이완 반도체 매뉴팩처링 모두 3D 구조에 대해 긴밀하게 협력하여 소형 칩 패키징과 칩 스택을 결합하여 향후 고성능 컴퓨팅 제품을 위한 3D 소형 칩 아키텍처를 만들었습니다."

지난 3 월 2 일, 인텔, AMD, Arm, 고통, 타이완 반도체 매뉴팩처링, 삼성, 일달빛, 구글클라우드, 메타, 마이크로소프트 등 10 대 거물들이 Chiplet 표준연맹 설립을 발표하고 범용 소형 칩 상호연결 기준 (UCIe) 을 발표해 업계를 하나로 모으고자 했다.

지금까지 소수의 칩 거물만이 Chiplet 기반 설계를 개발하고 제조했다. 첨단 노드 개발 칩의 비용이 계속 상승하면서 업계는 그 어느 때보다 Chiplet 이 더 필요했습니다. 멀티칩 트렌드에서 차세대 최고급 칩도 멀티칩 디자인이 될 수밖에 없다.