Scale-Up Ethernet (SUE) 기술 심층 분석

Scale-Up Ethernet (SUE)는 AI 가속기(XPU) 간의 데이터를 이동시키기 위한 스케일업(Scale-Up) 전용 프레임워크입니다.

현재 AI 인프라 시장은 NVIDIA의 NVLink가 독주하고, 이에 대항하는 UALink 연합이 형성된 상태입니다. 그 와중에 Google과 Broadcom은 독자적인 노하우가 담긴 SUE를 OCP(Open Compute Project) 등을 통해 표준화하며 제3의 길을 제시하고 있습니다.

이 글은 Scale-Ethernet-RM104; September 26, 2025 사양을 기초로 작성되었습니다.

1. 개요 및 설계 철학: “단순함이 곧 성능이다”

SUE는 최대 1,024개의 XPU를 연결하여 하나의 거대한 클러스터를 구성하는 것을 목표로 합니다. UALink나 Ultra Ethernet이 다양한 네트워크 상황을 고려한 복잡한 프로토콜인 반면, SUE의 철학은 “제약된 환경에 맞춘 단순화”입니다.

1.1 단일 경로 전송 (Single-path)

결정론적 네트워크: 스케일업 도메인은 네트워크 토폴로지가 고정되어 있습니다. SUE는 이를 활용해 복잡한 패킷 스프레잉(Multipath) 대신 단일 경로 전송을 채택했습니다.
이점: 패킷 순서가 뒤섞일 일이 없으므로, 수신 측의 재정렬(Reordering) 로직과 대형 버퍼 메모리를 제거할 수 있습니다. 이는 칩의 다이(Die) 면적을 줄이고 전력 효율을 극대화합니다.

1.2 표준 이더넷 기반 (Ethernet Physics)

물리 계층은 표준 이더넷(MAC/PHY/Link)을 사용하여 200Gbps/Lane 이상의 고속 SerDes 기술과 이미 검증된 광학/케이블 생태계를 그대로 활용합니다. 즉, 물리적으로는 이더넷이지만 논리적으로는 전용 버스처럼 작동합니다.

2. 아키텍처 및 데이터 처리 (The Stack & Packing)

SUE는 XPU의 메모리 명령어를 네트워크 패킷으로 변환할 때 지연 시간을 최소화하는 데 집중합니다.

2.1 기회주의적 패킹 (Opportunistic Packing)

Work Conserving: 큐에 데이터가 쌓일 때까지 기다리지 않습니다. 보낼 데이터가 하나뿐이면 즉시 보냅니다.
동작: 만약 트래픽이 몰려 큐에 여러 트랜잭션이 쌓여 있다면, 그때는 이를 묶어서 하나의 이더넷 프레임(PDU)으로 만들어 보냅니다.
효과: 낮은 부하에서는 초저지연(Latency)을, 높은 부하에서는 대역폭 효율(Goodput)을 자동으로 달성합니다.

2.2 메모리 모델 (One-Sided Semantics)

직접 접근: TCP 연결이나 메시지 교환 방식이 아닌, Load, Store, Atomic 연산을 사용하는 단방향(One-sided) 메모리 모델입니다.
CPU Bypass: 데이터를 받는 쪽(Destination)의 CPU나 OS 개입 없이, 하드웨어가 직접 메모리에 접근하여 데이터를 처리합니다.

3. 헤더 및 캡슐화 (Encapsulation)

오버헤드를 줄이기 위해 표준 이더넷 헤더 외에 전용 헤더 포맷을 지원합니다.

AFH (AI Fabric Header) Gen 2: SUE 전용 헤더로, 크기를 불과 6바이트(Compressed) 또는 12바이트로 줄였습니다.
- 이는 표준 IP/UDP 헤더 대비 오버헤드를 획기적으로 줄여, 실제 데이터 전송률을 높입니다.
호환성: 필요에 따라 표준 이더넷(MAC/IP/UDP) 헤더를 씌워 일반 이더넷 스위치를 통과하게 할 수도 있습니다.

4. 신뢰성 및 흐름 제어 (Reliability & Flow Control)

SUE는 패킷 손실이 없는 무손실(Lossless) 환경을 지향합니다.

4.1 CBFC (Credit Based Flow Control)

기존 이더넷의 PFC(Priority Flow Control)를 개선했습니다.
32개 클래스 지원: PFC(8개)보다 훨씬 세분화된 트래픽 격리가 가능하여, 특정 흐름이 막혀도 전체가 멈추는 데드락(Deadlock)을 방지합니다.

4.2 LLR (Link Level Retry)

Hop-by-Hop 재전송: 케이블 에러 등으로 패킷이 깨지면, 엔드 포인트(End-to-End)까지 가지 않고 스위치와 XPU 사이에서 즉시 재전송합니다. 수백 나노초(ns) 안에 복구가 이루어집니다.

4.3 신뢰성 전송 계층 (Reliable Transport Layer)

LLR로도 복구되지 않는 드문 경우를 대비해 Go-Back-N 방식의 전송 계층 재전송을 지원합니다.

5. SUE Lite: 극한의 경량화 프로필

SUE 사양의 백미는 구현 부담을 최소화한 ‘SUE Lite’ 프로필입니다.

전송 계층 제거: 복잡한 신뢰성 전송 계층(Go-Back-N 등)을 아예 삭제했습니다.
LLR 올인: 현대적인 데이터센터 링크의 에러율이 매우 낮다는 점을 이용하여, 오직 링크 계층 재시도(LLR)만으로 신뢰성을 보장합니다.
결과: IP 로직 크기 약 50% 감소 및 혼잡 제어 로직 제거. 칩 설계 비용과 전력 소모를 획기적으로 낮춰, 저전력 추론 칩 등에 적합합니다.

6. 생태계 및 시장 분석 (Google & Broadcom)

SUE는 기술적으로 매우 효율적이지만, 시장 상황은 복합적입니다.

6.1 강점 (Pros)

Google TPU의 유산: SUE는 Google이 수년간 TPU Pod를 운영하며 검증한 ICI(Inter-Chip Interconnect) 기술의 이더넷 버전입니다. 실전 성능은 의심의 여지가 없습니다.
Broadcom의 지원: 네트워크 칩셋의 제왕인 Broadcom이 스위치(Tomahawk/Jericho AI 라인업)를 지원하므로, 하드웨어 수급이 원활합니다.

6.2 약점 (Cons)

범용성 부족: UALink에는 AMD, Intel, Microsoft, Meta 등 다수의 기업이 참여하지만, SUE는 상대적으로 Google과 Broadcom 의존도가 높습니다.
생태계 고립 위험: NVIDIA의 NVLink, 반(反) NVIDIA 연합의 UALink 사이에서 SUE가 독자적인 생태계를 얼마나 유지 확장할 수 있을지가 관건입니다.

요약: SUE vs UALink

특징	Scale-Up Ethernet (SUE)	UALink
핵심 철학	단순함 (Single Path, Packing)	확장성 및 표준화 (Scale-Up)
주도 기업	Google, Broadcom	AMD, Intel, MS, Meta 등
전송 방식	정적 라우팅 (Reordering 없음)	동적 라우팅 지원 가능
경량화	SUE Lite (Transport 제거 가능)	표준 스택 준수
물리 계층	Ethernet PHY	Ethernet PHY 기반

SUE는 “가장 단순한 것이 가장 빠르다"는 구글의 엔지니어링 철학이 담긴 기술입니다. 특정 목적(TPU Pod 등)의 클러스터를 구축하려는 기업에게는 UALink보다 더 효율적인 대안이 될 수 있습니다.