국산 NPU의 도약을 위한 제언: K-Perf 중간 결과 분석과 남은 과제

국산 NPU의 도약을 위한 제언: K-Perf 중간 결과 분석과 남은 과제

k-perf 최근 대한민국 AI 반도체(NPU) 생태계의 경쟁력을 높이기 위한 ‘K-Perf(케이-퍼프)’ 성능검증 시범 추진 경과가 공개되었습니다. 글로벌 표준인 MLPerf가 존재하는 상황에서도, 국내 환경에 맞는 독자적인 벤치마크 지표를 구축하려는 시도는 국산 AI 반도체 산업이 한 단계 성장하기 위한 의미 있는 발걸음입니다.

하지만 이번에 공개된 중간 결과는 각 기업의 뛰어난 기술력을 객관적으로 조명하기에는 다소 아쉬움이 남습니다. 특히, 테스트 환경의 ‘통제’와 ‘동일 기준 적용’이라는 벤치마크의 기본 전제 측면에서 몇 가지 기술적 분석이 필요해 보입니다.


1. 서로 다른 체급의 평가: 120B 원본 vs 32B 양자화

6월 4일 공개된 자료를 살펴보면, 두 회사가 테스트한 대상 모델과 데이터 포맷이 완전히 달랐습니다.

  • 리벨리온 (R100): GPT-oss-120B 모델, BF16 (16비트 원본)
  • 퓨리오사AI (RNGD): EXAONE 4.0 32B 모델, FP8 (8비트 양자화)

결과적으로 리벨리온 R100은 양자화 없이 120B의 거대 모델을 구동하여 최대 7,000 token/s, 사용자당 170 TPS 수준을 기록했습니다. 반면, 퓨리오사 RNGD는 32B 소형 모델을 8비트로 경량화하여 구동했음에도 4대(RNGDx4) 기준 4,500 token/s, 8대(RNGDx8) 기준 9,000 token/s를 기록했으며, 사용자당 속도는 양쪽 환경 모두 약 57 TPS를 나타냈습니다.


2. 하드웨어 스펙의 모순: 192GB의 HBM으로 32B 모델을 테스트한 이유?

퓨리오사AI가 32B 모델을 선택한 것에 대해 일각에서는 자사 하드웨어의 특성(칩당 48GB 메모리) 때문이라는 분석이 나옵니다. 하지만 이번 실험 구성을 보면 이마저도 기술적인 의구심이 듭니다.

퓨리오사는 RNGD 카드를 4장, 혹은 8장을 묶어서 결과를 냈습니다. 카드를 4장만 모아도 HBM3 용량은 192GB(48GB × 4)에 달합니다. 이 정도 메모리 규모라면 양자화를 하지 않은 거대 모델도 충분히 올릴 수 있는 환경입니다.

그럼에도 불구하고 서버향 고성능 NPU를 검증하는 자리에서, 노트북이나 온디바이스 환경에서나 어울릴 법한 32B 소형 모델에 FP8 양자화까지 적용해 테스트를 진행했다는 점은 상식적으로 납득하기 어렵습니다.


3. ‘Throughput 뻥튀기’용 병렬 시스템 의혹

더욱 의아한 점은 4대 환경과 8대 환경의 결과 수치입니다. 그래프를 보면 RNGD 4대에서 4,500 token/s이던 최대 처리량(Throughput)이 8대에서는 정확히 2배인 9,000 token/s로 증가했습니다. 그러면서 사용자당 속도(TPS)는 두 환경 모두 57 TPS로 완전히 동일합니다.

엔지니어 관점에서 이는 카드 간의 유기적인 통신을 통한 분할 연산(Model/Tensor Parallelism)이 아니라, 단지 전체 시스템 처리량(Throughput) 수치를 늘려 보여주기 위해 카드를 독립적으로 이어 붙인 구성(Data Parallelism 등)이 아닌가 하는 의심을 지우기 힘듭니다. 진정한 서버향 NPU의 핵심 역량은 거대 모델을 쪼개어 연산할 때의 통신 효율인데, 이를 교묘히 피해 간 느낌을 줍니다.


4. 기술적 관점에서의 의구심: 57 TPS와 172 TPS의 간극

또한 퓨리오사가 과거 자사 홈페이지를 통해 공개했던 ‘GPT-oss-120B (MXFP4 4비트 양자화)’ 데모 결과와 비교해 봐도 앞뒤가 맞지 않습니다. 당시 발표에서는 토큰당 생성 시간 5.8 ms를 달성하며 초당 약 172 TPS의 단일 사용자 응답 속도를 보여주었습니다.

하지만 이번 공식 K-Perf 검증에서는 훨씬 가벼운 32B 모델(FP8)을 돌렸음에도 사용자당 속도가 57 TPS 수준에 머물렀습니다. 모델 체급이 4배 가까이 가벼워졌는데 속도가 도리어 1/3 토막이 난 것입니다.

이유는 퓨리오사의 기존 데모가 ‘입력(Prompt) 2,048토큰 / 출력(Output) 128토큰’이라는, 실제 서비스 환경과는 거리가 먼 극단적인 Cherry-picking(취사선택) 환경에서 측정되었기 때문으로 추정됩니다. 출력이 길어질수록 메모리 대역폭 병목이 심해지는 LLM의 특성상, 실제 정상적인 서비스 서빙 환경(K-Perf)에 오자마자 성능의 민낯이 드러난 것이라 볼 수 있습니다.


💡 [기술 예측] 만약 두 칩을 ‘동일한 환경’에서 테스트한다면?

그렇다면 진정한 벤치마크를 위해 두 칩셋을 완전히 동일한 모델과 조건에서 구동한다면 어떤 결과가 나올까요? 하드웨어 스펙을 바탕으로 다음과 같이 예측해 볼 수 있습니다.

시나리오 : GPT-oss 120B (BF16) 동시 구동 시

거대 모델을 원본(16비트)으로 구동할 경우, 메모리 용량과 대역폭이 승패를 가릅니다. 리벨리온 R100은 이미 증명된 대로 170 TPS 및 7,000 token/s의 성능을 낼 것입니다.

반면 퓨리오사 RNGD는 NVLink 같은 독자적인 전용 인터커넥트 플러그가 없기 때문에, 모델을 메모리에 올리기 위해 5~6개의 카드가 PCIe Gen5 링크(양방향 128GB/s)를 통해 복잡하게 통신하며 파티션(Partition) 분할 계산을 해야 합니다.

현재 카드 1장에서 가벼운 FP8 모델로 낼 수 있는 최대 성능이 57 TPS와 2,000 token/s 안팎으로 추정되는데, 거대 모델 분할 연산 시 발생하는 극심한 텐서 병렬처리(TP) 통신 오버헤드를 고려하면 아무리 많이 쳐줘도 1/3에서 1/5 수준의 심각한 성능 저하가 발생할 것입니다. 결과적으로 사용자당 응답 속도는 20~10 TPS 수준으로 급감할 것이며, 최대 처리량(Max Throughput) 역시 카드 1장 한계치보다 훨씬 떨어진 2,000 token/s 미만에 머무를 것으로 예상됩니다.


마치며: 함께 성장하는 K-NPU 생태계를 기대하며

국내 NPU 기업들은 저마다의 뛰어난 철학과 아키텍처로 엔비디아가 독점한 글로벌 AI 시장에 도전장을 내밀고 있습니다. 이번 K-Perf의 중간 결과는 각자의 장점을 보여주려는 시도였지만, 최종 평가에서는 하드웨어 한계를 감추기 위한 짜맞추기식 모델 선정이나 마케팅용 수치 조율이 아니라, 모두가 납득할 수 있는 ‘동일 기준’을 적용하여 진검승부를 펼치기를 기대합니다.

단순히 우열을 가리는 것을 넘어, 명확한 벤치마크를 통해 서로의 기술을 자극하고 발전시키는 건강한 K-NPU 생태계가 완성되기를 진심으로 응원합니다.