
CPU、GPU、NPU、VPU、DPU、TPU、PPU、IPU……之后,XPU家眷再添新成员!
NVIDIA创造了全新的“LPU”,情理是“Language Processing Unit”,即谈话经管单位。
它是一款专用的AI推理加快芯片,基于NVIDIA客岁入购的Groq,专攻低蔓延解码与交互式推理,与主打进修和通用规划的GPU变成互补,共同复古AI从进修到落地的全历程。
NVIDIA Rubin Vera平台之前就依然包含六种不同芯片:Rubin GPU加快器、Vera CPU经管器、Bluefield 4 DPU数据经管单位、ConnectX 9智能网卡、NVLink 6纵向彭胀交换机、Spectrum-X横向彭胀交换机。
如今,Groq 3 LPU又加入了这一公共庭。


Groq 3 LPU集成了980亿个晶体管,结构很节略即是多达500MB SRAM(静态当场存取存储器),也即是CPU、GPU上管用的缓存单位。
天然它在容量上远不足288GB HBM4,世界杯官网然而可提供150TB/s的惊东谈主带宽,远远进步HBM4 22TB/s 7倍之多。
要知谈,AI解码操作是相等渴求带宽的,Groq 3赶巧不错完弥漫足,真钱牛牛何况蔓延要低得多。
ag最新app下载官方网站同期,Groq 3 LPU的FP8精度算力达到了1.2PFlops(每秒1200万亿次)。

基于此,NVIDIA打造了Groq 3 LPX机架,包括256颗Groq 3 LPU,缓存总容量达128GB SRAM,带宽则是可怕的40PB/s。
机架之间通过640TB/s带宽的专用纵向彭胀接口迷惑起来,举座AI推理算力达到315PFlops(每秒31.5亿亿次)。
Groq LPX定位是Rubin Vera平台的协经管器,不错加快AI模子每一层的每个token经管,栽培解码性能。
它还为多智能体系统作念好了准备,这被视为AI的下一个前沿鸿沟,需要在对万亿参数模子进行推理、经管百万token高下文窗口的同期,保捏交互性能。
Rubin GPU迷惑Groq LPU,将把当下每秒100个token的浑沌量,推向每秒1500个token以致更多,从而好意思满复古AI智能体交互场景。
牛牛
