

新智元报说念
裁剪:桃子 好困
【新智元导读】200亿好意思元「招抚」Groq,推理芯片赛说念通宵变天。但在大洋此岸,一家北大系创业公司刚刚交出了我方的流片答卷。
NVIDIA GTC 2026前夜,AI推理赛说念大雨欲来。
国内死磕「超大带宽流式推理」门道的北大系黑马——寒序科技,本日晓谕完成数千万元融资。
冬眠两年,寒序平直亮出硬货:
首颗样片回片测试全面跑通,单元面积带宽飙至100 GB/s/mm²;
下一代「MRAM+SRAM」夹杂架构直指2000 Tokens/s极限。
这场拔除「内存墙」的国产算力解围战,正从纸面跃向流片。
GTC 2026前夜的「门道倒戈」
客服QQ:88888888{jz:field.toptypename/}大模子硬件的下半场,正迎来一场底层门道的剧烈「倒戈」。
下周,NVIDIA GTC 2026行将开幕。
行为众人AI算力的风向标,业内大齐预计:跟着Agent(智能体)与具身智能的大范围落地,算力焦点的天平已澈底向「推理(Inference)」歪斜。
而在此前,业界哄传英伟达已通过约200亿好意思元的惊东说念主估值级别,以本领授权与中枢团队吸纳的神色,实质性绑定了北好意思明星推理芯片公司Groq。巨头为何对一家初创公司掷出天价?

中枢逻辑在于:传统GPU在支吾流式大模子推理时,正撞上难以逾越的「内存墙(Memory Wall)」与动态颐养蔓延。在及时生成的战场上,底本为并行诡计而生的GPU,正显得有些「尾浩劫掉」。
就在英伟达试图在北好意思完成本领左右、构筑推理算力护城河确当下,新智元独家获悉:国内专注超快流式推理芯片的创业黑马——「寒序科技」本日认真晓谕完成数千万元融资。本轮投资方为启高老本、赛意产业基金,源合老本担任独家财务照应人。
在冬眠两年后,这家源自北大的硬核团队平直交出了流片答卷,向业界证据:在「详情趣流式处理」这条非共鸣的说念路上,中国团队不仅跟得上,况兼打得通。
GPU的「原罪」与推理期间的「阳谋」
要相识寒序科技的本领护城河,必须先拆解为何连英伟达齐要惊险。
当代GPU(如H100/Blackwell)是为并行诡计而生的艺术品。为了兼容通用诡计,它撑捏复杂的软件生态和多类型算子,里面包含极其复杂的动态颐养、乱序引申、多级Cache层级以及Warp颐养机制。
在「覆按阶段(Training)」,这种蒙胧量优先的架构通过大范围数据并行,展现了总揽级的实力。
但在「推理阶段(Inference)」,风向变了。
大模子生成Token的经由是串行的、流式的。每生成一个Token,骨子上齐需要引申一次矩阵向量乘(GEMV):
y = Wx
其中W为权重矩阵(Weight Matrix),x为激活向量(Activation Vector)。
这意味着推理阶段并不是「算力受限」问题,而是典型的「带宽受限诡计(Bandwidth-bound Computing)」。在Decode(生成)阶段,GPU遍及的浮点运算单元(ALU)大部分时期齐在空转,苦苦恭候从显存中搬运权重的教导。这种「高射炮打蚊子」的错配,导致了极大的算力闲置与蔓延波动。
英伟达的「阳谋」昭然若揭:既然GPU架构在小Batch推理上存在天生纰谬,那就通过老本技能「收编」像Groq这么走LPU(Language Processing Unit)门道的公司,从而在黑盒里面完成对推理架构的补完。
叫板Groq
寒序科技的「极致断舍离」
寒序科技(SpinPU-E Series)走的是一条与GPU天差地远、却与Groq核感情念高度共鸣的说念路:片上存储权重的流式高带宽架构澈底扬弃硬件颐养,接管片上存储权重的流式高带宽架构。
参照张量流式处理器(TSP)的底层原则,寒序科技在产物界说上终清爽极致的重构。这种架构在里面被形象地称为「分娩线情势」,而非GPU的「计件工场情势」。
1. 算法指挥的流式「详情趣」
传统处理器依赖多级缓存和复杂的颐养逻辑来处理不步调任务,这在大模子看来是过剩的背负。寒序通过神经齐集前向传播算法指挥的Decode专用性、详情趣数据流动蓄意,终清爽超高蒙胧的精准颐养与处理。
这意味着,数据在芯片里面每一纳秒的位置齐是事前详情的,排斥了任何因动态争抢资源带来的蔓延抖动。
2. 面向算子的数据通路
寒序将芯片里面空间分歧为针对Transformer模子优化的特定功能块:片上权重存储、GEMV诡计单元、向量运算单元。这种联想让权重读取与诡计酿成完竣活水线,委果作念到了「数据到达即诡计」。
3. 带宽即生命线
在大模子推理中,决定蒙胧量的不是FLOPS,而是带宽愚弄率。公式如下:

寒序科技的中枢竞争力,就在于将这个公式的分子(带宽)推向了物理极限。
100 GB/s/mm²
高出「示寂之谷」的硬核蓄意
对于芯片初创公司而言,从PPT架构图到硅片回片,中间横亘着被称为「示寂之谷」的流片考证期。
知情东说念主士向新智元知道,寒序科技首颗芯片样片的「回片测试」恶果远超预期,真钱牛牛app中枢功能与本领逻辑被全面考证。其中最关节的一项硬蓄意:其「单元面积带宽」达到了100 GB/s/mm²。
这是一个足以让业界藏匿的数字。在流式推理架构中,这一蓄意险些不错平直映射为推理速率。
对比传统架构:即使是顶级的HBM3e显存决议,其单元面积能提供的有用读取带宽也受限于显存限定器和物理封装。
对比Groq:寒序在单元面积上提供了更高密度的权重存取能力,这意味着一样的芯片尺寸下,寒序能以更短的时期处理更多的权重参数。
在「得带宽者得世界」的推理赛说念,这不仅是一个数据,更是一起分水岭。它使得大模子在高蒙胧流式输出时,能够委果安闲异日AI Agent对低蔓延的尖刻条目。
终极杀招
「MRAM+SRAM」夹杂架构
Groq天然快,但它有一个致命的缺点:存不下。
Groq接管纯SRAM决议,天然速率极致,但SRAM的密度极低。要运行一个70B范围的模子,通常需要数百张卡集群,其成本和功耗让很多中小企业瞋目而视。
寒序科技的贪心不啻于复刻Groq,而是要进化它。
据悉,寒序科技在行将流片的下一代芯片中,首创了「片上MRAM + SRAM」的夹杂存储架构。
SRAM():负责最高速的缓存与中间变量诡计,保捏极低蔓延。
MRAM(磁性立时存储器):这种新式非易失性存储器领有接近SRAM的速率,但密度却远高于SRAM,且功耗极低
这种「北大系」擅长的底层本领交融,让寒序在保捏「详情趣流式架构」上风的同期,大幅晋升了单片的模子容量存储密度。其场地性能直指2000 Tokens/s的极限。
这是什么倡导?
现在市面上最快的对话模子推理速率时时在30-50 Tokens/s。若是寒序的2000 Tokens/s决议量产,意味着:
具身智能:机器东说念主不错在毫秒级完成视觉输入到动作教导的推理闭环。
及时同传:翻译将不再有「滞后感」,终了委果趣味上的同步。
多智能体(小龙虾):复杂的智能体蓄意任务不错在陡然完成屡次自我博弈与修正。
北大基因与国产算力的新变量
贵府炫耀,寒序科技栽种于2023年8月,中枢创始团队源自「北京大学磁学中心」。
这是一个典型的「科学家+工程师」组合。他们在底层新式存储器(MRAM)与存算架构交融边界,领有深厚的学术积攒和工程落地警戒。这解释了为什么他们能支配这种极其熟习硬件底层限定逻辑的异构联想。
有接近本轮融资的投资东说念主对新智元默示:「咱们看好寒序,是因为他们莫得在GPU的梓乡图上寻找新大陆,而是平直重构了推理期间的『底层教导集』。」
寒序遴荐在GTC 2026前夜开释融资与本领发扬信息,昭着有着更深层的考量。在算力霸权日益连合的今天,国内需要一种不依赖国外高端HBM供应、能够通过架构变嫌终了性能弯说念超车的决议。
算力霸权的终端之战
回看GTC的历史,每一代架构齐在界说一个期间:
2017年,Volta GPU艳丽着覆按期间的全面爆发;
2022年,Hopper H100引入Transformer Engine,定鼎LLM基石;
2026年,这场对于「推理」的干戈,将决定AI能否委果走进百行万企。
英伟达天然遒劲,但莫得任何一个王朝能通过一种架构总揽扫数场景。在大模子从「博学」走向「活动(Agentic AI)」的经由中,对速率、能效比和及时性的条目,正在为像寒序科技这么的垂直变嫌者留出巨大的窗口。
寒序科技的这笔融资,仅仅一个初始。跟着Agent系统、多模态模子和具身智能的爆发,AI不再仅仅单轮对话,而是需要捏续的蓄意与环境响应。
推理,才是AGI的「终末一公里」。
寒序科技照旧在这一硬核战场上落下了关节的一子。
下周的圣何塞,老黄概况会拿出更强的Blackwell变体,但在大洋此岸,国产算力的黑马们,正在用全新的架构逻辑,截击巨头的阳谋。
您觉得在推理芯片赛说念,国内企业通过「非通用架构」能否终了对NVIDIA的解围?接待在挑剔区留住您的洞见。
对于寒序科技:栽种于2023年,勤奋于开导超大带宽、详情趣流式大模子推理芯片,现在已完成四轮融资。其中枢本融会径旨在责罚大模子推理中的「内存墙」费力,为及时AI应用提供颠覆性基础法子。
