琼中锚索钢绞线上交大和辉羲把LLM刻进ROM! 理能冲2万token/s, GPU期间闭幕

173 2026-03-12 07:33

【新智元读】当硅谷Taalas将大模子「物理焊死」进芯片引爆全球半体圈，来自上海交大、辉羲智能与微软亚洲商榷院的商榷团队早已走得远——他们用ROM+SRAM异构架构，将端侧LLM理速率至20,000 tokens/s琼中锚索钢绞线，端侧算力顺利升空。

近期，硅谷初创公司 Taalas 建议的「模子即芯片（Model-on-Chip）」案激励了全球半体业界对「硬核 AI」的度反念念。

他们绕开了总共热点想法，顺利把AI大模子，物理焊死在硅片里！

芯片驱动Llama 3.1 8B的速率达到了17,000tokens/秒。

足足比业界尖端的英伟达GPU进步了快要10倍！

英伟达这边也没闲着，GTC 2026前夜，英伟达开释明笃信号：行将发布的Feynman架构将与Groq LPU本领罢了度融。

手机号码：13302071130

LPU架构通过预编排的固定提醒流驱动模子，放置传统HBM主存，转而接纳片上SRAM存储权重，大幅冲破了原有的拜访速率与带宽瓶颈。

这些齐预示着，在Scaling Law驱动的大模子期间，传统的通用提醒集正成为锁死算力的镣铐。

怎么从物理层面击碎困扰大讲话模子（LLM）部署的「内存墙」，已成为界说生成式 AI 下半场的关键。

现存端侧存储案弗成同期知足LLM理的存储容量和访存带宽需求

事实上，针对 LLM 的访存特，来自上海交大、辉羲智能及微软亚洲商榷院的商榷团队早已张开了场存储档次结构的鼎新商榷。

通过ROMA与TOM系列商榷，团队展现了与 Taalas 不谋而的架构细察：通过对只读存储（ROM）的颠覆应用与「算法-架构」度协同，奏凯将 LLM 的端侧理速率向 20,000 tokens/s 的水平，这冲破效果在具身智能等前沿域展现了纷乱的应用后劲。

ROMA：破传统存储档次

重塑端侧能

在大模子端侧部署的实战中，传统的内归档次结构正靠近前所未有的挑战。

商榷团队建议的 ROMA（Read-Only-Memory-based Accelerator）架构，针对端侧场景的非凡需求，给出了套系统的解法。

ROMA的缱绻架构，接纳ROM+SRAM的案

1. 引入只读存储（ROM）：从起源处罚访存能

商榷团队发现，大模子理的能瓶颈主要源于权重数据在外部内存（如 LPDDR）与缱绻单位之间的通常搬运。

ROMA 别具肺肠，应用集成密度、低功耗的只读存储（ROM）手脚权重的存储载体，将模子参数从起源上固化在芯片里面，大幅度斥责了访存功耗。

2. QLoRA 赋能天真：在「固化」中寻找演进空间

硬连线的芯片往往难以嘱咐算法的快速迭代。ROMA 好意思妙地引入了 QLoRA 机制，通过 ROM（基座模子）+ SRAM（LoRA 适配器）的混想象，确保了芯片在领有「硬核」能的同期琼中锚索钢绞线，已经保留了执意的应用天真。

开发者只需下发小领域的 LoRA 插件，即可让固化的基座模子在不同垂直任务间快速切换。

3. 架构与物逸想象协同：致的物理罢了

为了罢了真实的片上全模子存储，团队进行了度的架构与物逸想象协同化。

通过创的 B-ROM 想象，将缱绻单位与存储阵列进行紧耦的物理布局，地面镌汰了信号传输旅途。

这种协同想象让 ROMA 在有限的芯单方面积内，罢了了对数亿参数模子的容纳与及时调理。

终，ROMA的规格和方针与Taalas格外接近：ROMA接纳7nm工艺库，芯单方面积约 500 mm²，不错竣工容纳4bit LLaMA3.2-3B 或者 2bit LLaMA3-8B，理能达到20,000 tokens/s，而相同接纳ROM+SRAM的案的Taalas是6nm工艺，面积约800mm²，可容下3-6bit llama3.1-8B，能接近20,000 tokens/s。

TOM：度挖掘三值化大模子

带来的存储红利

在 ROMA 的基础上，新的 TOM（Ternary-Oriented Memory）架构当先将化的触角蔓延到了算法底层的存储特征中，把ROMA推广到BitNet/Ternary量化这个场景，应用低比特权重的0值稀少，连续进步了ROM的存储密度。

低比特模子0值永诀特征，预应力钢绞线带来ROM存储密度进步后劲

1. 捕捉 BitNet 的硬件友好：开启「以逻辑代存储」范式

商榷团队发现，以 BitNet-b1.58 为代表的三值化（{-1, 0, 1}）模子展现出了佳的硬件友好。

基于这发现，TOM 放置了传统的存储阵列，通过逻辑成本领顺利应用设施逻辑门罢了模子权重的固化存储。

在这种新范式下，硬件或者顺利识别并物理排斥权重中「0」元素的存储电路。这致收益的罢了，收获于三值模子中值参数本就占据大大宗的稀少特，加上定制的编码法（使用「10」而非「11」来暗示 -1），从而大幅拉了 0-bit 的合座占比，从根底上斥责了物理支出。

2. 存储逻辑的度并与复用：限压缩芯单方面积

为了当先面积率，TOM 引入了淡雅的逻辑化政策：通过识别并索要不同权重存储逻辑中的大家子序列，对重迭的逻辑门进行度并与复用。

这种从物理层对存储逻辑进行的「限去重」，使得 TOM 比较 ROMA 罢了了片上存储密度的数倍进步与芯单方面积的大幅削减。

这也再次印证了算法-硬件联想象在冲破 AI 算力界限时的中枢进犯。

具身智能与端场景

ROM 架构的「降维击」

「模子即芯片」案的兴起，捕捉到了刻下端侧应用的两大痛点：

1. 具身智能的「及时细目」

在机器东谈主、东谈主开辟等具身智能场景中，毫秒的反应延迟往往决定了系统的物理安全。

ROMA 提供的 20,000+ tokens/s 费解量，是为了提供种细方针及时反馈。

这让机器东谈主或者像领有脊髓反射样，在感知到复杂的物理环境变化时，瞬时作念出语义意会与避障有规划。

2. 端环境下的活命势：海与火星

在海探伤器、火星漫游车等端场景下，DRAM 等易失存储器不仅能耗，且容易受到能射线侵犯产生软诞妄。

ROM 架构具有的踏实和抗放射。

在动力匮乏、通讯隔的端环境下，搭载 ROMA/TOM 架构的开辟已经能立、踏实地完成复杂的智能任务，且待机功耗低。

这使得大模子或者真实走出履行室，参预东谈主类探索的「东谈主区」。

3. 智能末端的秘籍「火墙」

对于手机端腹地文本处理等场景，用户对模子基座的通常新需求并不，但对秘籍其明锐。

将训练、踏实的模子才智固化在腹地紧闭电路中，不仅去了通常联网的能耗，在物理层面上杜了数据外泄的风险。

结语

开启端侧内归档次结构的新纪元

从 Taalas 的破圈到商榷团队ROMA与TOM系列责任的度探索，咱们正见证 AI 硬件架构的个进犯转向。

这种引入ROM+SRAM异构存储档次结构的鼎新，结对三值逻辑存储特的致挖掘，为端侧大模子部署提供了条全新的进路。

ROMA与TOM系列商榷的出身，植根于“模子即芯片”的想象念念维。

团队的这种强调算法与硬件度耦的念念维开端，早可追思至微软亚洲商榷院（MSRA）时间。

中枢作家中，文强与曹士杰曾先后手脚MSRA实习生在徐宁仪老师指下开展商榷，积淀了厚的工业界系统素养；张毅佳在上海交大攻读博士期间师从徐老师，并先后在 MSRA 系统组与辉羲智能实习。

商榷团队遥远从事算法-芯片联想象的商榷，在AI芯片架构想象、大模子轻量化等面有丰富素养。

这种由资架构师、企业商榷员与学术重生代组成的多重纽带，让团队得以将前沿的实战念念维与学术界的表面鼎新结，在大模子范式下罢了了从通用缱绻向 LLM 原生架构的协同冲破。

团队先容

对于上交大团队：团队来自上海交通大学缱绻机学院定制缱绻中心（Customized Computing Center - CCC，ccc.sjtu.edu.cn），CCC聚焦于处罚数据中心、边际开辟和传感器的所靠近的多样缱绻挑战。

对于辉羲智能：辉羲智能悉力于成为全球先的具身智能AI缱绻平台供应商，以不凡算力促进东谈主工智能发展。修复三年，公司已罢了大算力端侧旗舰芯片R1的奏凯流片与量产录用，率先在具身智能域走通“芯片-平台-家具”的全栈并立国产化旅途。

相关词条:罐体保温施工异型材设备锚索玻璃棉保温护角专用胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定琼中锚索钢绞线，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

琼中锚索钢绞线大和上交辉羲把 LLM

推荐资讯

琼中锚索钢绞线上交大和辉羲把LLM刻进ROM! 理能冲2万token/s, GPU期间闭幕

吉安钢绞线用途公共AI勾栏来了，时常错过新本事的欧洲，以这

昭通钢绞线厂自来水

屯昌预应力钢绞线厂苹果和它一起煮, 果惊人, 一养脾胃、二

琼中锚索钢绞线 上交大和辉羲把LLM刻进ROM! 理能冲2万token/s, GPU期间闭幕

吉安钢绞线用途 公共AI勾栏来了，时常错过新本事的欧洲，以这

昭通钢绞线厂 自来水

屯昌预应力钢绞线厂 苹果和它一起煮, 果惊人, 一养脾胃、二

琼中锚索钢绞线上交大和辉羲把LLM刻进ROM! 理能冲2万token/s, GPU期间闭幕

吉安钢绞线用途公共AI勾栏来了，时常错过新本事的欧洲，以这

昭通钢绞线厂自来水

屯昌预应力钢绞线厂苹果和它一起煮, 果惊人, 一养脾胃、二