九章云极发布AI工厂技术体系:以三大范式重构重绘AI效能曲线
来源:
环球科技网
日期:2026-06-17
责编:
殷绪江
【环球科技网】6月17日,在“智算·新云·新章——2026全球智算科技峰会暨九章云极战略发布会”上,九章云极技术负责人胡宗星揭开了AI工厂的技术底牌。这套以训练工厂和Token工厂为核心的技术体系,试图回答一个根本性问题:当AI从“发明时代”进入“工业化时代”,算力基础设施应该如何重构?

推理效率的10倍差距从何而来
胡宗星在演讲中首先抛出了一组对比数据:一台顶级8卡服务器的聚合内存带宽约38 TB/秒,理论上每秒可生成约1000个Token。但主流推理框架实际解码速度仅数十token/s,二者相差整整一个数量级。这一差距并非源于GPU算力不足。胡宗星将其归因于“执行间隙”——核心程序之间的等待、通信与计算的串行化、主机与设备间的同步开销、数据在多层存储间的反复搬运。这些间隙叠加,导致算力被“困”在了从计算到输出的路径上。
九章云极的判断是:推理正在从“计算问题”演化为“以内存为中心的状态管理问题”。进入智能体时代,多轮对话、多次工具调用、超长上下文使缓存体积可达数十PB,技术瓶颈已从“算得快不快”转向“状态管得好不好”。
三大范式重构:从“堆卡”到“系统效率”
针对上述挑战,九章云极提出了三项范式重构方案,逐一打破传统架构的技术天花板。
第一,系统架构重构:实现计算、存储、传输一体化。传统架构中,算力、存储、网络各自独立运行,缓存数据在各层级间反复搬运,搬运过程本身成为性能瓶颈。九章云极构建了三层协同架构:上层上下文管理引擎负责状态决策,通过“重用规划”和预处理与解码分离调度,将缓存命中率提升至60%到90%;中层推理优化引擎负责执行策略,使计算卡利用率提升50%;下层缓存加速引擎采用三层缓存拓扑与全链路零拷贝技术,将端到端性能提升10倍。实测数据显示,该方案对比纯高速缓存方案性能提升10倍,对比业界主流跨节点二级缓存方案提升5.3倍。4兆字节数据块的写入延迟从传统传输协议的1.7毫秒降至远程直接内存访问的200微秒,实现8倍加速。
第二,计算范式重构:建立持续执行流。传统调度模式采用“启动—加载—计算—存储—同步”的串行执行方式,任务切换时需要销毁并重建核心程序环境。九章云极通过预先编译、持久化核心引擎、线程块分工协作、异构计算节点分工等技术创新,实现了计算与通信的持续重叠,消除了核心程序之间的同步等待,将计算卡利用率推向硬件物理极限。
第三,能效范式重构:以能源定义架构。传统数据中心采用被动配电模式,算力需求决定电力供给。九章云极反向设计,使算力负载主动适配能源波动:绿色电力充足时增加计算负载,电价低谷时满载运行。通过绿色电力优先迁移、多因素感知调度、仿真闭环、算力电力协同调度等四项技术,实现了单Token能耗的可量化、可溯源、可管控。
“重用即算力”:千倍降本的工程逻辑
“重用即算力,定义了推理效率的上限。” 胡宗星重点解读重用规划核心思路,通过智能判定状态复用、重新计算、数据迁移的最优路径,从源头减少无效运算。基于三大范式重构,九章云极总结出千倍综合降本的工程公式:1000倍 = 复用效率 × 一体化协同 × 能源调度。三项重构的乘积效应,重绘了AI效能曲线。在产能转换方面,10万亿Token的日产能并非靠堆卡得来,而是一道系统效率的乘法:10万亿Token = 能源规模 × 模型推理效率 × 跨集群调度效率 × KV/路由效率 × SLA可用时间。
这一公式的底层是五条工程路径的乘积效应:全栈自研基础架构、算电一体化协同、异构算力统一纳管、跨地域全局调度、模型与推理优化。九章云极技术团队将其概括为:算力效率的提升不依赖于硬件堆叠,而在于计算资源的系统级复用。
可验证的工程能力
九章云极的技术能力已通过中国信通院全能力域评测,评测结果显示,训练效率提升100%,计算卡利用率提升50%,推理速度提升10倍。目前,该平台已支持50余款主流大模型的生产环境部署,累计服务超过3万个客户算力任务。
走向软硬一体:推理专用的超级集群
展望未来,九章云极判断推理基础设施将从软件优化走向软硬一体。在软件层,可复用的状态将从KV-cache扩展到会话谱系、工具状态等更多维度;在硬件层,将借助数据处理单元(DPU)把网络、存储、KV搬运从CPU卸载出来,推进异构PD分离硬件,并与超级节点服务器厂商深度合作,打造推理专用的「超级集群」。胡宗星强调,10万亿Token的日产能不仅依赖推理工厂的持续生产,更需要超级集群作为算力底座支撑——超级集群正在成为AI工厂迈向极致效率的硬件基石。
胡宗星在演讲结尾表示:“让AI获得自由,让AI像电力一样可度量、可结算、可规模化生产。这是九章云极AI工厂的工程使命。”依托成熟的技术体系,九章云极持续将系统级优化理念落地,推动AI算力产业全面迈入高效、集约的工业化新阶段。