EN
js555888金沙(中国)有限公司官网- 推理算力占AI应用70%成本权重,需求爆发下国产芯片如何定义性价比新基准?
2026-03-17 17:01:53


导语:谁能连续降低推理成本,谁就把握了AI财产的成本曲线。

雷峰网(公家号:雷峰网)动静,1月27日,国产GPU厂商曦望(Sunrise)正式发布新一代推理芯片“启望S3”,并同步推出头具名向年夜模子推理的“寰望 SC3”超节点方案和推理云规划。

推理算力占AI应用70%成本权重,需求爆发下国产芯片如何定义性价比新基准?

这一系列动作直指行业痛点。

此前AI芯片厂商遍及堕入“拼峰值机能”的竞争怪圈,但不少行业人士指出,以超节点为例,产物存于较着“范围甜点”效应:一旦跨越机能阈值,晋升幅度便会边际递减,盲目寻求超年夜算力范围反而会造成GPU闲置率爬升、单元Token成本高企的问题。

推理场景下,用户需要的是“成本可控、机能适配、不变靠得住” 的算力。怎样走出差异化的线路?

“咱们丢弃了传统的训推一体GPU为练习预备的冗余设计,不寻求峰值TFLOPS机能,而是把真实营业场景中的单个Token成本、能耗,以和SLA的不变性,作为所有设计决议计划的底子起点。”曦望董事长徐冰于发布会现场论述到。

为了到达这个尺度,启望S3作为面向年夜模子推理深度定制的GPGPU芯片,怎样缭绕真实推理负载完成对于算力布局、存储系统与互联方式的体系级重构?

从“机能峰值”到“单元成本”,推理正于从头界说GPU设计方针

推理算力的发作式增加,已经成为行业当下最焦点的存眷核心。对于此,曦望于发布会上,给出两组数据:

到2026年,推理算力于总体AI算力中的占比将到达66%,这并不是遥远的趋向预判,而是正于发生的行业布局性变化,推理已经从AI财产链的“副角”跃升为“主力”;

当前推理成本于AI运用总支出中的占比已经高达70%,直接决议着AI企业的盈利空间与贸易化成败。只有将推理成本从现有量级年夜幅压低,实现阶梯式降落,AI才能真正挣脱高成本束厄局促。

“当推理成为重要算力耗损场景后,GPU的贸易价值再也不取决在参数指标,而是单元Token的真实成本。”曦望联席CEO王勇暗示。

这一判定,决议了启望S3的设计标的目的。

推理算力占AI应用70%成本权重,需求爆发下国产芯片如何定义性价比新基准?

于算力层面,S3撑持从FP16到FP4的多精度矫捷切换,使模子于包管效果的条件下,最年夜化晋升低精度推理效率。这类设计更贴合当前MoE及长上下文模子于推理阶段的现实需求。

于存储层面,S3采用LPDDR6显存方案,成为海内首款采用该方案的芯片。比拟HBM线路,LPDDR6更夸大容量与能效比。官方数据显示,S3的显存容量较上一代产物晋升4倍,有用减缓了年夜模子推理中遍及存于的显存驻留与访存瓶颈。

于DeepSeek V3 / R1满血版等主流年夜模子推理场景中,S3单元Token推理成本较上一代产物降落约90%。曦望方面称,这一指标已经具有工程可复现性,而非单点试验室数据。

推理算力占AI应用70%成本权重,需求爆发下国产芯片如何定义性价比新基准?

此外,曦望同步发布了面向年夜模子推理的寰望SC3超节点解决方案,该方案撑持单域256卡一级互联,可高效支撑PD分散架构与年夜EP范围化部署,显著晋升推理阶段的体系使用率与不变性,适配长上下文、多并发、多专家并行等繁杂推理场景。

于交付形态上,寰望SC3采用全液冷设计,具有极致PUE体现,并撑持模块化交赋予快速部署。于划一推理能气力级下,该方案可将总体体系交付成本从行业常见的亿元级,降低至万万元级,实现一个数目级的降落。

推理算力占AI应用70%成本权重,需求爆发下国产芯片如何定义性价比新基准?

于软件层面,曦望构建了与CUDA兼容的基础软件系统,笼罩驱动、运行时API、开发东西链、算子库及通讯库,降低推理运用的迁徙门坎。今朝,该系统已经适配ModelScope平台 90% 以上主流年夜模子形态,包括DeepSeek、通义千问等。

推理算力占AI应用70%成本权重,需求爆发下国产芯片如何定义性价比新基准?

推理算力怎样更好用?云平台买通落地的“末了一千米”

S3回覆了推理性价比的命题,但对于在年夜部门用户而言,其对于算力需求的产物形态应为云上算力资源,而非裸金属资源。

让推理算力更好用,不该止步在造出芯片。为此,曦望与商汤科技、第四范式等生态伙伴摸索的推理云平台。

推理算力占AI应用70%成本权重,需求爆发下国产芯片如何定义性价比新基准?

经由过程GPU池化与弹性调理,曦望将底层算力整合为同一的推理算力池,并以MaaS作为焦点进口,使企业无需存眷底层硬件配置与集群运维,便可按需挪用年夜模子推理能力。

这一系统同样成为“百万Token 一分钱”推理成本的主要技能基础。

“推理时代的焦点不是把芯片卖出去,而是可否连续、不变地把算力转化为可交付的出产力。谁能连续降低推理成本,谁就把握了AI财产的成本曲线。”曦望董事长徐冰暗示。

据披露,曦望2025年推理GPU芯片交付量已经冲破1万片,标记着其推理GPU线路完成从工程验证到范围化交付的要害超过。

中国工程院院士、浙江年夜学信息学部主任吴汉明也指出,推理算力价值的实现离不开协同,需要芯片设计、体系集成、软件开发到财产运用的全链条协作。

于国产GPU行业从“拼参数”走向“拼单元经济成本”的拐点上,曦望选择以推理为暗语,测验考试重构 GPU 的产物形态与算力交付方式。All-in推理的实践,正于成为不雅察中国推理算力贸易化进程的主要样本。

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

-js555888金沙(中国)有限公司官网

万物互联 js555888金沙智造