js555888金沙(中国)有限公司官网- 推理算力占AI应用70%成本权重，需求爆发下国产芯片如何定义性价比新基准？

2026-03-17 17:01:53

导语：谁能连续降低推理成本，谁就把握了AI财产的成本曲线。

雷峰网(公家号：雷峰网)动静，1月27日，国产GPU厂商曦望（Sunrise）正式发布新一代推理芯片“启望S3”，并同步推出头具名向年夜模子推理的“寰望 SC3”超节点方案和推理云规划。

推理算力占AI应用70%成本权重，需求爆发下国产芯片如何定义性价比新基准？

这一系列动作直指行业痛点。

此前AI芯片厂商遍及堕入“拼峰值机能”的竞争怪圈，但不少行业人士指出，以超节点为例，产物存于较着“范围甜点”效应：一旦跨越机能阈值，晋升幅度便会边际递减，盲目寻求超年夜算力范围反而会造成GPU闲置率爬升、单元Token成本高企的问题。

推理场景下，用户需要的是“成本可控、机能适配、不变靠得住” 的算力。怎样走出差异化的线路？

“咱们丢弃了传统的训推一体GPU为练习预备的冗余设计，不寻求峰值TFLOPS机能，而是把真实营业场景中的单个Token成本、能耗，以和SLA的不变性，作为所有设计决议计划的底子起点。”曦望董事长徐冰于发布会现场论述到。

为了到达这个尺度，启望S3作为面向年夜模子推理深度定制的GPGPU芯片，怎样缭绕真实推理负载完成对于算力布局、存储系统与互联方式的体系级重构？

从“机能峰值”到“单元成本”，推理正于从头界说GPU设计方针

推理算力的发作式增加，已经成为行业当下最焦点的存眷核心。对于此，曦望于发布会上，给出两组数据：

到2026年，推理算力于总体AI算力中的占比将到达66%，这并不是遥远的趋向预判，而是正于发生的行业布局性变化，推理已经从AI财产链的“副角”跃升为“主力”；

当前推理成本于AI运用总支出中的占比已经高达70%，直接决议着AI企业的盈利空间与贸易化成败。只有将推理成本从现有量级年夜幅压低，实现阶梯式降落，AI才能真正挣脱高成本束厄局促。

“当推理成为重要算力耗损场景后，GPU的贸易价值再也不取决在参数指标，而是单元Token的真实成本。”曦望联席CEO王勇暗示。

这一判定，决议了启望S3的设计标的目的。

推理算力占AI应用70%成本权重，需求爆发下国产芯片如何定义性价比新基准？

于算力层面，S3撑持从FP16到FP4的多精度矫捷切换，使模子于包管效果的条件下，最年夜化晋升低精度推理效率。这类设计更贴合当前MoE及长上下文模子于推理阶段的现实需求。

于存储层面，S3采用LPDDR6显存方案，成为海内首款采用该方案的芯片。比拟HBM线路，LPDDR6更夸大容量与能效比。官方数据显示，S3的显存容量较上一代产物晋升4倍，有用减缓了年夜模子推理中遍及存于的显存驻留与访存瓶颈。

于DeepSeek V3 / R1满血版等主流年夜模子推理场景中，S3单元Token推理成本较上一代产物降落约90%。曦望方面称，这一指标已经具有工程可复现性，而非单点试验室数据。

推理算力占AI应用70%成本权重，需求爆发下国产芯片如何定义性价比新基准？

此外，曦望同步发布了面向年夜模子推理的寰望SC3超节点解决方案，该方案撑持单域256卡一级互联，可高效支撑PD分散架构与年夜EP范围化部署，显著晋升推理阶段的体系使用率与不变性，适配长上下文、多并发、多专家并行等繁杂推理场景。

于交付形态上，寰望SC3采用全液冷设计，具有极致PUE体现，并撑持模块化交赋予快速部署。于划一推理能气力级下，该方案可将总体体系交付成本从行业常见的亿元级，降低至万万元级，实现一个数目级的降落。

推理算力占AI应用70%成本权重，需求爆发下国产芯片如何定义性价比新基准？

于软件层面，曦望构建了与CUDA兼容的基础软件系统，笼罩驱动、运行时API、开发东西链、算子库及通讯库，降低推理运用的迁徙门坎。今朝，该系统已经适配ModelScope平台 90% 以上主流年夜模子形态，包括DeepSeek、通义千问等。

推理算力占AI应用70%成本权重，需求爆发下国产芯片如何定义性价比新基准？

推理算力怎样更好用？云平台买通落地的“末了一千米”

S3回覆了推理性价比的命题，但对于在年夜部门用户而言，其对于算力需求的产物形态应为云上算力资源，而非裸金属资源。

让推理算力更好用，不该止步在造出芯片。为此，曦望与商汤科技、第四范式等生态伙伴摸索的推理云平台。

推理算力占AI应用70%成本权重，需求爆发下国产芯片如何定义性价比新基准？

经由过程GPU池化与弹性调理，曦望将底层算力整合为同一的推理算力池，并以MaaS作为焦点进口，使企业无需存眷底层硬件配置与集群运维，便可按需挪用年夜模子推理能力。

这一系统同样成为“百万Token 一分钱”推理成本的主要技能基础。

“推理时代的焦点不是把芯片卖出去，而是可否连续、不变地把算力转化为可交付的出产力。谁能连续降低推理成本，谁就把握了AI财产的成本曲线。”曦望董事长徐冰暗示。

据披露，曦望2025年推理GPU芯片交付量已经冲破1万片，标记着其推理GPU线路完成从工程验证到范围化交付的要害超过。

中国工程院院士、浙江年夜学信息学部主任吴汉明也指出，推理算力价值的实现离不开协同，需要芯片设计、体系集成、软件开发到财产运用的全链条协作。

于国产GPU行业从“拼参数”走向“拼单元经济成本”的拐点上，曦望选择以推理为暗语，测验考试重构 GPU 的产物形态与算力交付方式。All-in推理的实践，正于成为不雅察中国推理算力贸易化进程的主要样本。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-js555888金沙(中国)有限公司官网

返回列表