先进制程受限,成熟制程如何撑起大模型时代?这句话背后,是一道横亘在国产芯片面前的结构性难题。
近日,在2026北京智源大会上,清微智能带来了答案:从计算架构上突破。"模型越做越大,算力却跟不上了。"清微智能软件副总裁李彬表示,传统架构芯片面临功耗墙、内存墙、通信墙层层限制,有效晶体管利用率不足40%。为了解决这个问题,清微选择以架构补工艺,用可重构数据流引擎让计算单元根据数据流动按需重组,晶体管有效利用率一举突破70%,用成熟制程实现接近先进制程的有效算力。
作为可重构芯片代表企业,会议现场,清微智能也带来了即将问世的下一代AI芯片——三维集成芯片技术的展示,其采用3.5D异构堆叠与Chiplet架构,让可重构计算芯粒与DRAM存储芯粒实现了三维垂直堆叠。
“除了以架构补工艺和以集成超制程外,清微还选择以系统聚算力、以自主创生态,这是清微智能环环相扣的四步动作。”李彬表示,下一步,清微智能将以四大路径抢抓AI基建发展机遇,助力国产算力从“可用”迈向“好用”。
以下为李彬与财经网科技等媒体的对话原文(略有删改):
Q:请介绍清微智能的核心技术路线,以及为什么要走可重构架构这条路线?
A:我们从创立之初就选择了一条和主流不同的技术路线——可重构计算架构,之所以坚持走这条路,主要有两个原因。
第一,从国际科技竞争的大背景来看,以美国为例,其对中国芯片产业的遏制是长期性的,如果我们选择跟随国际主流成熟路线去追赶,永远只能跟在后面,差距难以缩小。
第二,从纯技术角度讲,摩尔定律已经接近尾声,传统的计算架构本身也已经很难再做出突破性提升,要继续大幅提升算力性价比,必须在架构层面做根本性创新,而不是在别人的架构上做渐进式改良,所以我们宁愿选择一条难而正确的路。清微智能2018年成立,到今天已经八年,我们真正完成了从架构创新到产品落地、客户验证的全过程,这是我们最核心的护城河。
Q:在先进工艺受限的背景下,清微是如何应对"卡脖子"问题的?
A:我们的应对思路是"以集成换性能"——通过系统级的技术创新,绕开单点工艺的限制。
具体来讲有两个关键点。第一,不用HBM(高带宽内存),我们的第一代算力芯片用的是低成本的DDR,通过可重构架构在芯片内部解决带宽瓶颈,在系统级实现高性能,从而绕开了HBM依赖。
第二,用3D封装技术弥补工艺差距。通过先进的封装集成技术,我们用成熟制程实现了接近先进制程的性能效果,这是一种弯道超车的思路,不是去硬碰硬地突破工艺封锁,而是通过架构和系统集成创新,跨过这道墙。
Q:和行业内其他AI芯片产品相比,清微的产品竞争力如何?
A:在性价比和大规模集群两个维度上,我们已经能够打平甚至超越。
单芯片性价比:同样成本条件下,我们的性能、性价比大幅提升,下一代即将回片量产的产品,性能还会有2~3倍的快速提升。
大规模集群的创新:我们摒弃了传统依赖外部交换机、以太网卡的互联架构,而是从芯片层面就内置了高速通信能力。这样可以不依赖额外的交换机和交换芯片,最多可以将4096颗芯片通过光纤直连成一张网,实现高带宽、低延时。
成本优势非常显著:构建同样规模的4千卡集群,我们的互联通信成本可以降低约90%。交换机和光模块在算力集群总成本中占比很高,而我们的方案几乎可以把这部分成本省掉。相当于花同样的钱,我们能建更大规模的算力集群。
Q:芯片研发的周期(883436)为什这么长?清微如何保持技术路线的前瞻性?
A:芯片行业和互联网行业完全不同。一款芯片从架构设计、前端后端仿真,到流片、回片、量产,至少需要1年半到2年时间。你今天看到的产品,其实是2年前设计的。这就意味着,芯片公司必须往前看3~5年,预判技术趋势,才能做出适合未来市场的产品。
所以对清微来说,我们在2018年选择可重构计算架构这条路的时候,就是基于对未来5~10年技术趋势的判断,今天看起来,这个判断是被验证了的。我们现在的研发节奏是:落地一代、研发一代、预研一代,三个节奏同时推进,确保技术路线持续领先。
Q:请介绍清微目前产品的量产情况如何,以及主要的应用场景在哪里。
A:清微智能作为北京市集成电路产业的代表性企业,已量产十余款芯片产品,覆盖“端-边-云”全场景,并在全国十余个千卡智算中心实现规模化落地。
Q:现在国内也有一些企业走这个技术路线,您认为清微智能处在什么位置?
A:可以说我们是进展最快的企业之一,或者说是取得阶段性成果最为明显的,我们是第一个将这套技术(可重构技术路线架构)的2.0范式统筹和进一步推进完成的。
Q:您怎么看当前AI大模型对算力需求的影响?
A:大模型能力的快速增长,正在从根本上改变算力供给的方式。过去,算力是以单台服务器、单机的方式供给,比较离散,现在,模型越来越大,推理和训练对算力的需求越来越集中,集约式的集群部署方式成为必然选择,相比过去离散的部署方式,集群化部署的整体TCO(总拥有成本)效率明显更好,如果再叠加我们超节点技术的优势,性价比会进一步提升。
从需求侧来看,模型能力的提升也非常快,模型从"辅助工具"变成"可以平起平坐的助手",这种能力的跃迁,会进一步引爆对算力的需求。
Q:算力成本什么时候能降下来?普通用户和企业什么时候能用上便宜的AI?
A:算力成本下降需要两个维度同时推进。算法模型维度方面,同样参数规模的模型,能力在持续提升,但价格并没有相应下降,未来随着模型算法进一步成熟,同样智能水平的模型,成本会继续下降。
硬件算力维度方面,我们需要进一步挖掘芯片架构的潜力——同样的硬件,今年能跑10个任务,明年通过软件优化可能能跑15个,单位成本自然就降下来了。同时,像我们这样的算力芯片厂商,通过架构创新(可重构架构、3D封装、超节点互联),从底层提升性价比,最终给用户提供价格更具性价比、速度更快的token供给。这是一个持续迭代的过程,但趋势是明确的,算力会越来越普惠。
Q:国产AI芯片的生态如何走向主流?
A:这个过程是相辅相成的,五年前,国产芯片默默无闻,后来外部环境变化,加上我们自身创新能力提升,大家才慢慢发现国产芯片其实能够解决很多问题。
但当国产芯片越来越多地被用来支撑算力需求时,一个新的问题出现了:统一的软件接口和标准。
如果每一家芯片公司都用自己的软件栈,用户面对这么多不同品类的国产芯片,要分别做适配、分别读手册、分别开发,同一个应用可能要做很多份,这是不可持续的。我们需要一套统一的软件生态,就像今天的安卓手机——虽然是不同厂商的硬件,但系统是统一的,用户不需要关心底层芯片是什么,只需要在统一的软件接口上开发一次,就能适配所有芯片。
这个生态一旦建立起来,规模效应会指数级增长,芯片厂商更容易触达开发者,开发者迁移成本大幅降低,最终形成正向循环。
Q:清微在软件生态建设方面有什么布局?
A:生态建设的重要性,可能比芯片本身的技术创新还要重要。我们过去两三年就意识到了这个问题,所以很早就参与到了国产AI算力统一软件生态的建设中,投入了大量资源,去适配这个统一生态框架。对我们芯片公司来说,只需要做少量的适配工作,就能触达到大部分的开发者;对开发者来说,他们只需要适配一次,就能让我们的芯片跑起来。它的意义不光在于节省开发者的适配时间,让用户更快地用上新模型新应用,更深层次的价值在于,它让国产算力生态大家各自发挥自己最擅长的优势,芯片厂商专注架构等硬件创新,软件生态把算力的易用性拉满,这种极致的专注和协同式创新,才能让国产算力才有可能用最短的时间赶超领先国家的水平。
Q:所以是双赢的结果。
A:对,这一定是一个多赢的结果,开发者降低了迁移到国产芯片的成本,我们也降低了服务客户的投入,整个产业有机会抓住快速发展的窗口期。目前看,这个统一生态的建设进展比预期快。
举个例子,以DeepSeek为例,去年R1模型发布时,各家国产芯片平均需要1~2个月的适配优化才能跑起来;今年V4版本发布,模型发布当天,多家国产芯片就已经同时完成了适配,这个变化是非常显著的。
Q:您认为国产算力替代的临界点什么时候会到来?
A:我认为现在已经很接近这个临界点了,刚刚提到的DeepSeek V4的发布是一个标志性事件。
从软件生态角度看,统一软件框架的成熟速度也超出预期,当市面上主流的大模型和算法都能在国产芯片上跑起来时。我判断,未来1~2年内,我们会看到这个临界点真正到来——到那时候,用户选择国产算力芯片,单纯是因为它确实好用、性价比高。
Q:你怎么看AI对人力工作的替代?现在我们讨论这个是不是太早了?
A:一点都不早,而且这个趋势已经非常明显了。
从个人体感来讲,我自己的token消耗量非常高,今天这次分享的选题和归纳,我也用AI做了辅助,我日常看代码、写代码、了解团队每天的研发进展,都会用AI来提升效率。
从企业视角看,如果是科技型公司,IT团队统一采购算力、采购token,正式引入生产环境,会是未来一两年的标配。以清微智能为例,今年我们就正式给每一位工程师开通了AI辅助服务,用量是爆炸式增长的。
再算一笔账,现在100万token只要几块钱,用AI完成一个工作需要几百到一千块钱,但它可能替代一个工程师一周的工作量。按软件行业从业者的薪资水平来看,AI的ROI已经远超人力成本,这个回报是非常高的。
至于企业到底要保留多少人力,这是各行各业都在摸索的问题,但方向是明确的,AI不会让人失业,但会用AI的人会替代不用AI的人。
