您当前位置：首页 - 新闻资讯 - NVIDIA将采用X3D堆叠设计！下一代FeynmanGPU会引入LPU

NVIDIA将采用X3D堆叠设计！下一代FeynmanGPU会引入LPU

2026-02-06 03:17:10kindsoft 来源：kindsoft

12月29日消息，尽管NVIDIA当前在AI训练领域占据着难以撼动的优势地位，但随着即时推理需求的不断攀升，该公司正酝酿一项可能颠覆行业现有格局的“杀手锏”技术。

据AGF方面消息，NVIDIA预计在2028年推出的Feynman（费曼）架构GPU产品中，将整合Groq公司研发的LPU（语言处理单元），旨在显著增强AI推理方面的性能表现。

Feynman架构将取代Rubin架构，采用台积电最先进的A16（1.6nm）制程工艺；为突破半导体物理层面的限制，NVIDIA拟借助台积电的SoIC混合键合技术，把专门针对推理加速设计的LPU单元直接堆叠于GPU之上。

这种设计和AMD的3D V-Cache技术有相似之处，不过NVIDIA堆叠的并非普通缓存，而是专门针对推理加速打造的LPU单元。

设计的核心逻辑是SRAM的微缩难题，在1.6nm这样的极致工艺节点下，若直接在主芯片上集成大规模SRAM，不仅成本高昂，还会占据大量空间。

通过堆叠技术，NVIDIA可以将运算核心留在主芯片，而将需要大量面积的SRAM独立成另一层芯片堆叠上去。

台积电A16制程的一大亮点在于对背面供电技术的支持，该技术能够释放芯片正面的空间，专门用于垂直信号连接，从而保障堆叠的LPU在极低功耗下实现高速数据交换。

结合LPU所具备的“确定性”执行逻辑，未来的NVIDIA GPU在应对即时AI响应类任务（比如语音对话、实时翻译等场景）时，其处理速度有望达成质的飞跃。

不过这也面临两大潜在挑战，一是散热问题，二是CUDA兼容性难题。在运算密度本就极高的GPU上再叠加一层芯片，如何防止设备因过热而宕机，成为了工程团队需要优先解决的头号难题。

同时LPU注重“确定性”的执行顺序，对内存配置的精度有较高要求，而CUDA生态是依托硬件抽象化理念构建的，若想实现二者的无缝协作，离不开顶尖的软件优化技术支持。

精选应用更多

相关资讯更多

好软安利换一换