侵权投诉
技术:
GPU/CPU 传感器 基础元器件 网络通信 显示 交互技术 电源管理 材料 操作系统 APP 云技术 大数据 人工智能 制造 其它
应用:
可穿戴设备 智能家居 VR/AR 机器人 无人机 手机数码 汽车 平衡车/自行车 医疗健康 运动设备 美颜塑身 早教/玩具 安防监控 智能照明 其它
订阅
纠错
加入自媒体

RISC-V进入NVLink生态:SiFive推动CPU接入主流AI计算系统的技术路线

2026-01-20 15:39
芝能智芯
关注

芝能智芯出品

AI 计算平台的演进的趋势是算力规模持续放大,系统架构越来越异构,高带宽互连与软件栈协同成为决定性能上限的关键因素。

随着 NVLink Fusion 项目的推出,第三方芯片厂商可以通过 IP 授权与外部芯片组接入完整的 NVLink 网络体系,使 CPU、GPU 以及其他加速器之间实现高带宽、缓存一致的互连。

在 Arm、Intel 和 AWS 先后加入之后,SiFive 成为首家加入该生态的 RISC-V 厂商,对 RISC-V 在高性能 AI 系统中的定位具有象征意义。

对 SiFive 而言,接入 NVLink Fusion 的核心价值在于解决 RISC-V CPU 与 NVIDIA GPU 之间的高速互连问题。

当前主流 AI 训练和推理系统高度依赖 NVIDIA GPU,如果 CPU 无法通过 NVLink-C2C 这样的高带宽、低延迟互连方式与 GPU 协同工作,就很难进入高端 AI 基础设施的核心架构层。

通过 IP 授权方式将 NVLink-C2C 集成到未来的数据中心级 RISC-V 芯片中,SiFive 实际上为其 CPU IP 打开了进入主流 AI 系统设计的通道。

英伟达也通过引入 RISC-V 选项,为不希望采用 x86 或 Arm 架构的客户提供了更多选择空间,与其此前将 CUDA 和驱动体系扩展到 RISC-V 的战略形成呼应。

硬件互连只是高性能 AI 计算体系的一部分,真正决定 AI 工作负载效率的核心仍然是矩阵运算能力。

无论是大模型训练还是推理部署,矩阵乘法始终是最主要的计算热点。

RISC-V 在这方面的竞争力,很大程度上取决于其向量和矩阵扩展的设计,以及软件栈能否充分释放这些硬件能力,SiFive 在 2025 年北美 RISC-V 峰会上展示的 AI/ML 软件栈改进。

RISC-V 向量矩阵扩展(VME)的设计目标,是为矩阵乘法提供更高效的执行路径。

与传统基于向量寄存器的实现方式相比,VME 为结果矩阵 C 引入了专用的大型矩阵累加器状态,而源操作数 A 和 B 仍然通过标准的 RISC-V 向量寄存器提供。这种结构允许在累加器内部直接执行外积式乘法,减少中间数据搬运的开销。

同时,“胖 K”支持机制使得系统能够更高效地处理较窄数据类型,从而在 AI 推理等场景中提高吞吐效率。

由于累加器靠近算术单元布置,矩阵引擎可以实现更高的持续计算带宽,这为计算密集型 AI 工作负载提供了良好的硬件基础。

在软件层面,如何将这种硬件优势转化为真实应用性能,关键在于分块矩阵乘法(tiled matmul)的实现方式。

大规模矩阵运算如果直接按原始尺寸处理,会受到缓存容量、内存带宽和寄存器数量的限制。

通过将矩阵分解为多层次的分块,可以让外层数据驻留在缓存中,内层数据驻留在寄存器中,从而显著提升数据局部性并降低内存访问成本。

SiFive 展示的 tiled_matmul 伪代码清晰地体现了这种思路:外层循环按 tile_m、tile_n、tile_k 划分子矩阵视图,内层循环再按更小的 tile_m_v、tile_n_v、tile_k_v 执行寄存器级运算。

最终的核心操作仍然是对小块矩阵执行乘加累积,但整体结构更贴近硬件层级的资源分布。

分层分块策略在 K 维度较大的神经网络中尤为重要, IREE 在 RISC-V 平台上主要支持单图块 K 循环模式,源矩阵 A0 和 B0 只加载一次,结果累加到单个 C 图块中。

改进之后,多图块 K 循环允许将同一批源矩阵数据复用到多个 C 图块的更新过程中,例如 C00、C10、C01、C11 分别对应不同的输出子块。

这种方式显著减少了冗余加载次数,提高了运算强度,使内存带宽能够更集中地服务于计算本身,对于深度神经网络中常见的大 K 维矩阵乘法场景尤其有效。

支撑这一整套优化的核心软件基础设施,是 SiFive 深度参与构建的 IREE 体系。

IREE 基于 MLIR 构建,既是编译器框架也是运行时环境,能够将高层 AI 模型描述映射到具体的硬件执行路径上。

通过支持 PyTorch 等主流前端,IREE 可以接收来自大模型训练和推理场景的算子描述,并根据目标微架构应用特定的分割与并行策略。随后,经过 SiFive 优化的 LLVM 编译器与可扩展内核库生成底层代码,微内核(ukernel)进一步针对矩阵运算路径进行精细化优化。

运行时系统通过异步调度和任务管理实现操作间并行化,覆盖 Linux 和裸机等多种部署环境。

SiFive 的 AI/ML 软件栈呈现出明显的“软硬件协同”特征。

 硬件层面提供面向矩阵运算的 VME 扩展,

 软件层面通过 IREE 自动化分块、调度和代码生成,确保这些扩展在真实工作负载中能够被充分利用。

XM 系列处理器将 VME 集成到紧凑的核心设计中,使得 RISC-V 在 AI 推理和部分训练场景中具备可观的能效潜力。通过持续向 IREE 社区贡献多图块支持等关键特性,SiFive 也在推动 RISC-V 生态向更成熟的 AI 软件方向发展。

将这一软件栈进展与 NVLink Fusion 的战略动作放在一起,可以看到 SiFive 正在同时补齐“系统互连”和“算力执行”两个关键环节。

 通过 NVLink-C2C 接入 NVIDIA GPU 生态,使 RISC-V CPU 有机会参与到高端 AI 系统的构建中;

 通过 VME 和 IREE 提升自身在矩阵运算效率上的竞争力,为 AI 工作负载提供更高性价比的计算选择。

这种双线推进的策略,反映出 RISC-V 阵营对 AI 时代系统级竞争格局的清醒认知。

小结

RISC-V 在 AI 领域的发展路径与其开放 ISA 的定位高度契合。

指令集层面的开放性允许厂商根据应用需求设计专用扩展,例如面向矩阵运算的 VME;软件层面通过标准化编译器和运行时框架降低生态碎片化风险;

系统层面再通过高速互连技术融入主流异构计算平台,有助于 RISC-V 在边缘 AI、定制加速器以及部分数据中心场景中逐步建立存在感,SiFive 将 RISC-V 推向 AI 主流应用的长期意图,我们可以期待一下。

       原文标题 : RISC-V进入NVLink生态:SiFive推动CPU接入主流AI计算系统的技术路线

声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    智能硬件 猎头职位 更多
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号