DeepGEMM开源项目 – 高性能FP8矩阵乘法库

所有AI工具AI开发框架 AI开源项目 AI编程工具

DeepGEMM开源项目 – 高性能FP8矩阵乘法库

DeepGEMM是一款采用CUDA编写的FP8通用矩阵乘法库，具有全JIT编译设计，简化了运维流程并提供卓越的计算性能。它支持稠密矩阵与混合专家（MoE）矩阵乘法，为V3/R1模型训练推理提供...

标签：AI开发框架 AI开源项目 AI编程工具CUDA编写 JIT编译低成本高性能计算解决方案深度学习加速高效FP8矩阵乘法库

链接直达手机查看

DeepGEMM使用交流：

DeepGEMM是一款采用CUDA编写的FP8通用矩阵乘法库，具有全JIT编译设计，简化了运维流程并提供卓越的计算性能。它支持稠密矩阵与混合专家（MoE）矩阵乘法，为V3/R1模型训练推理提供高效算力。DeepGEMM在NVIDIA Hopper架构上表现出色，最大性能提升2.7倍，支持细粒度缩放技术，解决FP8精度损失问题，并采用两级累加技术确保结果准确性。

DeepGEMM的特点:

1. 全JIT编译设计，简化安装和运维
2. 在H800 GPU上，普通GEMM计算性能高达206 TFLOPS
3. 首创CUDA核心二级累加机制，优化计算逻辑
4. 支持非对齐块大小，提升SM利用率
5. 搭配Hopper TMA加速技术，实现数据异步传输与计算的高效重叠
6. 核心内核函数约300行代码，易于学习和优化
7. 支持FP8矩阵乘法运算，快速且高效
8. 解决FP8的精度损失问题，提供更准确的计算
9. 支持细粒度缩放技术，提高计算准确性
10. 能够处理普通矩阵乘法和复杂的MoE分组矩阵乘法
11. 在Hopper架构GPU上实现1350+ FP8 TFLOPS峰值算力
12. 零臃肿依赖，代码简洁如教程
13. 完全即时编译（JIT）实现
14. 核心逻辑仅约300行，性能却超越专家级手写内核
15. 支持稠密矩阵和两种MoE矩阵布局

DeepGEMM的功能:

1. 用于高性能计算的FP8矩阵乘法
2. 研究Hopper架构优化和技术探索
3. 为AI应用开发提供高效的计算解决方案
4. 激励社区贡献者进行代码优化和扩展
5. 用于高性能计算中的矩阵乘法
6. 适用于需要FP8精度的计算任务
7. 在深度学习模型训练中加速矩阵运算
8. 作为BLAS库的替代品，提供免费高性能计算
9. 在NVIDIA Hopper架构的显卡上运行FP8矩阵乘法
10. 使用细粒度缩放技术进行深度学习模型的优化
11. 进行普通和复杂的矩阵乘法运算
12. 利用CUDA提高计算性能和效率
13. 用于V3/R1模型的训练和推理
14. 在Hopper架构GPU上进行高效的FP8矩阵计算
15. 作为教学示例，展示简洁高效的代码实现
16. 支持稠密矩阵和混合专家（MoE）矩阵的乘法运算

相关导航

NX-AI/mlstm_kernels开源项目 – 高效的mLSTM计算库

NX-AI/mlstm_kernels开源项目 – 高效的mLSTM计算库

NNX-AI/mlstm_kernels开源项目 – 高效的mLSTM计算库

NX-AI/mlstm_kernels 是一个用于快速高效处理mLSTM核的库，支持并行、分块和递归步骤处理，并提供了PyTorch和JAX的封装，适用于深度学习模型中的mLSTM计算加速。

python-uv开源项目 – Python开发环境配置工具

python-uv开源项目 – Python开发环境配置工具

python-uv开源项目 – Python开发环境配置工具

基于VSCode Dev Container的Python开发环境配置工具，集成了uv包管理器和Ruff代码格式化工具，提供开箱即用的开发环境，支持代码格式化、类型检查、pre-commit等功能

JaxIRL开源项目 – 高效的反向强化学习实现

JaxIRL开源项目 – 高效的反向强化学习实现

JaxIRL开源项目 – 高效的反向强化学习实现

JaxIRL是一个在JAX框架中实现的反向强化学习(IRL)算法，能够以极高的效率训练模型，支持多种算法，具有灵活性和可扩展性。

JurisLMs开源项目 – 法律领域的多场景预训练模型

JurisLMs开源项目 – 法律领域的多场景预训练模型

JurisLMs开源项目 – 法律领域的多场景预训练模型

根据不同的场景在法律法规、法律咨询、裁判文书等多种不同的语料上进一步预训练了多个模型。

Marlin开源项目 – 高效的矩阵运算加速器

Marlin开源项目 – 高效的矩阵运算加速器

Marlin开源项目 – 高效的矩阵运算加速器

混合自回归线性核(Mixed Auto-Regressive Linear kernel)，一个经过高度优化的FP16xINT4矩阵乘法核，用于LLM推理，可以在批量大小为16-32个token的情况下实现接近理想的约4倍加速。

Ai Intern官网 – 你的个人化AI助手，提升工作效率

Ai Intern官网 – 你的个人化AI助手，提升工作效率

Ai Intern是一个革命性的工具，旨在改变我们处理日常任务的方式，包括回应客户询问、生成内容、管理文档和编写代码。这个虚拟助手可以高效地处理各种任务，让工作流程更加流畅，提高生产力。

Agent4SE-Paper-List开源项目 – 大型语言模型在软件工程的应用资源集

Agent4SE-Paper-List开源项目 – 大型语言模型在软件工程的应用资源集

Agent4SE-Paper-List开源项目 – 大型语言模型在软件工程的应用资源集

基于大型语言模型的软件工程Agent资源集，提供基于大型语言模型（LLM）的Agent技术，通过增强LLM的外部资源和工具利用能力，显著扩展了其在软件工程任务中的应用范围和有效性。

Nutlope/logocreator开源项目 – AI驱动的免费Logo生成器

Nutlope/logocreator开源项目 – AI驱动的免费Logo生成器

Nutlope/logocreator开源项目 – AI驱动的免费Logo生成器

Nutlope/logocreator是一个完全免费开源的AI驱动的Logo生成器，能在几秒钟内创建出专业级的标志，支持自定义风格，满足个性化需求，用户可以自由使用并参与改进。

Active Learning as a Service开源项目 – 可扩展和高效的主动学习数据选择系统

Active Learning as a Service开源项目 – 可扩展和高效的主动学习数据选择系统

Active Learning as a Service开源项目 – 可扩展和高效的主动学习数据选择系统

这是一个可扩展且高效的主动学习/数据选择系统，旨在为每个人提供服务，优化数据选择过程，以提高模型训练的效率，并支持用户友好的接口和灵活的集成。

Hey, GitHub!官网

Hey, GitHub!官网

这个工具可以帮助你在不触摸键盘的情况下编写代码。它使用你的声音与 GitHub Copilot 对话来进行编码，而无需打字。

ProactiveAgent开源项目 – 主动预测任务的LLM代理系统

ProactiveAgent开源项目 – 主动预测任务的LLM代理系统

ProactiveAgent开源项目 – 主动预测任务的LLM代理系统

一个主动预测任务的LLM代理系统，通过环境感知、辅助标注和动态生成管道，能够在无需用户明确请求的情况下主动提供帮助。

Kaggle_TGS2018_4th_solution开源项目 – 盐体识别深度学习解决方案

Kaggle_TGS2018_4th_solution开源项目 – 盐体识别深度学习解决方案

NKaggle_TGS2018_4th_solution开源项目 – 盐体识别深度学习解决方案

该项目是Kaggle TGS Salt Identification Challenge 2018的第四名解决方案，专注于使用先进的深度学习模型进行盐体识别。项目包括数据预处理和增强技术，提供全面的训练和评估流程，并利用集成方法提高性能。此外，项目还提供了详细的文档和代码注释，便于理解和使用。

Supertest AI官网 – AI驱动的自动化测试工具

Supertest AI官网 – AI驱动的自动化测试工具

Supertest AI 是一个基于人工智能的 VS Code 插件，通过一键生成 React 单元测试，帮助开发者自动化软件测试，节省编写测试的时间。

Einblick AI官网 – 智能数据笔记本，轻松编写代码

Einblick AI官网 – 智能数据笔记本，轻松编写代码

Einblick AI 是一个AI原生的笔记本，能够自动编写和修复代码，绘制美丽的图表，构建模型等。用户只需提供提示，Einblick的AI代理便能使用Python、SQL和交互组件构建工作流。

Small Hours官网 – AI驱动的可观察性平台

Small Hours官网 – AI驱动的可观察性平台

Small Hours是一个AI驱动的可观察性平台，帮助开发团队高效管理和解决软件问题，提供自动化根本原因分析和问题分类功能。

暂无评论

暂无评论...

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3