DeepSeek R1开源项目 – 从零构建高效推理模型

DeepSeek R1 是一个从零开始构建的高效推理模型项目。它使用 Qwen 作为基础模型，通过 GRPO 算法进行初步训练，并结合 Supervised Fine-Tuning (SFT) 和改进的强化学习方法，显著提升了模型的推理能力和语言一致性。项目提供了全流程的代码实现、详细的训练过程描述和手绘流程图，使得即使是初学者也能轻松上手。

DeepSeek R1的特点:

1. 从基础模型到推理模型，全流程代码实现
2. 使用GRPO算法优化推理能力，效率提升显著
3. 提供详细的训练过程和手绘流程图，小白也能轻松上手
4. 使用手绘流程图详解 DeepSeek R1 架构
5. 完整实现 GRPO 算法训练 R1 Zero 初始版本
6. 通过 SFT 解决 R1 Zero 的混乱推理和语言混合问题
7. 基于推理导向的强化学习优化模型能力
8. 使用小型基础模型，让本地训练和实验成为可能
9. 包含奖励函数、拒绝采样等关键技术实现细节

DeepSeek R1的功能:

1. 使用 Qwen 作为基础模型进行训练
2. 应用 GRPO 算法进行初步训练
3. 进行 Supervised Fine-Tuning (SFT) 提升模型能力
4. 使用改进的强化学习方法增强语言一致性
5. 在本地运行小型基础模型
6. 使用多种奖励函数进行模型训练
7. 进行监督微调以提升模型的输出质量
8. 应用少样本提示和后处理精炼方法
9. 进行针对实用性和无害性的奖励优化
10. 使用手绘流程图理解 DeepSeek R1 的架构
11. 运行 GRPO 算法训练 R1 Zero 初始版本
12. 应用 SFT 进行模型的监督微调
13. 使用强化学习优化模型的推理能力
14. 在本地环境中进行小型模型的训练和测试
15. 用于学习和理解 DeepSeek R1 的训练过程
16. 作为开发自定义深度学习模型的起点
17. 用于研究和实验不同的训练策略
18. 作为教学工具，帮助学生理解深度学习模型的训练

相关导航

DigiQ开源项目 – 用AI驱动设备控制的新方法，让机器学习更高效！

DigiQ 是一个利用人工智能技术，帮助用户通过少量数据训练高效的设备控制智能体的项目。它创新性地结合了视觉语言模型（VLM），显著提升了学习效果，并提供了完整的代码和预训练模型，方便用户复现和使用。

NTabReD开源项目 – 工业级表格机器学习基准测试

TabReD是一个面向现实世界的表格机器学习基准测试项目，提供真实工业级表格数据集，用于评估和比较不同机器学习模型在表格数据上的性能。它支持多种机器学习算法的基准测试，涵盖不同行业和应用场景，便于研究人员和开发者进行模型比较和优化。

NVidformer开源项目 – 加速视频处理和可视化的基础设施

Vidformer 是一个研究项目，旨在为视频原生界面提供基础设施，并加速计算机视觉的可视化处理。它通过优化视频渲染速度和支持懒加载等功能，显著提升了视频处理的效率。

NCode-R1开源项目 – 精准高效的代码生成工具

Code-R1通过可靠的奖励机制重现代码生成的R1流程，旨在提升代码生成的精准度和效率。该项目利用少量样本进行训练，性能超越大规模参数模型，并提供安全、可扩展的沙盒化执行环境，有效减少奖励误判，确保代码生成的高效性和安全性。

Nnode-DeepResearch开源项目 – 深度研究的AI搜索工具

node-DeepResearch 是一个深度研究型的AI搜索工具，能够持续搜索和阅读网页，直到找到答案或超出token预算。该项目由Jina AI开源实现，使用gemini进行LLM操作，brave作为搜索引擎，jina reader用于阅读网页。其实现原理是在一个循环中进行搜索、阅读和推理，直到找到答案。

Showllable开源项目 – 简化机器学习模型展示与分享

Showllable 是一个开源项目，旨在提供一个简化的方式来展示和分享机器学习模型。它支持多种模型格式，提供用户友好的界面，允许实时预览和分享功能，集成常用的可视化工具，并支持跨平台使用。

Nollama-for-amd开源项目 – 支持AMD显卡的大模型运行工具

ollama-for-amd 是一个开源的魔改版 Ollama，基于官方 Ollama 进行修改，特别增加了对多种 AMD 显卡的支持。它能够快速启动并运行 DeepSeek、Llama 3、Gemma 等大模型，为用户提供高效的模型推理和交互体验。

Hugging Face AI Agents 课程开源项目 – 免费AI代理课程

Hugging Face 推出的免费 AI Agents 课程，从基础入门到掌握如何使用和构建 AI 代理。课程涵盖理论、实践及流行框架，适合具备基础 Python 知识和 LLM 基础概念的学习者。课程内容包括 AI 代理的概念、设计与应用，以及如何使用 smolagents、LangChain、LlamaIndex 等主流库。完成作业可获得 Hugging Face 认证证书。

NRAGIT开源项目 – 智能知识管理工具

RAGIT 是一款类似于 Git 的知识管理工具，旨在简化知识库的创建和共享过程。它允许用户将本地文件转换为知识库，并支持知识库的克隆、推送等操作。RAGIT 通过多轮对话查询和 TF-IDF 算法，提供更智能、更精准的知识检索体验。此外，它还支持 Markdown 文件和图片，使知识库内容更加丰富多样。

K-Scale Sim开源项目 – 用于训练仿人行走的高效库

K-Scale Sim是一个简单高效的库，专为在MJX和MuJoCo中训练仿人类运动而设计，支持强化学习代理的训练和评估，提供快速原型设计、环境规范和超参数调整功能，同时通过Weights & Biases跟踪和记录训练结果。

NAwesome-Token-Merge-for-MLLMs开源项目 – 优化MLLM的Token处理效率

该项目是一个精选论文列表，专注于为多模态大语言模型（MLLM）提供高效的Token合并、减少、重采样和丢弃方法。通过整合多篇相关论文，帮助开发者和研究人员理解和实现高效的Token管理策略，从而优化多模态大语言模型的Token处理效率。

Skyvern AI官网 – 智能化浏览器工作流自动化

Skyvern是一个开源的AI代理，帮助企业自动化基于浏览器的工作流。它用简单的API端点替代了脆弱的脚本，能够在数百个不同的网站上自动化任务。Skyvern AI代理通过API调用自动化复杂的浏览器工作流，结合计算机视觉和AI理解网页内容，使其适应任何网站。Skyvern接受自然语言指令，能够用简单的命令执行复杂的目标。工作流在云中执行，支持同时运行数百个工作流。此外，Skyvern的AI决策附带内置解释，为每个操作提供清晰的摘要和理由。