ReSearch开源项目 – 强化学习让LLM学会搜索推理

ReSearch 是一个开源项目，通过强化学习将搜索操作整合到大型语言模型（LLMs）的推理过程中，使其能够通过搜索工具更有效地回答问题。该项目通过强化学习训练LLM，使其在无监督数据的情况下学会何时以及如何调用搜索工具。基于Qwen2.5-7B模型，从零开始训练，展现了强大的泛化能力，并在HotpotQA等数据集上验证，性能显著提升。

ReSearch的特点:

1. 通过强化学习训练LLM，使其学会调用搜索工具
2. 在HotpotQA等数据集上验证，性能显著提升
3. 基于Qwen2.5-7B模型，从零开始训练，展现了强大的泛化能力
4. 整合搜索操作到大型语言模型的推理过程
5. 使用基于强化学习的策略优化方法（GRPO）训练模型
6. 提高模型通过搜索工具回答问题的效率

ReSearch的功能:

1. 在无监督数据的情况下训练LLM，使其学会何时以及如何调用搜索工具
2. 在HotpotQA等数据集上进行性能验证
3. 从零开始训练LLM，展示其泛化能力
4. 用于增强大型语言模型在问答任务中的表现
5. 在需要结合搜索操作的应用场景中使用
6. 用于研究和开发更高效的AI问答系统

相关导航

OmAgent开源项目 – 多模态智能体系统

OmAgent是一个多模态智能体系统，专注于利用多模态大语言模型能力以及其他多模态算法来处理各种多模态任务。

1Backend开源项目 – 简化微服务部署与维护的平台

1Backend 是一个平台，旨在简化 lambda/微服务的部署、运行和维护，允许用户快速启动应用并连接到所需的基础设施。

Thoughtful Claude开源项目 – 让Claude变得更聪明！

通过整合DeepSeek R1的先进推理引擎，为Claude提供强大的推理能力，使其能够轻松处理复杂的多步推理任务，同时确保企业级安全性，保护API密钥。

NolmOCR开源项目 – 高性能开源OCR工具

olmOCR是一款高性能的开源OCR模型，专门用于将PDF和文档图像转换为清晰、结构化的纯文本。它基于微调后的7B视觉语言模型，微调数据为260000页PDF页面，完全开源，包括模型权重、数据和训练代码、推理代码。olmOCR能够处理复杂布局、表格、方程式以及手写文档，输出为Markdown格式，便于解析。其性能优于Marker、MinerU以及GOT-OCR 2.0等工具，处理100万页PDF的成本约为190美元，相当于GPT-4o 1/32的成本。olmOCR支持在4090显卡上本地运行，并可通过Hugging Face平台使用预训练模型。

Rio开源项目 – 一个跨平台的高性能终端

Rio是一个设计成可以在任何地方运行的终端，无论是作为由Rust/WebGPU驱动的本地桌面应用程序，还是在浏览器中由WebAssembly/WebGPU提供支持都可以运行。它利用硬件加速提供更好的性能，旨在为用户提供高效的终端体验。

JoyCaption开源项目 – 自由开放的图像描述模型

一款自由、开放且无审查的图像描述视觉语言模型，专为社区训练扩散模型而设计，支持多样化的图像风格和内容。

Lumos开源项目 – 网页浏览的LLM助手

Lumos是一个基于本地LLM的网页浏览助手，能够总结新闻文章、论坛讨论和社交媒体动态，帮助用户快速获取信息。该Chrome扩展由Ollama提供支持，用户可以向其提问关于商业和产品页面的评论。

sensitive-word开源项目 – 高性能敏感词过滤工具

基于 DFA 算法实现高性能 Java 敏感词过滤工具框架，目前敏感词库内容已收录 6W+。

Interpretable Self-Aware Prediction开源项目 – 提高神经网络对分布外数据的认知不确定性

用于稳健弹道预报的可解释自感知神经网络，旨在提高神经网络对分布外数据的认知不确定性估计，以适应安全关键型应用，如自动驾驶汽车。

MediaGo开源项目 – 一款开源免费的视频在线提取工具

MediaGo是一款开源免费的视频在线提取工具，支持流媒体下载、视频下载、m3u8文件下载以及B站视频下载。它提供了便捷的下载方式，用户可以通过自带浏览器轻松嗅探网页中的视频资源，并进行下载，支持批量下载，以提升效率，同时也可以在PC和移动设备之间无缝切换，方便用户在不同设备上观看。

Web2MD开源项目 – 一键将网页内容转换为Markdown

Web2MD是一个简单实用的Chrome扩展工具，用户可以通过快捷键Ctrl+Shift+O轻松将当前网页内容转换为Markdown格式，并自动复制到剪贴板，支持自定义快捷键，极大地提高了文档处理效率。

TorchCP开源项目 – 深度学习保形预测工具箱

TorchCP是一个基于PyTorch的Python工具箱，旨在支持深度学习模型的保形预测研究，提供多种分类和回归方法。

TigerLab开源项目 – 开源LLM工具包，构建应用更轻松

TigerLab是一个开源的LLM（大语言模型）工具包，旨在提供用户友好的接口和功能，帮助开发者轻松构建和部署基于大语言模型的应用程序。它集成了多种强大的功能，包括嵌入技术、模型微调和AI安全性，支持不同使用场景的需求。

NotionNext开源项目 – 基于Notion的静态博客工具

NotionNext是一个使用NextJS与Notion API构建的静态博客工具，支持多种部署方案，无需服务器，用户可以零门槛搭建自己的网站，方便使用Notion进行内容管理。

Multipack Sampler开源项目 – 无填充的分布式训练加速器

Multipack Sampler是一种专门为大型语言模型设计的分布式采样器，旨在实现快速的无填充训练，提升训练效率同时优化资源使用。

暂无评论

暂无评论...