LLM-Aided OCR-高效转换PDF为Markdown文档官网

一个基于 LLM 的 OCR 扫描 PDF 开源工具，旨在通过利用多模态大语言模型（LLM）将原始的 OCR 扫描 PDF 文本转换成高准确度、格式正确且易于阅读的 Markdown 文档。
LLM-Aided OCR的特点:
1. 将 PDF 文件转图像进行处理
2. 高准确度的文本提取
3. 使用本地 LLM 或 API 纠正 OCR 错误
4. 最终转换为高质量的 Markdown 文档

LLM-Aided OCR的功能:
1. 将 PDF 文件上传并启动 OCR 扫描
2. 通过本地 LLM 或 API 进行文本纠正
3. 导出生成的 Markdown 文档

相关推荐

Nipex-llm-Intel的LLM加速库

Intel的LLM加速库，旨在通过使用Intel显卡和带NPU的CPU来加速主流深度学习框架的运行。

NDiscoGrad-自动微分工具，优化程序控制

DiscoGrad是一个自动区分C++程序中条件分支的自动微分工具，支持通过自动微分和蒙特卡洛采样等方法进行梯度估计。它能够与神经网络集成，广泛应用于交通、人群管理、流行病学等领域的程序优化和控制问题。

NLOMO-复旦大学研究的微调工具

LOMO是复旦大学提出的新论文，旨在使用单台8片24G的RTX 3090对Llama 65B模型进行全参数微调。该项目通过优化训练效率和性能，为用户提供了兼容多种深度学习框架的解决方案，并附带详细的实验结果和分析，帮助用户更好地理解模型的表现。

NPanel Graphic Walker-直观探索数据的图形界面工具

像操作Tableau一样直观探索数据的图形界面工具，集成在Panel数据应用中，让数据探索变得简单快捷

NXTTS-高质量的开源语音合成

XTTS 是一个开源文本到语音（TTS）项目，旨在提供高质量的语音合成，支持多种语言，适用于不同的应用场景，如语音助手和有声书制作。

NSparse-Marlin-提升深度学习模型的计算和存储效率

Sparse-Marlin是一个优化工具，专为4bit量化权重的2:4稀疏性推理核设计，旨在提升深度学习模型的计算效率和存储效率，适用于各种深度学习应用。

NJoyCaption-自由开放的图像描述模型

一款自由、开放且无审查的图像描述视觉语言模型，专为社区训练扩散模型而设计，支持多样化的图像风格和内容。

Ndelta-Rust编写的高可读性git diff工具

delta是一个用Rust编写的git diff工具，旨在替代git默认的diff，提供更好的可读性和功能。它通过高亮显示新增、删除和修改的行，使得代码差异一目了然，并支持多种文件类型的差异比较，用户还可以自定义颜色和样式选项，集成了git的命令行工具，支持分页和导航功能，极大地提升了用户的使用体验。

macOSpilot-ai-assistant-开源的macOS智能助手

这是一个开源的macOS AI助手，结合视觉和语音技术，旨在提升用户的工作效率。

WebGLM-高效经济的网络增强问答系统

WebGLM旨在利用拥有100亿参数的通用语言模型（GLM）提供高效且经济实惠的网络增强问答系统。它旨在通过将网络搜索和检索功能集成到预训练的语言模型中，来改善现实世界应用程序部署。

Ant Design X-快速构建AI驱动界面的组件库

一个用于快速构建AI驱动界面的React组件库，基于RICH交互范式设计，提供原子化组件和完整的模型集成方案，支持对话流管理、主题定制，让开发者能轻松搭建企业级AI交互界面。蚂蚁开源的构建 AI web应用的框架，覆盖了多种常用的 AI 应用场景，比如 AI 聊天、输入框的快捷指令、AI 助手等。

NGRANDE-基于梯度的决策树集成

GRANDE是一个基于梯度的决策树集成项目，旨在提高模型的准确性和可解释性，适用于多种机器学习任务。

NGauss-Mac上的原生Stable Diffusion图像生成App

Gauss是一款基于SwiftUI构建的原生macOS应用，利用ml-stable-diffusion CoreML模型实现图像生成，支持苹果硬件加速，提供用户友好的操作流程。

Fan Lord-控制风扇转速的IPMI界面

一个用于控制风扇转速的IPMI控制界面，旨在提升计算机性能，特别是在高负载情况下。

NAwesome MCP Servers-模型上下文协议服务器的精选列表

一个模型上下文协议(MCP)服务器的精选列表，包含大量分类实现，涵盖文件系统、版本控制、云存储、数据库、通信、监控、搜索等多个领域，帮助AI模型安全地与本地和远程资源进行标准化交互

NBIOMEDICA-生物医学图像与文献的开放资源

一个开放的生物医学图像-标题档案库、数据集和从科学文献中衍生的视觉-语言模型，旨在帮助研究人员更好地理解和利用生物医学图像及相关文献信息

Devika-智能软件工程师Agent

Devika 是一名人工智能软件工程师Agent，可以理解人类指令，将其分解为步骤，研究相关信息，并编写代码来实现给定的目标。

ChatGpt-Web

ChatGPT Web是一个商业化的ChatGPT Web应用，使用React构建。它具有管理系统、绘画功能和一键导出聊天记录的功能。用户可以方便地管理聊天记录和其他相关信息，进行绘画操作，以及一键导出聊天记录保存和分享。该开源项目的目标是为用户提供一个实用的商业化ChatGPT Web应用，通过使用React构建。

暂无评论

暂无评论...