一个基于 FastAPI 的 PDF 文档提取和解析工具,使用最新的 OCR 技术和 Ollama 模型处理图像或 PDF 文件,转换为 Markdown 文本或结构化的 JSON 文档。
pdf-extract-api的特点:
1. 支持处理表格数据
2. 能够识别数字或数学公式
3. 使用 Redis 存储和缓存 OCR 结果,提高处理效率
pdf-extract-api的功能:
1. 将 PDF 文件转换为 Markdown 文本
2. 提取 PDF 文档中的结构化 JSON 数据
3. 处理图像文件并进行文本识别
相关推荐
暂无评论...