Unstructured 是一款专为处理复杂文档设计的 Python 库,支持 PDF、PPT、Excel 等 100 多种格式的深度解析,尤其在金融合同信息抽取中准确率高达 96.8%。它结合了智能版面分析和多语言 OCR 技术,能够自动识别表格、公式、流程图等复杂结构,并提取文档的元数据,如作者、创建时间等。