ColPali 是一个基于视觉语言模型的文档检索工具,旨在通过图像和文本的结合,提供高效的检索能力。它不再依赖传统的文本提取方法,而是利用具有后期交互机制的微调视觉模型,能够处理复杂文档并显著提升检索效果。该模型体积小且性能优于常规的基于文本和文本图像嵌入的方法,支持多模式索引和检索,适用于各种视觉丰富的文档。