M6Doc是用于现代文档布局分析研究的数据集,包含9,080张现代文档图像,涵盖科学文章、教材、试卷、杂志、报纸、笔记和书籍等七个子集,提供了多样的数据来源和详细的文档布局标注标签。
M6Doc的特点:
1. 包含9,080张现代文档图像
2. 覆盖七个文档类型:科学文章、教材、试卷、杂志、报纸、笔记和书籍
3. 多样的数据来源,包括arXiv、中国人民日报官网、VKontakte等
4. 定义了74个详细的文档布局标注标签
5. 使用维基百科定义,确保标签的通用性和特异性
M6Doc的功能:
1. 用于训练和评估文档布局分析模型
2. 为研究人员提供现代文档图像的基准数据集
3. 支持开发新的文档理解和处理技术
4. 可用于进行文档图像标注和分析的实验
相关推荐
暂无评论...