一个开放的生物医学图像-标题档案库、数据集和从科学文献中衍生的视觉-语言模型,旨在帮助研究人员更好地理解和利用生物医学图像及相关文献信息
文化NLP研究资源库:汇集文化自然语言处理领域的精选资源,涵盖研究论文、数据集、模型和应用,为跨文化语言技术研究提供参考和启发
一个全面的移动端和PC端智能代理相关资源集合,包含最新论文、数据集和基准测试。收录了各类移动端智能代理系统的训练方法、输入类型、模型架构等详细对比,以及主流数据集的详细信息统计。
M6Doc是用于现代文档布局分析研究的数据集,包含9,080张现代文档图像,涵盖科学文章、教材、试卷、杂志、报纸、笔记和书籍等七个子集,提供了多样的数据来源和详细的文档布局标注标签。
CSTS是一个专为中文设计的自然语言推理与语义相似度数据集,包含多种推理场景,提供丰富的标注数据,旨在支持机器学习和深度学习模型的训练,帮助提升中文文本的理解和处理能力。
关于人类运动理解和生成研究的聚合项目,包含了大量的学术研究、数据集、以及人类运动分析和合成的相关技术和方法
Railroad-dataset是一个专为铁路应用设计的SLAM(同步定位与地图构建)数据集,包含丰富的定位与建图数据以及检测数据,旨在支持铁路环境相关的研究与开发。数据集中提供了高质量的传感器数据,适用于验证各种SLAM算法,并为研究者和开发者提供了一个可靠的实验平台。
InsPLAD是一个专注于电力线路资产检查的数据集,为机器学习和计算机视觉应用提供多样化的检测场景,用于研究和开发电力设施检查算法。
IEPile是一个用于训练和评估信息提取模型的大规模信息提取语料库,提供高质量的标注数据,支持多种信息提取任务,适用于学术研究和工业应用。
整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。该项目收录了100+个中文LLM相关的开源模型和资源,适合企业应用和研究。
MNBVC(Massive Never-ending BT Vast Chinese corpus)是一个超大规模中文语料集,旨在收集各种形式的纯文本中文数据,包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词等。该数据集不仅涵盖主流文化,还包括各类小众文化及火星文,目标数据量达到40TB,目前进度为19.96%(7984GB),支持社区参与和协作。
LAION是一个非营利组织,旨在向公众提供机器学习资源,包括数据集、工具和模型,促进开放的公共教育和环保资源的再利用。