该项目旨在提高AI训练数据集的透明性、文档化和负责任使用,详细记录数据集的来源和元数据,确保数据在使用过程中的合法性和合规性。
Data Provenance Collection的特点:
1. 对44个数据集的大规模审核
2. 跨1800多个文本到文本微调数据集的详细记录
3. 记录数据集的网络和机器源
4. 提供许可证和创作者信息
5. 收集和文档化其他相关元数据
Data Provenance Collection的功能:
1. 用于提高AI训练数据集的透明性
2. 用于确保数据集的负责任使用
3. 用于研究和分析数据集的来源
4. 用于支持数据合规性和伦理审查
相关推荐
暂无评论...