AI开源项目

Classified-数据质量分类工具

LLM预训练数据质量分类工具,支持本地或Huggingface Hub数据集的多维度评估,可总结数据集质量、筛选数据集或训练自定义分类器

LLM预训练数据质量分类工具,支持本地或Huggingface Hub数据集的多维度评估,可总结数据集质量、筛选数据集或训练自定义分类器
Classified的特点:
1. 支持本地数据集和Huggingface Hub数据集的评估
2. 多维度数据集质量总结
3. 数据集筛选功能
4. 训练自定义分类器

Classified的功能:
1. 使用命令行工具进行数据集质量评分
2. 通过API接口访问分类功能
3. 集成到现有的数据处理工作流中

相关推荐

暂无评论

暂无评论...