Galactic是一个用于处理大规模非结构化文本数据集的工具,提供清理和筛选功能,旨在筛选微调数据集、创建用于检索增强生成(RAG)的文档集合,甚至对LLM预训练Web规模数据集进行去重。
Galactic的特点:
1. 处理大规模非结构化文本数据集
2. 数据清理和筛选功能
3. 支持微调数据集的筛选
4. 创建用于检索增强生成(RAG)的文档集合
5. 对LLM预训练Web规模数据集进行去重
Galactic的功能:
1. 使用Galactic清理和筛选文本数据集
2. 生成适合微调的文本数据集
3. 创建和管理文档集合以进行检索增强生成
4. 去重Web规模数据集以提高数据质量
相关推荐
暂无评论...