Galactic是一个用于处理大规模非结构化文本数据集的工具,提供清理和筛选功能,旨在筛选微调数据集、创建用于检索增强生成(RAG)的文档集合,甚至对LLM预训练Web规模数据集进行去重。
Charm 是一个强大的工具,可以在 Google Sheets 中生成、转换和分析任何文本数据。它适用于数据清理、内容生成、反馈分类等多种用例,帮助用户高效管理和利用文本信息。