crystalcoder-data-prep是为CrystalCoder 7B LLM准备训练数据的代码,涵盖数据下载、token化、序列拼接、FIM增强和数据混洗等多个步骤,旨在提高模型训练的效率和效果。
该项目提供多种卫星和航空图像的数据集,支持深度学习模型的训练和评估,包含丰富的数据集信息和元数据,适用于不同的计算机视觉任务,如图像分类、目标检测等。
基于 Rust 和 ffmpeg 的视频解码库,旨在快速解码视频,特别适用于机器学习场景,在机器学习领域处理视频数据时,能高效地加载视频片段,避免了不必要的全视频解码,大大节省时间和资源
Dioptra是一个开源的数据策展和管理平台,旨在支持计算机视觉、自然语言处理和大型语言模型。它帮助用户策划有价值的未标记数据,注册元数据,诊断模型失效模式,并与标注和再训练系统整合。
一个使用简单、原始的 C/CUDA 进行LLM培训的项目,旨在提供轻量级的实现,减少对大型库的依赖。
Epochraft是一个数据加载器库,专注于即时标记化和检查点功能,特别用于流畅训练语言模型(LLM),旨在提高数据处理的效率和训练过程的灵活性。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型