实时、精细的大型语言模型合成数据资源列表,专注于为大型语言模型(LLM)提供数据支持,包括数据生成、优化和应用。
Dioptra是一个开源的数据策展和管理平台,旨在支持计算机视觉、自然语言处理和大型语言模型。它帮助用户策划有价值的未标记数据,注册元数据,诊断模型失效模式,并与标注和再训练系统整合。
LLM-Dojo是一个开源大模型学习场,提供简洁易读的代码框架,支持多种主流模型的训练和强化学习技术,旨在帮助AI爱好者和研究者进行深入的研究和开发。
MiniMind是一个大语言模型教学项目,完全从0开始,用最快仅3小时训练出仅为26M大小的微型语言模型,旨在降低学习大语言模型的门槛。该项目改进自DeepSeek-V2和Llama3结构,涵盖数据处理、预训练、SFT和DPO的全部阶段,并支持混合专家模型。作为一个开源项目,MiniMind非常适合作为大语言模型的入门教程。
专为大型语言模型(LLM)训练优化的类,集成了多种高效训练技术,旨在提升训练效率和内存使用效率。
Orca是一个基于GPT-4复杂解释轨迹的渐进式学习模型,旨在推动自然语言理解与生成的前沿。它设计高效且智能的最先进语言模型,能够与OpenAI的GPT-4和PALM相媲美。
Dual-Radar 是一个专为无人驾驶技术开发的高质量双雷达数据集,旨在为深度学习模型提供真实场景下的目标检测与跟踪数据。该数据集涵盖多种无人驾驶场景,包含丰富的目标检测与跟踪标签,能够有效支持无人驾驶系统的训练与验证。
GPT-Minus1是一个通过随机替换文本中的单词为同义词来帮助迷惑GPT的工具。它旨在通过引入微妙的变化来增强文本生成模型的性能和准确性。用户只需输入文本并点击'Scramble'按钮,该工具就会随机替换单词,从而创建修改后的文本版本,用户可以使用该文本来迷惑GPT或其他文本生成模型。
Censius是一个AI可观察性和模型监控平台,帮助团队理解、分析和改善AI模型在实际应用中的表现。它提供了对结构化和非结构化生产模型的端到端可见性,并支持主动的模型管理。
Wikipedia-Utils是一个专门为自然语言处理设计的工具,旨在高效地对维基百科文本进行预处理。它支持多种文本处理功能,能够处理大规模的维基百科数据,并且易于集成到现有的自然语言处理工作流中。该工具还提供丰富的API接口,方便用户根据需求进行定制化操作。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型