Dioptra是一个开源的数据策展和管理平台,旨在支持计算机视觉、自然语言处理和大型语言模型。它帮助用户策划有价值的未标记数据,注册元数据,诊断模型失效模式,并与标注和再训练系统整合。
一种处理噪声标签的少样本学习方法,旨在提高模型在标签不准确情况下的学习能力。该方法利用少量标记样本进行训练,具备对标签噪声的鲁棒性,适用于图像分类等任务。
Mask-tuning是一种训练方法,通过将训练目标集成到微调过程中,旨在提升预训练语言模型在特定任务上的表现和泛化能力,尤其是在未见过的数据上。
实时、精细的大型语言模型合成数据资源列表,专注于为大型语言模型(LLM)提供数据支持,包括数据生成、优化和应用。
MusicGen模型训练器,旨在简化MusicGen和Audiocraft模型的训练过程,提供用户友好的界面和强大的功能,帮助用户轻松进行音频模型的训练和评估。
Fine Tune AI 是一个在线平台,旨在通过生成高质量的微调数据来帮助用户优化其人工智能模型。用户可以通过输入提示来获取定制的数据集,从而提高模型在特定任务上的表现。该平台支持多种场景,适合不同领域的应用需求。
该项目提出了一种在不同领域之间自适应的目标检测方法,旨在提高不同数据集上目标检测的准确性。它通过利用无标签数据的特性,帮助模型在缺乏标注数据的情况下进行有效训练。
本项目旨在利用合成数据,通过大语言模型从非结构化文档生成查询和相关文档,从而创建合成数据集,以微调开源嵌入模型。这样可以显著提高信息检索的准确性和效率,同时增强模型在特定领域的理解能力。
Lightning AI是一个使用PyTorch训练、部署和构建AI模型的平台,以其超快的性能而闻名。它由PyTorch Lightning的创作者开发,提供用户友好的界面来管理训练过程和监控模型性能,适用于计算机视觉、自然语言处理、推荐系统和强化学习等多个领域。
LLM微调中心,用于将各种大型语言模型进行微调,以适应个性化用例,提供丰富的微调脚本和最新研究成果,支持模型部署及自定义微调,旨在提高模型在特定数据集上的性能。
LLaMA-Adapter V2 是一个高效的模型适配器,能够在短时间内完成训练并支持多模态功能,包括图像解释和问答。
SynCLR是一种完全从合成图像和合成描述学习虚拟表征的方法,无需任何真实数据。它能够与OpenAI的CLIP在ImageNet上的传输效果一样好,利用合成数据获取高质量表征,适用于大模型训练中的偏好标记。
一个用于评估AI在高考中的表现的项目,旨在通过与真实高考分数线的对比,深入了解大模型在各科目的能力。
Aurora AI是一个提供高质量合成数据的平台,旨在以实惠的价格生成模拟真实数据特征的合成数据,同时保护敏感信息。用户可以通过网站注册账户,访问数据生成功能,根据需求指定合成数据集的格式、结构和大小,Aurora AI的先进算法和模型将基于这些要求生成合成数据。
Mito是一个Python电子表格自动化和代码生成工具,允许用户在电子表格中编辑数据并自动生成对应的Python代码。用户只需安装Mito扩展或组件,便可通过熟悉的电子表格界面轻松进行数据编辑,自动化重复任务。
飞桨可信AI,基于PaddlePaddle开发的集可信分析和增强于一体的可信AI工具集,助力NLP开发者提升深度学习模型效果和可信度,推动模型安全、可靠的落地于应用
crystalcoder-data-prep是为CrystalCoder 7B LLM准备训练数据的代码,涵盖数据下载、token化、序列拼接、FIM增强和数据混洗等多个步骤,旨在提高模型训练的效率和效果。
RAGoon是一个用于批量生成嵌入、极速基于Web的RAG和量化索引处理的高级库,旨在提升语言模型的性能。它通过搜索查询、网页抓取和数据增强技术,为用户提供上下文相关的信息,帮助更好地理解和利用数据。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型