该项目提供多种大语言模型微调数据集,旨在帮助用户训练和优化自己的ChatGPT模型,涵盖了多个领域和主题,资源易于访问和使用,适合研究和教育目的。
Hugging Face Datasets提供超过十万个数据集,覆盖艺术、医学、生物学等多个领域,用户可以通过简单的搜索和过滤功能快速找到所需的数据集,并按任务、大小、语言等进行分类。
Railroad-dataset是一个专为铁路应用设计的SLAM(同步定位与地图构建)数据集,包含丰富的定位与建图数据以及检测数据,旨在支持铁路环境相关的研究与开发。数据集中提供了高质量的传感器数据,适用于验证各种SLAM算法,并为研究者和开发者提供了一个可靠的实验平台。
该数据集涵盖生物、化学、数学、物理等多个行业,生物部分包含2万个问题-解答,分为25个子项。新版本由GPT-4生成,质量更高,并提供与GPT-3.5生成的数据集的对比。
关于人类运动理解和生成研究的聚合项目,包含了大量的学术研究、数据集、以及人类运动分析和合成的相关技术和方法
这是一个包含多个基于PyTorch的深度学习应用的库,旨在为圣路易斯华盛顿大学课程提供教育资源和实例,帮助理解深度学习概念。
文化NLP研究资源库:汇集文化自然语言处理领域的精选资源,涵盖研究论文、数据集、模型和应用,为跨文化语言技术研究提供参考和启发
Galactica是一个提供用户友好界面的机器学习模型互动网站,用户可以输入数据或使用平台提供的示例数据,实验不同参数并观察模型的输出或预测。
Wale IDE是一个提供直观界面的平台,支持用户导入数据或创建新数据集,调节参数以优化提示,并查看提示执行历史。
一种优化视觉语言提示上下文的方法,通过知识引导提升交互效果。
Leap Touch 是一个人工智能工具,旨在简化自定义模型的训练和照片生成过程。用户只需创建账户,上传训练数据,选择所需的模型架构,配置训练参数,然后启动训练过程。一旦模型训练完成,用户可以通过提供输入参数或使用预训练模型来生成照片。
Higgsfield是一个专注于AI模型创建和训练的平台,旨在为AI爱好者、开发者和研究人员提供工具和资源,促进智能系统的开发。该平台鼓励社区合作,分享数据集、模型和见解,推动AI研究的进步。
一个全面的大型语言模型(LLM)教学项目,涵盖LLM基础知识、科学家和工程师的相关内容。课程内容包括数学、Python编程、神经网络基础和自然语言处理技术,旨在深入理解LLM架构、数据准备、分布式训练和超参数调整。该项目专注于运行LLMs、构建向量存储和优化推理,同时提供监控、评估方法和安全性保障。
一个全面的移动端和PC端智能代理相关资源集合,包含最新论文、数据集和基准测试。收录了各类移动端智能代理系统的训练方法、输入类型、模型架构等详细对比,以及主流数据集的详细信息统计。
LAION是一个非营利组织,旨在向公众提供机器学习资源,包括数据集、工具和模型,促进开放的公共教育和环保资源的再利用。
GPT4All是一个基于LLaMa模型开源的聊天机器人,使用约80万条GPT-3.5-Turbo生成的干净助理数据进行训练,支持代码、故事和对话等多种类型的互动,适合本地测试和开发。
FluidStack是一个全球数据中心网络的GPU云平台,提供超过50,000个GPU,支持AI和大语言模型(LLM)的训练。用户可以免费开始使用并无缝扩展。
NASA-Earth-Data是一个全面的NASA地球科学数据产品列表,旨在为研究人员和分析人员提供丰富的地球科学数据,支持数据研究和分析,便于与各种数据处理工具集成,具有用户友好的界面,方便用户浏览和获取所需的数据产品。