katakomba是一个专为NetHack游戏设计的数据驱动的基准测试工具,提供超过30个标准化数据集,并支持多种基于循环的离线强化学习基线模型,旨在促进研究和开发中的基准测试。
一个全面的移动端和PC端智能代理相关资源集合,包含最新论文、数据集和基准测试。收录了各类移动端智能代理系统的训练方法、输入类型、模型架构等详细对比,以及主流数据集的详细信息统计。
xCodeEval是一个大规模多语言多任务基准,用于评估代码理解、生成、翻译和检索的能力,旨在为研究和开发提供支持。
这是一个基于PyTorch的库,旨在加速在分布外(OOD)检测方面的研究,支持多种检测方法,并提供易用的API设计。该项目结合深度学习模型进行OOD任务,提供数据集和基准测试,且可与PyTorch深度学习框架无缝集成。
代表性LLM文本数据集大列表,包括预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集
大型语言模型的数据、模型和基准集市,为ChatGPT的大众化贡献力量
文化NLP研究资源库:汇集文化自然语言处理领域的精选资源,涵盖研究论文、数据集、模型和应用,为跨文化语言技术研究提供参考和启发
SuperClass是一个旨在提高视觉和语言预训练任务中分类准确性的项目,通过整合视觉和语言模态,优化预训练任务的性能。
该项目旨在比较人类、GPT-4 和 GPT-4V 在抽象和推理任务上的表现,分析不同智能体在这些任务中的能力差异,为理解和提升AI模型提供数据支持。
flash-attention是一个基于FlashAttention优化的Transformer实现,其训练速度在GPT2和GPT3上比Huggingface的实现快3-5倍,显著提升了训练效率,同时优化了内存使用,并支持多种硬件加速。
Awesome Deep Graph Clustering 是一套最新的深度图聚类方法的集合,包括论文、代码和数据集。
llama2.go是一个基于LLAMA-2模型的纯Go语言实现,提供高性能的机器学习功能,易于集成,支持多种数据格式,适合在Go项目中使用。
LongBench是一个专为中英双语长文本理解而设计的评测基准,支持多种理解任务的评估,并提供标准化的数据集和评测指标,适用于各种长文本处理模型的性能评估。
大型语言模型微调用高质量数据集大列表,帮助提升模型的准确性和多样性,使其更好地理解和执行指令。该项目提供了丰富的高质量数据集,支持不同语言模型的微调需求,适合研究人员和开发者使用。
收集和梳理垂直领域的开源模型、数据集及评测基准,方便研究人员和开发者使用。
这是一个包含多个基于PyTorch的深度学习应用的库,旨在为圣路易斯华盛顿大学课程提供教育资源和实例,帮助理解深度学习概念。
整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。该项目收录了100+个中文LLM相关的开源模型和资源,适合企业应用和研究。