2025年最强大的NetHack游戏AI工具推荐

katakomba-数据驱动的NetHack基准测试工具

katakomba是一个专为NetHack游戏设计的数据驱动的基准测试工具，提供超过30个标准化数据集，并支持多种基于循环的离线强化学习基线模型，旨在促进研究和开发中的基准测试。

0

NetHack游戏强化学习数据驱动基准测试工具模型训练与评估

katakomba-数据驱动的NetHack基准测试工具

katakomba是一个专为NetHack游戏设计的数据驱动的基准测试工具，提供超过30个标准化数据集，并支持多种基于循环的离线强化学习基线模型，旨在促进研究和开发中的基准测试。

0

NetHack游戏强化学习数据驱动基准测试工具模型训练与评估

awesome-mobile-agents-智能代理资源集合

一个全面的移动端和PC端智能代理相关资源集合，包含最新论文、数据集和基准测试。收录了各类移动端智能代理系统的训练方法、输入类型、模型架构等详细对比，以及主流数据集的详细信息统计。

0

基准测试数据集模型架构对比移动端智能代理资源

xCodeEval-多语言代码理解与生成基准

xCodeEval是一个大规模多语言多任务基准，用于评估代码理解、生成、翻译和检索的能力，旨在为研究和开发提供支持。

0

代码生成基准代码翻译多语言代码理解模型评估

PyTorch Out-of-Distribution Detection-基于PyTorch的OOD检测库

这是一个基于PyTorch的库，旨在加速在分布外（OOD）检测方面的研究，支持多种检测方法，并提供易用的API设计。该项目结合深度学习模型进行OOD任务，提供数据集和基准测试，且可与PyTorch深度学习框架无缝集成。

0

OOD检测方法PyTorch OOD检测库可视化检测结果数据集和基准测试

Awesome-LLMs-Datasets-代表性LLM数据集的汇总

代表性LLM文本数据集大列表，包括预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集

0

代表性LLM数据集微调指令数据集自然语言处理评估数据集

LLM Zoo-大型语言模型的资源集市

大型语言模型的数据、模型和基准集市，为ChatGPT的大众化贡献力量

0

ChatGPT应用大型语言模型资源数据集贡献模型评估

awesome-cultural-nlp-文化NLP研究资源库

文化NLP研究资源库：汇集文化自然语言处理领域的精选资源，涵盖研究论文、数据集、模型和应用，为跨文化语言技术研究提供参考和启发

0

应用实例数据集文化NLP研究资源库模型

SuperClass-视觉-语言预训练分类的最佳实践

SuperClass是一个旨在提高视觉和语言预训练任务中分类准确性的项目，通过整合视觉和语言模态，优化预训练任务的性能。

0

分类准确性优化多模态AI研究视觉语言预训练

Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks-比较人类与AI在推理任务的表现

该项目旨在比较人类、GPT-4 和 GPT-4V 在抽象和推理任务上的表现，分析不同智能体在这些任务中的能力差异，为理解和提升AI模型提供数据支持。

0

AI模型性能分析人类与AI比较抽象推理任务认知任务研究

flash-attention-基于FlashAttention的高效Transformer实现

flash-attention是一个基于FlashAttention优化的Transformer实现，其训练速度在GPT2和GPT3上比Huggingface的实现快3-5倍，显著提升了训练效率，同时优化了内存使用，并支持多种硬件加速。

0

FlashAttentionHuggingFace集成深度学习训练速度优化

Awesome Deep Graph Clustering-深度图聚类方法的集合

Awesome Deep Graph Clustering 是一套最新的深度图聚类方法的集合，包括论文、代码和数据集。

0

数据集实验深度图聚类方法算法性能评估论文和代码集合

llama2.go-LLAMA-2的纯Go实现

llama2.go是一个基于LLAMA-2模型的纯Go语言实现，提供高性能的机器学习功能，易于集成，支持多种数据格式，适合在Go项目中使用。

0

Go项目集成LLAMA-2模型推理纯Go实现的机器学习模型

LongBench-多任务中英双语长文本理解评测基准

LongBench是一个专为中英双语长文本理解而设计的评测基准，支持多种理解任务的评估，并提供标准化的数据集和评测指标，适用于各种长文本处理模型的性能评估。

0

中英双语长文本理解评测多任务评测长文本处理模型评估

LLM-Datasets-帮助模型提升准确性与多样性

大型语言模型微调用高质量数据集大列表，帮助提升模型的准确性和多样性，使其更好地理解和执行指令。该项目提供了丰富的高质量数据集，支持不同语言模型的微调需求，适合研究人员和开发者使用。

0

大型语言模型微调工具数据集比较研究开发基础

Awesome Domain LLM-垂直领域的开源资源汇聚

收集和梳理垂直领域的开源模型、数据集及评测基准，方便研究人员和开发者使用。

0

开源模型资源数据集整合模型评测基准研究开发支持

Deep Learning Applications-基于PyTorch的深度学习应用库

这是一个包含多个基于PyTorch的深度学习应用的库，旨在为圣路易斯华盛顿大学课程提供教育资源和实例，帮助理解深度学习概念。

0

PyTorch教育资源数据集训练深度学习应用库

Awesome-Chinese-LLM-开源中文大语言模型资源整理

整理开源的中文大语言模型，以规模较小、可私有化部署、训练成本较低的模型为主，包括底座模型，垂直领域微调及应用，数据集与教程等。该项目收录了100+个中文LLM相关的开源模型和资源，适合企业应用和研究。

0

中文应用开发开源中文大语言模型数据集与教程模型微调