Math-Verify是一个强大的数学表达式评估系统,专为评估大型语言模型在数学任务中的输出而设计。它能更准确地评估模型的表现,避免因格式或解析问题导致的误判。
Graduate-Level Google-Proof Q&A Benchmark,是一个评估大型语言模型和可扩展监督机制能力的高难度数据集,包含448道选择题,旨在测试专家的准确率。
Confabulations是一个针对检索增强型生成模型(RAG)的基准测试,旨在评估大型语言模型在面对基于文档的误导性问题时的能力,并提供工具以减少生成虚构答案的能力。
JailbreakBench 是一个开源的鲁棒性基准,旨在评估对大型语言模型(LLM)进行大规模越狱的进展,提供丰富的数据集和评估工具,以支持研究人员和开发者在这个领域的探索。
Open-LLM-Leaderboard是一个用于追踪各种大型语言模型(LLMs)在开放式问题上的表现的基准测试平台,旨在反映模型的真实能力,并通过开放社区促进共同进步。
BIG-Bench是一个用于评估神经网络模型性能的基准测量工具,旨在提供全面的评估方法,通过多个任务和指标来衡量AI模型的能力。
UnrealZoo 是一个基于 Unreal Engine 的大规模照片级虚拟世界集合,旨在为具身AI提供仿真环境,具备高质量的图形渲染和多样化的场景。
BenchLLM是一个免费的开源工具,旨在简化对大型语言模型(LLMs)、聊天机器人和其他人工智能应用的测试过程。用户可以实时测试数百个提示和响应,自动化评估并基准测试模型,以构建更好和更安全的AI。
llama4micro是一个在单片机上运行的LLaMA模型,专为资源受限的环境设计,支持15M参数模型,内存占用约60MB,能够以每秒约2.5个token的速度生成文本,特别适合生成小故事,优化用于单片机平台。
AgentBench是一个多维演进基准,评估语言模型作为Agent的能力,包含8个不同环境,专注于LLM在多轮开放式生成场景中的推理和决策能力。
Substratus.AI是一个专注于大规模语言模型(LLMs)的平台,旨在以极简的方式实现机器学习模型的部署和微调。用户可以在几分钟内安装所需的ML平台,并通过单个命令轻松运行和微调最先进的LLMs。
Gemini是CMU的Graham Neubig教授团队开发的模型,经过与GPT-3.5-Turbo和Mixtrial的公平深入比较,显示出与GPT-3.5-Turbo相当的性能,尽管存在微弱的差距。该项目致力于提供可复制的研究结果,推动自然语言处理领域的进步。
SuperCLUE是一个针对中文大模型的综合性基准测试平台,提供标准化的评估指标和多任务测试能力,旨在帮助研究者评估和比较中文大模型的性能。
Bias-Bench是一个实证调查,旨在评估针对预训练语言模型的去偏见技术的有效性。它通过比较不同的去偏见方法,帮助研究人员理解这些技术在模型训练中的作用。该项目为研究人员提供了一个标准化的平台,以便对去偏见技术进行基准测试和性能评估。
基于互信息的广义类别发现,旨在通过最大化互信息来解决广义范畴发现问题。该项目探索参数损失函数族,以评估特征和标签之间的互信息,并自动寻找最大化预测性能的损失函数。引入肘部最大质心移位(Emacs)技术,可以估计未标记集合中的类数,并在多个GCD场景下展现出通用性和竞争力,尤其在处理细粒度分类问题时表现出显著优势。
一个用于评估稀疏自编码器(SAE)模型性能的工具,提供了8种不同的评估方法,帮助研究人员和开发者更好地理解和优化SAE模型。