AgentBoard是一个多轮LLM智能体的分析评估排行榜,旨在评估大型语言模型的通用Agent能力。它提供全面的性能分析和可视化结果,支持多种模型的比较,帮助用户深入理解智能体在对话中的表现。
Open-LLM-Leaderboard是一个用于追踪各种大型语言模型(LLMs)在开放式问题上的表现的基准测试平台,旨在反映模型的真实能力,并通过开放社区促进共同进步。
LLMDrift是一个项目,旨在研究大型语言模型(如GPT-3.5和GPT-4)的性能漂移,特别关注其性能可能随时间下降的趋势及其影响。
LLM Comparator是一个交互式数据可视化工具,旨在并排评估和分析大型语言模型的响应,由PAIR团队开发。
llm-colosseum 是一种评估大型语言模型 (LLM) 质量的新方法,通过模拟《Street Fighter 3》中的战斗表现作为基准,帮助研究人员和开发者了解和分析 LLM 的决策能力和适应性。该项目强调实时游戏中的快速决策、智能思考、适应性调整和整体弹性。
LLaMa2Lang是一个用于微调LLaMa2-7b模型的工具,旨在提升其在非英语语言中的对话能力。由于LLaMa2模型主要基于英语数据进行训练,因此在其他语言上的表现较差。本项目旨在改善这一问题,使LLaMa2能够更好地处理各种语言的对话需求。
LLMEVAL-2 是一款专为评测中文大语言模型性能而设计的工具,支持多种评测指标和方法,提供易用的接口和文档,集成了多种预训练模型,并允许用户自定义评测任务。
vizGPT是一个数据可视化平台,通过聊天界面将上下文数据转化为互动式可视化图表,利用先进的模型生成有意义的视觉表现。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型