2025年最强大的多轮对话能力评估AI工具推荐

AgentBench是一个多维演进基准，评估语言模型作为Agent的能力，包含8个不同环境，专注于LLM在多轮开放式生成场景中的推理和决策能力。

llm-colosseum 是一种评估大型语言模型 (LLM) 质量的新方法，通过模拟《Street Fighter 3》中的战斗表现作为基准，帮助研究人员和开发者了解和分析 LLM 的决策能力和适应性。该项目强调实时游戏中的快速决策、智能思考、适应性调整和整体弹性。

0

LLM质量评估决策能力测试实时游戏评估适应性分析

LLMPerf Leaderboard-LLM推理性能基准测试工具

使用LLMPerf工具对LLM推理提供商进行基准测试，通过关键指标评估它们的性能、可靠性和效率，展示结果的透明度和可视化

0

LLM推理性能基准测试工具基准测试报告生成性能评估透明度和可视化

BIG-bench-全面评估AI模型性能的基准工具

BIG-Bench是一个用于评估神经网络模型性能的基准测量工具，旨在提供全面的评估方法，通过多个任务和指标来衡量AI模型的能力。

0

AI模型性能评估工具基准测试大型语言模型评估

Skyvern-AI-自动化基于浏览器的工作流程

Skyvern-AI通过LLM和计算机视觉自动化基于浏览器的工作流程，提供一个简单的API端点来完全自动化手动工作流程，替代脆弱或不可靠的自动化解决方案。

0

LLM浏览器自动化自动化工作流程计算机视觉

RE2 (Re-Reading)-提升LLM推理能力的提示方法

RE2通过在提示中重复输入问题两次来提高LLM的推理能力，增强对问题的理解，并促进单向解码器 LLM 的双向编码。该方法兼容现有的思想激发提示技术，适用于多种LLM和推理任务，能够有效提高模型的表现。

0

RE2提示方法双向编码思想激发提示技术提升LLM推理能力

Drive Like A Human-重新定义自动驾驶的智能交互

用大型语言模型重新思考自动驾驶，使用GPT-3.5作为默认的大型语言模型(LLM)，介绍了LLM在驾驶场景中的闭环交互能力以及通过记忆能提升性能的方法

0

大型语言模型性能优化自动驾驶驾驶场景交互

awesome-lifelong-llm-agent-基于LLM的终身学习代理资源库

关于基于大型语言模型（LLM）的终身学习（Lifelong Learning）代理（Agent）的资源和研究论文的库，旨在促进LLM在不断变化环境中的适应能力，收集了优秀的调研和资源，包含多篇相关研究论文，并提供多样的学习和应用案例。

0

LLM适应能力基于LLM的终身学习代理研究论文汇总社区讨论

对LLM生成自我解释的研究-评估LLM生成自我解释的能力

本文评估了LLM自动生成特征归因解释的能力，研究不同方式触发自我解释的可信度，并与传统解释方法进行了比较。

0

LLM自我解释能力评估可解释性研究情感分析解释生成

SlashGPT-开发人员快速制作LLM智能体的试炼场

SlashGPT是一个旨在帮助开发人员快速制作大语言模型(LLM)智能体或具有自然语言用户界面的应用原型的平台。它提供了丰富的功能和灵活的API，支持快速的原型开发和测试，适合教育和实验用途。

0

LLM智能体开发平台快速原型开发教育实验工具自然语言处理

思维图-推进 LLM 提示功能的框架

这是一个在 LLM 中推进提示功能的框架，超越了思维链或思维树等范式所能提供的能力。通过将 LLM 生成的信息建模为任意的图形结构，GoT 提炼整个思维网络的实质，增强思维能力。

0

LLM提示功能框架学术研究思维图智能对话系统

Awesome LLM Inference-强大的LLM推理工具集

这是一个关于出色LLM推理的小集合，包含文献、博客和文档以及代码，支持TensorRT-LLM、流式LLM、SmoothQuant、WINT8/4、连续批处理、FlashAttention、PagedAttention等技术。

0

FlashAttentionLLM推理工具集PagedAttentionSmoothQuant

超越Chinchilla-Optimal-优化LLM参数与数据配置

在这篇论文中，研究人员修改了Chinchilla扩展定律，以计算最佳的LLM参数数量和预训练数据大小，以训练和部署具有给定质量和推理需求的模型。

0

LLM训练指导优化LLM参数模型部署策略模型配置计算

Branches-高级算法原型工具

Branches是一个基于图的高级算法原型工具，专为大型语言模型(LLM)的推理和规划设计，旨在提升模型的推理能力和优化决策过程。

0

API接口集成LLM推理与规划图算法设计高级算法原型工具

ArtPrompt-基于ASCII艺术的越狱攻击工具

ArtPrompt是一个基于ASCII艺术的越狱攻击项目，旨在绕过具有安全机制的语言模型（LLM）。通过利用ASCII艺术形式，该项目能够进行黑盒攻击，测试和评估LLM对非语义提示的识别能力，揭示其脆弱性和局限性。

0

ASCII艺术攻击工具LLM安全性测试LLM脆弱性评估黑盒攻击

AutoAgents-基于LLM的智能体自动生成框架

多智能体自动生成框架，基于LLM的自动智能体生成的实验性开源应用，由LLM驱动，自主生成多智能体以实现设定的目标。

0

LLM驱动的智能体生成多智能体协作开源应用

Understanding LLM Benchmarks-探索LLM评估与人工标注的相关性

该项目旨在探索LLM评估与人工标注之间的相关性，以期能够实现廉价评估与与人工评估结果的高相关性。通过分析不同的LLM评估基准，该项目提供了有效的评估方法，并支持多种LLM模型的评估。

0

LLM评估人工标注模型性能评估评估报告生成

LLM Tool Use Papers-大规模预训练语言模型工具研究论文集合

关于大规模预训练语言模型工具使用和代码生成的论文集合，涵盖了相关研究和复杂推理的内容，提供对当前研究趋势的深入分析。

0

LLM工具使用研究代码生成研究复杂推理应用