AgentBench是一个多维演进基准,评估语言模型作为Agent的能力,包含8个不同环境,专注于LLM在多轮开放式生成场景中的推理和决策能力。
llm-colosseum 是一种评估大型语言模型 (LLM) 质量的新方法,通过模拟《Street Fighter 3》中的战斗表现作为基准,帮助研究人员和开发者了解和分析 LLM 的决策能力和适应性。该项目强调实时游戏中的快速决策、智能思考、适应性调整和整体弹性。
使用LLMPerf工具对LLM推理提供商进行基准测试,通过关键指标评估它们的性能、可靠性和效率,展示结果的透明度和可视化
BIG-Bench是一个用于评估神经网络模型性能的基准测量工具,旨在提供全面的评估方法,通过多个任务和指标来衡量AI模型的能力。
Skyvern-AI通过LLM和计算机视觉自动化基于浏览器的工作流程,提供一个简单的API端点来完全自动化手动工作流程,替代脆弱或不可靠的自动化解决方案。
RE2通过在提示中重复输入问题两次来提高LLM的推理能力,增强对问题的理解,并促进单向解码器 LLM 的双向编码。该方法兼容现有的思想激发提示技术,适用于多种LLM和推理任务,能够有效提高模型的表现。
用大型语言模型重新思考自动驾驶,使用GPT-3.5作为默认的大型语言模型(LLM),介绍了LLM在驾驶场景中的闭环交互能力以及通过记忆能提升性能的方法
关于基于大型语言模型(LLM)的终身学习(Lifelong Learning)代理(Agent)的资源和研究论文的库,旨在促进LLM在不断变化环境中的适应能力,收集了优秀的调研和资源,包含多篇相关研究论文,并提供多样的学习和应用案例。
本文评估了LLM自动生成特征归因解释的能力,研究不同方式触发自我解释的可信度,并与传统解释方法进行了比较。
SlashGPT是一个旨在帮助开发人员快速制作大语言模型(LLM)智能体或具有自然语言用户界面的应用原型的平台。它提供了丰富的功能和灵活的API,支持快速的原型开发和测试,适合教育和实验用途。
这是一个在 LLM 中推进提示功能的框架,超越了思维链或思维树等范式所能提供的能力。通过将 LLM 生成的信息建模为任意的图形结构,GoT 提炼整个思维网络的实质,增强思维能力。
这是一个关于出色LLM推理的小集合,包含文献、博客和文档以及代码,支持TensorRT-LLM、流式LLM、SmoothQuant、WINT8/4、连续批处理、FlashAttention、PagedAttention等技术。
在这篇论文中,研究人员修改了Chinchilla扩展定律,以计算最佳的LLM参数数量和预训练数据大小,以训练和部署具有给定质量和推理需求的模型。
Branches是一个基于图的高级算法原型工具,专为大型语言模型(LLM)的推理和规划设计,旨在提升模型的推理能力和优化决策过程。
ArtPrompt是一个基于ASCII艺术的越狱攻击项目,旨在绕过具有安全机制的语言模型(LLM)。通过利用ASCII艺术形式,该项目能够进行黑盒攻击,测试和评估LLM对非语义提示的识别能力,揭示其脆弱性和局限性。
多智能体自动生成框架,基于LLM的自动智能体生成的实验性开源应用,由LLM驱动,自主生成多智能体以实现设定的目标。
该项目旨在探索LLM评估与人工标注之间的相关性,以期能够实现廉价评估与与人工评估结果的高相关性。通过分析不同的LLM评估基准,该项目提供了有效的评估方法,并支持多种LLM模型的评估。
关于大规模预训练语言模型工具使用和代码生成的论文集合,涵盖了相关研究和复杂推理的内容,提供对当前研究趋势的深入分析。