DeepMark是一款基准测试工具,旨在评估大型语言模型(LLM)在特定任务指标和自定义数据上的性能,帮助开发者理解模型的表现并优化其在不同场景下的应用。
SciBench旨在评估语言模型在复杂科学问题解决中的推理能力。通过开放和封闭数据集的深入基准测试,研究发现当前的语言模型在整体性能方面表现不佳,仅得到35.80%的分数。
Planetarium是一个用于评估大型语言模型将自然语言描述的规划问题转换为PDDL的基准测试工具,具备图同构的比较方法,旨在帮助研究人员分析和提升模型的性能。
BIG-Bench是一个用于评估神经网络模型性能的基准测量工具,旨在提供全面的评估方法,通过多个任务和指标来衡量AI模型的能力。
Cold Compress是一个开源轻量工具包,旨在创建和基准测试基于GPT-Fast的缓存压缩方法,支持自定义和扩展KV缓存压缩技术,提供灵活的解决方案以优化数据存储和访问效率。
agentops 是一个 Python SDK,专为 AI 代理监控、LLM 成本跟踪和基准测试设计。它支持大多数 LLM 和代理框架的集成,包括 CrewAI、Langchain、Autogen、AG2 和 CamelAI,旨在帮助开发者和企业优化其 AI 代理的性能和成本效率。