Planetarium开源项目 – 评估语言模型规划能力的基准测试

Planetarium是一个用于评估大型语言模型将自然语言描述的规划问题转换为PDDL的基准测试工具，具备图同构的比较方法，旨在帮助研究人员分析和提升模型的性能。
Planetarium的特点:
1. 评估大型语言模型的能力
2. 将自然语言描述转换为PDDL
3. 提供图同构的比较方法

Planetarium的功能:
1. 使用数据集进行模型训练和评估
2. 进行规划问题的基准测试
3. 比较不同模型在翻译任务中的表现

相关导航

LangSmith是一个旨在帮助开发者缩小原型与生产之间差距的平台，专为构建和迭代能够利用大型语言模型(LLMs)的产品而设计，既能发挥其强大能力，又能应对其复杂性。

Aide.dev 是一款创新的AI工具，旨在提升开发者的编码体验，通过智能的代码补全和实时聊天支持，使编码过程更加高效和互动，同时确保代码隐私。

TaxEval 是一个专注于税务领域的语言模型评估工具，支持多种评估指标并提供详细的评估报告，便于集成到现有的税务应用中。

用于LLM360评估和分析的代码库，包含了多种评估指标和分析方法，旨在帮助用户全面理解和优化模型表现。

FLASK是一个专门用于评估语言模型在语法、语义、推理和生成等任务上表现的工具，旨在提供更准确的评估结果，揭示模型的强项和弱点，并指导语言模型的进一步发展。

该项目旨在评估中文空间语义理解的能力，提供基准数据集和评测工具，帮助研究人员和开发者了解和提升模型在空间语义任务上的表现。

Thermostat是一个集合，提供多种自然语言处理(NLP)模型的解释及其分析工具，帮助用户深入理解模型的决策过程及性能评估。

Bench是一个用于评估语言模型(LLM)在生产用例中的工具，支持多种语言模型的评估，并提供详细的评估报告和指标，易于集成到现有的生产环境中，且支持自定义评估用例。

JudgeLM是经过微调的语言大模型，旨在有效、高效地在开放式基准测试中评估语言大模型（LLM），提供系统化的模型能力和行为分析，解决多种偏见问题，并在新旧基准测试中展示出色的评判性能。

ai2-olmo-eval 是一个评估套件，旨在为语言模型在自然语言处理任务上运行评估管道，提供多种评估指标和详细报告，支持扩展和自定义评估。

Haven是一个用于大型语言模型微调和评估的工具，拥有简单的用户界面，可以方便地进行模型微调并基于多种标准进行评估。

InstructScore (SEScore3) 是用于文本生成评估的首个解释性指标，提供全面的评估和诊断报告，帮助识别模型的优缺点，支持多种文本生成任务，并能比较不同模型的输出。

AgentBench是一个多维演进基准，评估语言模型作为Agent的能力，包含8个不同环境，专注于LLM在多轮开放式生成场景中的推理和决策能力。

一种适应层的空间选择方法，用于GAN反演和图像编辑，旨在提升图像生成和修改的效果。

Imandra是一个推理即服务的平台，赋予AI逻辑推理能力，适用于构建大型语言模型的思维模型、正式验证论证和结果，以及可审计的逻辑推理。

暂无评论...