AI开源项目

BALROG-评估游戏环境中的智能Agent能力

一个创新的基准测试框架,专门评估大语言模型(LLM)和视觉语言模型(VLM)在游戏环境中的智能Agent能力。支持本地部署和主流AI API集成,提供完整的评估工具集,可用于测试模型在长期...

一个创新的基准测试框架,专门评估大语言模型(LLM)和视觉语言模型(VLM)在游戏环境中的智能Agent能力。支持本地部署和主流AI API集成,提供完整的评估工具集,可用于测试模型在长期交互任务中的推理表现。
BALROG的特点:
1. 评估大语言模型(LLM)和视觉语言模型(VLM)的能力
2. 支持本地部署和主流AI API集成
3. 提供完整的评估工具集
4. 适用于长期交互任务的推理表现测试

BALROG的功能:
1. 使用框架评估不同模型在游戏环境中的表现
2. 集成API进行实时模型评估
3. 进行基准测试以比较多种智能Agent的推理能力

相关推荐

暂无评论

暂无评论...