一款用于测试大语言模型在网页浏览能力上的基准工具,旨在通过 WebWalkerQA 数据集和 WebWalker 多 Agent 框架,为大型语言模型在网页导航和信息检索任务中的基准测试提供支持
WebWalker的特点:
1. 支持大语言模型在网页导航和信息检索任务的基准测试
2. 集成 WebWalkerQA 数据集
3. 多 Agent 框架设计
WebWalker的功能:
1. 使用 WebWalkerQA 数据集进行模型评估
2. 通过多 Agent 框架模拟网页浏览场景
3. 测试模型在实际网页环境中的信息检索能力
相关推荐
暂无评论...