一个全面的语音智能体测试和评估框架,帮助开发者优化LLM驱动的语音助手。它支持多种语言模型和提示词的对比测试,允许自定义评估指标,能够实现模型迁移和成本优化,同时系统地测试不同场景下的代理表现,非常适合语音助手的开发和迭代优化。