LLMEVAL-2 是一款专为评测中文大语言模型性能而设计的工具,支持多种评测指标和方法,提供易用的接口和文档,集成了多种预训练模型,并允许用户自定义评测任务。
Tonic Validate Metrics 是一个开源的评估指标包,旨在为生成模型的输出提供多种评估指标,支持模型性能对比,易于集成到机器学习工作流,并兼容多种数据格式和输入类型。
UltraEval-Audio是一个评估音频大模型的工具,类似于给智能语音助手打分,能够快速、方便地测试其表现,旨在帮助开发者优化和提升语音相关应用的质量。
Non finito是一个专注于多模态模型评估的工具,旨在为用户提供简单易用的平台,以便比较不同模型并公开分享评估结果。与大多数只关注语言模型的工具不同,Non finito强调多模态模型的重要性,确保每个人都能轻松进行模型评估。
AskMore利用人工智能为您进行用户访谈,帮助您更快速、更深入地获取反馈,支持多种语言。只需说明您想要了解的内容,AskMore将提供一个可分享的访谈链接,方便您与用户进行互动。
Haven是一个用于大型语言模型微调和评估的工具,拥有简单的用户界面,可以方便地进行模型微调并基于多种标准进行评估。
AgentBoard是一个多轮LLM智能体的分析评估排行榜,旨在评估大型语言模型的通用Agent能力。它提供全面的性能分析和可视化结果,支持多种模型的比较,帮助用户深入理解智能体在对话中的表现。
Looppanel是一款用户研究平台,通过先进的转录、实时笔记和分析功能,简化用户访谈,提升研究效率,帮助各行业专业人士整理和分析数据。
WorkLog.page 是一款智能的工作日志工具,旨在帮助用户轻松跟踪时间并生成评估所需的总结。通过登录并使用该软件,用户可以高效地记录工作时间,适合自由职业者、远程工作者及项目团队。
关于使用CommonGen-lite数据集对LLM进行评估的研究,使用了GPT-4模型进行评估,比较了不同模型的性能,并列出了排行榜上的模型结果。
AVbeam 是一款音频文件比较工具,能够识别匹配的音频片段。用户可以将多个源音频文件与多个目标音频文件进行比较,AVbeam 会报告所有匹配的音频片段。
JobSynergy是一个基于AI的平台,能够实时进行大规模视频面试,提供超越简历的深度候选人洞察。用户可通过设置自定义问题和指标,进行自动化视频面试,并获取详细的评估报告。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型