PROMETHEUS是一个在语言模型中引入细粒度评估能力的完全开源LLM,能够在配备适当的参考资料时展现出与专有模型相媲美的评估能力。
SciPhi旨在支持大型语言模型(LLMs)的训练和评估,提供了数据生成和模型输出评估两个关键功能,帮助用户高效地生成合成数据,并对模型的性能进行稳健的评估。
Effy AI是一款性能管理软件,提供快速的360度员工评审体验,配备现成模板和AI生成报告,特别适合初创公司和偶尔进行评审的组织。
Edexia是一个专为教育工作者设计的在线平台,提供批量上传、标记和下载功能,帮助教师轻松管理不同班级。它支持评分标准的定制,提供深入的反馈,帮助学生在特定领域进行改进。
一个开源项目,旨在为用户提供免费的GPT-4模型访问,允许用户绕过付费限制,方便使用强大的文本生成模型。
关于使用CommonGen-lite数据集对LLM进行评估的研究,使用了GPT-4模型进行评估,比较了不同模型的性能,并列出了排行榜上的模型结果。
Show-Me 是一个开源应用,旨在提供与传统大型语言模型(LLM)交互的可视化和透明替代方案。它将复杂的问题分解为一系列有根据的子任务,使用户能够理解 LLM 的逐步思考过程。
OpenAI API Cost Tracker是一个开源工具,帮助用户跟踪和分析OpenAI API的每日使用情况和费用。它提供了关于不同模型(如ChatGPT、GPT-4、Whisper和文本嵌入模型)的成本洞察,支持以图表或饼图的形式可视化信息,用户可以根据时间粒度自定义查看数据。
GPT-S Navigator是一个顶级数据产品,提供对OpenAI顶级GPT-S模型的访问,包含丰富的提示库和个性化推荐,旨在提升用户在GPT-S旅程中的体验与效率。
这篇论文探讨了如何评估大模型的性能,包括评估的内容、地点和方法,并分析了当前评估方法的有效性和可信度。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型