Aidan Bench是一个专门用于评估大型语言模型(LLMs)创新性与可靠性的工具。通过一系列开放式问题,它测试模型的创造力、可靠性、上下文注意力和指令遵循能力,旨在揭示在标准基准测试中可能被低估的能力。
该项目探讨了五种语言大模型在四种语言的五个任务上的表现差异,通过特定方法优化性能,虽然相较于传统方法仍有不足,尤其在处理敏感问题时需注意偏差。尽管LLM在某些方面表现出优势,仍无法完全取代人类标注。文章还讨论了聚合模型标注与人类标注在速度、准确性、成本和偏见方面的权衡。
LLMDrift是一个项目,旨在研究大型语言模型(如GPT-3.5和GPT-4)的性能漂移,特别关注其性能可能随时间下降的趋势及其影响。
集合了基于大型语言模型(LLM)评估方法的综合调研项目,旨在为开发者、研究者和实践者提供如何有效利用LLM作为评估工具的资源。
SciPhi旨在支持大型语言模型(LLMs)的训练和评估,提供了数据生成和模型输出评估两个关键功能,帮助用户高效地生成合成数据,并对模型的性能进行稳健的评估。
Amazon Foundation Model Evaluations Library,用于评估大型语言模型(LLMs),帮助选择最适合您用例的LLM。该库提供多种评估功能,覆盖开放式生成、文本摘要、问答和分类任务,旨在帮助用户全面了解不同模型在特定任务上的表现。
一款免费开源工具,旨在帮助用户快速验证大语言模型生成内容的准确性,类似于为事实准确性而生的Grammarly。该工具提供实时内容检查,支持多种语言,且界面友好,易于使用。
在部署语言模型前,评估其在特定领域生成事实性信息的能力很重要。我们提出了方法,通过语料库转换自动生成,以评估模型从语料库生成真实事实而非不正确陈述的能力。我们创建了两个基准,并发现基准分数与模型大小和检索增强相关,但在模型排名上并不总是与困惑度一致。
Katana ML Skipper 是一个简单且灵活的机器学习工作流引擎,支持多种机器学习任务,具有强大的可扩展性,能够轻松集成其他工具和库,帮助用户高效地创建和管理机器学习工作流。
RoRF路由森林是一个基于随机森林的模型路由框架,能够通过智能选择不同模型来降低成本,同时保持或提升性能,特别适用于大规模语言模型(LLM).
RLAIF通过人工智能反馈扩展人类反馈的强化学习,表明可以在不依赖人类注释者的情况下产生与RLHF相当的改进。
TokenLimits是一个网站,允许用户探索不同AI模型的令牌限制。它提供关于各种AI模型的最大令牌、字符和单词数量的信息,帮助用户了解在不同文本模型(如ChatGPT Plus、GPT-4、GPT-3.5-Turbo、GPT-3和Codex)中可以输入的内容限制。此外,该网站还提供图像提示模型(如Stable Diffusion)和嵌入模型(如Ada-002)的令牌限制。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型