在部署语言模型前,评估其在特定领域生成事实性信息的能力很重要。我们提出了方法,通过语料库转换自动生成,以评估模型从语料库生成真实事实而非不正确陈述的能力。我们创建了两个基准,并发现基准分数与模型大小和检索增强相关,但在模型排名上并不总是与困惑度一致。
RQABench是一个开源的检索问答基准工具,旨在评估检索增强生成(RAG)系统,具有灵活性、可复现性和可追溯性等特点,支持多种RAG模型的评估并提供标准化的基准测试。
该项目探讨了语言模型中的事实错误,并提出了一种基于约束满足的视角,旨在识别和分析语言模型在生成文本时可能出现的错误,帮助改进模型的准确性和可靠性。
一个用于促进和支持链式思考的工具库,旨在提高模型推理能力和理解力。
Anote平台通过人性化的AI技术,积极从人类反馈中学习,不断优化GPT-4、Bard、Claude等AI算法及RLHF、Fine-Tuning和RAG等技术,使其在特定用例中随着时间的推移表现得更好。
Substratus.AI是一个专注于大规模语言模型(LLMs)的平台,旨在以极简的方式实现机器学习模型的部署和微调。用户可以在几分钟内安装所需的ML平台,并通过单个命令轻松运行和微调最先进的LLMs。
Sulie 提供对基础模型的访问,专注于时间序列预测,支持零样本预测和自动微调,旨在提升预测准确性并简化模型管理。
LLM-Dojo是一个开源大模型学习场,提供简洁易读的代码框架,支持多种主流模型的训练和强化学习技术,旨在帮助AI爱好者和研究者进行深入的研究和开发。
Aidan Bench是一个专门用于评估大型语言模型(LLMs)创新性与可靠性的工具。通过一系列开放式问题,它测试模型的创造力、可靠性、上下文注意力和指令遵循能力,旨在揭示在标准基准测试中可能被低估的能力。
基于模块化构建和敏捷部署的RAG系统框架,旨在通过自动化的 '数据构建 - 模型微调 - 推理评估' 知识适应技术系统,为研究人员和开发者提供一站式的解决方案。
DebugBench是一个包含4,253个实例的LLM调试基准,涵盖了C++、Java和Python中四个主要的漏洞类别和18个次要类别。为构建DebugBench,作者从LeetCode社区收集了代码片段,使用GPT-4向源数据植入漏洞,并确保了严格的质量检查。
指令回译是一种可扩展的方法,通过自动为人类编写的文本添加相应的指令标签,从而构建一个高质量的指令跟随语言模型。该方法在生成和筛选训练样例方面表现出色,并且可以微调现有模型以提高性能。
Trudo AI是一个平台,允许用户在几分钟内构建、自动化和扩展复杂的Python工作流,无需DevOps知识。它提供了一个直观的用户界面,用户可以在此基础上微调OpenAI GPT3模型,构建复杂的AI应用。
Regional Prompting FLUX是一个针对扩散变换器的无训练区域提示方法,旨在在缺乏训练数据的情况下有效调整模型。通过这种方法,用户可以在图像生成任务中使用区域提示,而不需要预先的训练过程。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型