RQABench是一个开源的检索问答基准工具,旨在评估检索增强生成(RAG)系统,具有灵活性、可复现性和可追溯性等特点,支持多种RAG模型的评估并提供标准化的基准测试。
Algomax是一个平台,旨在简化您的LLM和RAG模型评估,提升提示开发效率,并通过独特的定性指标洞察加速开发过程。该平台提供直观的仪表盘,便于您轻松集成到工作流程中,评估模型性能,评估引擎设计精准,能够深入洞察模型行为。
EvalsOne是一个旨在简化生成AI模型提示评估过程的工具,帮助用户进行质量控制和风险管理。在将生成AI模型投入生产环境之前,EvalsOne提供了一种高效的评估方式,以确保模型在与真实用户和数据交互时的可靠性。
关于大型语言模型(LLM)评估的指南,提供了从实践经验到理论知识的见解,旨在帮助用户确保 LLM 在特定任务上表现良好
ComplexFuncBench是一个专为复杂函数调用设计的基准测试工具,旨在解决复杂场景下的函数调用评估难题,帮助开发者优化模型性能。
CompanyDocsGPT是一个强大的AI助手,旨在简化Confluence文档的搜索和管理,提高工作效率。通过智能算法,它能快速找到所需的信息,帮助团队在文档管理中节省时间和精力,推动高效的工作流程。
Oz是一个无代码的智能会计工具,帮助用户轻松管理财务、生成报告和分析数据。
zero_nlp 是一个专注于中文自然语言处理的项目,提供全面的NLP数据处理流程,支持多种预训练模型,具备便捷的模型训练接口以及高效的推理与评估工具,适合研究与应用开发。
Entry Point AI 是一个现代化的微调平台,支持定制和管理大语言模型,用户无需编程技能即可训练和评估模型。它提供用户友好的界面,帮助用户按照具体需求优化大语言模型的表现。
carefree-flow是一个基于OneFlow的深度学习库,旨在简化模型构建与训练过程,提供高效的计算性能和友好的API设计,支持动态计算图,适合开发者快速原型和高性能训练需求。
Gradient AI 通过强大的平台革命性地简化企业数据流程,旨在以最小的努力自动化复杂的数据处理,广泛应用于房地产、医疗、金融和制造等行业。该平台能够处理结构化和非结构化数据,充分发挥数据在业务应用中的潜力。
Llama Stack 是一个开源项目,旨在将 LLM 应用构建生成周期的所有组件打包,包括训练、微调、产品评估、观测、Agent & Memory、合成数据生成等,并支持 9+ 提供商。
FLASK是一个专门用于评估语言模型在语法、语义、推理和生成等任务上表现的工具,旨在提供更准确的评估结果,揭示模型的强项和弱点,并指导语言模型的进一步发展。
Prompt2Model 是一个从自然语言指令生成可部署模型的工具,旨在帮助系统构建者通过自然语言描述任务并提供示例来创建自然语言处理系统。
Cimba.AI是一款通过自适应AI技术优化业务操作的分析工具,允许公司快速构建和部署针对特定数据需求的AI代理,从而增强决策能力和运营效率。它的无代码/低代码架构使企业能够更好地与数据互动,充分利用数据价值。
书生大模型实战营是一本全面的教程,涵盖了书生浦语大模型的使用、训练及调优技巧,提供了实战案例和代码示例,支持多种应用场景,帮助用户深入理解和应用该模型。
ai2-olmo-eval 是一个评估套件,旨在为语言模型在自然语言处理任务上运行评估管道,提供多种评估指标和详细报告,支持扩展和自定义评估。
Fireworks方案集锦,旨在帮助开发、评估和部署生成式人工智能(GenAI)模型,提供多种模型的开发方案,并支持模型评估、优化,简化部署过程,包含丰富的示例和文档资源。