开发一种方法,使大型语言模型(LLM)能够经过深思熟虑的推理过程,纠正错误的反应,从而减少产生幻觉(不真实信息)的可能性。该项目旨在通过分步推理和验证机制,提升LLM的准确性和可靠性。
TrustLLM专注于LLM(大型语言模型)的可信度研究,制定了不同维度的评估原则,并建立了涵盖真实性、安全性、公平性、鲁棒性、隐私性和机器伦理六个维度的基准评估。
Inferflow是一个高效且高度可配置的大型语言模型推理引擎,旨在优化推理性能,支持多种自定义配置,以满足特定需求。
FacTool是一个专为生成式AI设计的事实性检测工具,旨在多任务和多领域场景下进行事实错误检测。它支持多种任务,包括基于知识的问答、代码生成、数学推理和科学文献综述等,提供细粒度的事实定义,并在事实检查过程中提供明确的证据。
PromptJoy是一个开源工具,主要用于记录LLM请求以便检查输出,并且能够轻松进行A/B测试,以找出最佳提示。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型