MOSS-RLHF项目专注于研究大语言模型的强化学习从人类反馈(RLHF)机制,详细探讨了Proximal Policy Optimization (PPO)的内部运作,并提供了相关的代码实现,旨在推动对RLHF的理解和应用。
LMQL是一种专门为大型语言模型(LLMs)设计的查询语言,结合了自然语言提示和Python的表达能力。它提供了约束、调试、检索和控制流等功能,以便于与LLMs的交互。
通过增强推理和信息获取能力,AutoAgents旨在提升大型语言模型(LLM)在处理复杂问题时的表现。这一项目通过结合多种算法和技术,帮助用户更有效地获取信息并进行深入推理,适用于多种语言模型的应用场景。
ProbSem是一个利用大型语言模型(LLMs)为查询字符串分配上下文条件概率分布的框架,默认支持所有OpenAI引擎和HuggingFace CausalLM模型。
基于Andrej Karpathy的GPT-2实现和训练,添加大量注释以帮助理解模型原理,计划逐步增加更多功能。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型