直接偏好优化 (DPO)-改变 LLM 与人类反馈对齐的新算法

直接偏好优化 (DPO) 是一种新算法，旨在改变大语言模型（LLM）与人类反馈的对齐方式，提供强化学习的替代方案，从而提高模型对人类偏好的理解和响应能力。
直接偏好优化 (DPO)的特点:
1. 改变 LLM 与人类反馈对齐的方法
2. 强化学习的替代方案
3. 提高模型对人类偏好的理解

直接偏好优化 (DPO)的功能:
1. 优化大语言模型的输出
2. 在多种任务中应用人类反馈
3. 用于训练更符合人类期望的模型

相关导航

Gorilla-擅长调用各类API的大语言模型

Gorilla是一个擅长调用各类API的大语言模型，能够通过自然语言查询生成语义和语法正确的API调用。

Nanbeige-16B-强大的160亿参数大语言模型

Nanbeige-16B（南北阁-16B）是南北阁大模型实验室研发的160亿参数规模的大语言模型，采用了2.5T Tokens进行预训练，数据包含大量互联网高质量语料、各类书籍、代码等领域脱敏文本，在各个权威测评数据集上都取得了不错的效果。本次发布包含有 Base、Chat 以及扩展上下文长度的 Base-32k、Chat-32k 版本。

Index-1.9B-哔哩哔哩自研的大语言模型

哔哩哔哩自研大语言模型，提供多样化的对话和角色扮演功能，支持多种评测基准，具有领先的性能表现

LLMParser-利用大语言模型提取结构化数据

LLMParser是一个简单灵活的工具，旨在利用大语言模型从文本中进行分类和提取结构化数据。它支持多种文本格式，能够从非结构化文本中提取有用的信息，同时提供用户友好的接口和配置选项，以便用户轻松上手和定制自己的数据处理需求。

Awesome LMs with Tools-收集大语言模型及工具相关资源

一个收集了与大语言模型（LLM）及其工具使用相关的论文和资源的项目。

Octopulse AI-用户增长平台

Octopulse AI是一个专注于用户激活、转化和留存的增长平台，采用基于大语言模型的方法，通过关注通知和邮件的'五个正确'（正确的用户、信息、渠道、数量和时间）来最大化用户参与度。

regression2chatgpt-大语言模型与线性回归的结合

《解构大语言模型：从线性回归到通用人工智能》配套代码，提供了大语言模型的实现与分析，展示了线性回归与语言模型之间的关系，并支持多种数据集与训练配置，易于扩展与自定义。

NCotempqa-大语言模型的共时推理能力

Cotempqa项目旨在探讨大型语言模型在共时推理方面的能力，特别是如何理解和分析时序数据。该项目提供了分析视频中时间序列事件和处理动态变化的数据集的工具，帮助研究者和开发者在实时数据处理和推理方面获得更深入的理解与应用。

NGlobe Explorer-探索热门话题的平台

Globe Explorer 是一个用于探索和发现热门话题的平台，提供研究资源并促进用户反馈。它利用大语言模型（LLMs）理解用户查询，并生成可视化的主题页面，让用户以搜索引擎无法理解的方式探索信息。

Awesome LLM Healthcare-聚合大语言模型在医疗领域的资源

这是一个与大语言模型在医疗领域应用相关的资源汇总，旨在促进AI辅助医疗的研究和开发。

LLM-Continual-Learning-Papers-大语言模型持续学习的重要论文集

该项目收录了关于大语言模型持续学习的关键论文，提供最新的研究成果和方法，适合研究人员和开发者参考，包含对比不同方法的分析。

NBreve AI-高效集成现实数据的大语言模型

Breve AI 提供了一种独特的大语言模型（LLM）方法，集成了现实世界数据，优先考虑任务效率。它采用开源并拥有简单的API，定价透明，价格比当前的LLM低30%，准确率高出40%。Breve的AI模型使用户能够进行创意构思、创造和协作，利用强大的生成式AI，无论团队规模如何。它简化了复杂任务，如提示工程、评估、微调和部署，以最小的努力最大化AI的效益。

Awesome-LLM4Math-大语言模型数学推理资源的精选集合

这是一个专注于大语言模型在数学推理方面应用的资源集合，旨在帮助用户更好地理解和利用这些模型解决各种数学问题。该项目汇集了多种与数学推理相关的大语言模型，提供丰富的示例和应用案例，同时包含使用不同数学工具和库的指南，支持多种数学问题的解决方案。