AI开源项目

PRM800K-提升大型语言模型推理能力的数据集

PRM800K是一个用于训练过程监督奖励模型(PRM)的数据集,旨在提高大型语言模型在复杂推理任务中的准确性,尤其是在数学问题上。该数据集包含800K个步进级标签,覆盖12K个问题的75...

PRM800K是一个用于训练过程监督奖励模型(PRM)的数据集,旨在提高大型语言模型在复杂推理任务中的准确性,尤其是在数学问题上。该数据集包含800K个步进级标签,覆盖12K个问题的75K个解决方案,使用主动学习技术选择最具信息量的数据样本进行人工注释,从而提供细粒度反馈,通过评估中间推理步骤来改进结果,最终提高解决率,从42.5%提升到78%在MATH数据集子集上。
PRM800K的特点:
1. 对基础GPT-4进行微调,以生成分隔的逐步推理
2. 提供细粒度反馈,通过评估中间推理步骤来改进结果
3. 包含800K个步进级标签,覆盖12K个问题的75K个解决方案
4. 使用主动学习技术选择最具信息量的数据样本进行人工注释
5. 提高解决率,从42.5%提升到78%在MATH数据集子集上

PRM800K的功能:
1. 对GPT-4进行微调,以调整其推理步骤的输出格式
2. 使用微调后的GPT-4生成数学问题并评估其推理步骤
3. 利用PRM800K数据集训练PRM以评估中间推理步骤
4. 应用RLHF技术改善GPT-4的推理能力
5. 通过人工反馈标记推理步骤以提高模型的性能

相关推荐

暂无评论

暂无评论...