Hallucination Leaderboard是一个用于评估大语言模型在生成摘要时的幻觉表现的排行榜,旨在提高对模型输出质量的理解和评估方法的透明度。该项目总结了多个知名语言模型在对短文进行摘要时的幻觉产生频率,目前显示GPT-4和GPT-3.5表现最佳。