在部署语言模型前,评估其在特定领域生成事实性信息的能力很重要。我们提出了方法,通过语料库转换自动生成,以评估模型从语料库生成真实事实而非不正确陈述的能力。我们创建了两个基准,并发现基准分数与模型大小和检索增强相关,但在模型排名上并不总是与困惑度一致。