本文系统化地调查和整理了RLHF的开放问题和根本限制,介绍了实践中了解、改进和补充的技术,并提出了审计和披露标准以提高对RLHF系统的社会监督。重点强调了RLHF的局限性,并指出开发更安全的AI系统需要多方面的方法。