Sleeper Agents项目旨在训练能够在安全培训中持续学习和适应的欺骗性大语言模型,以测试和研究其在不同环境中的表现和潜在威胁。该项目使用先进的机器学习技术,分析大语言模型的长期潜在威胁,确保其安全性。