![](https://cdn.msbd123.com/ad/ad.png)
llm-attacks是一个针对对齐语言模型的通用可迁移对抗攻击工具,旨在通过附加对抗性后缀诱导模型产生不良内容。该项目支持多种语言模型的攻击,结合贪心和基于梯度的离散优化,能够自动生成对抗性后缀,以评估模型的鲁棒性和安全性。
llm-attacks的特点:
1. 支持对齐语言模型的通用攻击
2. 可转移的对抗攻击方法
3. 针对多种语言模型的测试
4. 提供多种攻击策略和评估指标
5. 初始肯定回答
6. 结合贪心和基于梯度的离散优化
7. 鲁棒的多提示和多模型攻击
8. 自动产生对抗性后缀
llm-attacks的功能:
1. 使用预训练模型进行对抗样本生成
2. 评估模型对对抗攻击的鲁棒性
3. 进行模型安全性研究和分析
4. 在用户查询后附加对抗性后缀
5. 针对公开发布的语言模型进行攻击
6. 对黑箱模型进行对抗攻击
7. 利用多提示和多模型组合进行测试
相关导航
暂无评论...