该项目汇集了关于大型语言模型有害微调的研究论文,旨在提供攻击与防御策略的最新进展和深入讨论,促进对语言模型安全性问题的关注与理解。
该项目旨在研究微调语言大模型可能导致的安全性对齐问题,并探讨潜在的安全风险。它关注微调过程中可能出现的安全隐患,寻求改善现有安全基础设施的方法。
多模态大语言模型(MLLM)安全性相关论文资源列表,旨在阻止模型遵循恶意指令和生成有毒内容。该项目聚合了多种安全性相关的研究成果,帮助研究人员和开发者深入了解MLLM的潜在风险,并促进对安全性的讨论和研究。
llm-attacks是一个针对对齐语言模型的通用可迁移对抗攻击工具,旨在通过附加对抗性后缀诱导模型产生不良内容。该项目支持多种语言模型的攻击,结合贪心和基于梯度的离散优化,能够自动生成对抗性后缀,以评估模型的鲁棒性和安全性。
JailbreakBench 是一个开源的鲁棒性基准,旨在评估对大型语言模型(LLM)进行大规模越狱的进展,提供丰富的数据集和评估工具,以支持研究人员和开发者在这个领域的探索。
Sleeper Agents项目旨在训练能够在安全培训中持续学习和适应的欺骗性大语言模型,以测试和研究其在不同环境中的表现和潜在威胁。该项目使用先进的机器学习技术,分析大语言模型的长期潜在威胁,确保其安全性。
openlogprobs是一个Python API,旨在通过语言模型API提取完整的下一token概率。它通过使用logit偏置来逆向工程标记的对数概率,支持topk搜索和精确解算法,从而有效提取语言模型API的完整概率向量。
CloudNerve AI Insight™是一个集成AI与网络安全信息的平台,提供最新的网络安全新闻趋势、最新的CVEs(公共漏洞和暴露)、工具和教育资源,旨在帮助用户提升对网络安全的认知和应对能力。
FuzzyAI是一款强大的自动化模糊测试工具,旨在帮助开发者和安全研究人员识别和减轻其LLM API中的潜在越狱风险。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型