分析攻击者如何注入恶意样本破坏模型,学习基于异常检测、鲁棒聚合等防御中毒攻击的方法。
了解如何在训练数据中植入隐藏触发器的后门攻击,以及基于神经元分析或输入过滤的防御手段。
综述深度学习模型面临的对抗攻击类型,了解白盒与黑盒威胁,以及评估模型安全性的基本方法。
研究 DAN、角色扮演、编码混淆等典型越狱攻击手法,并设计系统提示加固与输出检测等防护机制,提升大模型拒绝有害请求的能力。