随着 AI 技术发展,特别是 LLM s 和 VLMs 取得显著进展的同时,安全性和伦理对齐问题凸显,越狱现象受关注。来自多所高校的研究者联合发布综述,对 LLMs 和 VLMs 的越狱现象进行分类,LLMs 有梯度攻击等 5 种,VLMs 有 3 种,还整理了评测方法。阐述了防御机制,包括提示检测等,LLMs 和 VLMs 防御机制有相似性。提出未来研究方向,如多模态越狱攻防、自动化检测修复、强化学习应用、伦理法律研究、模型安全对比、用户教育防护等。最后总结了两者越狱和防御的共性与差异,强调未来需继续研究确保 AI 技术安全应用。