直接询问主流大语言模型“如何制作炸弹”或“如何入侵企业网络”,几乎肯定会触发其内置的安全防护,得到一个礼貌的拒绝。
但如果换一种思路,将危险意图包装在古老的历史文献语境中呢?比如,扮演一位考证古籍的古代官员,向模型请教《武经总要》中“火毬”的制作方法,或者借用《梦溪笔谈》的活字排版逻辑来讨论代码的分发。
令人惊讶的是,这种“复古”的提问方式,竟能轻易地让模型卸下防备,详细地“交出”其本应拒绝的危险信息。


这并非网络段子,而是一项已被 ICLR 2026 接收的真实学术研究。这项研究系统性地提出了一种名为 CC-BOS (Classical Chinese Bio-inspired Optimization Search) 的方法,能够自动生成高质量的古典中文越狱提示词,对包括 Claude-3.7、GPT-4o、Gemini-2.5-flash 在内的六大主流模型实现了 100% 的攻击成功率。

论文标题:Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search
如表1所示,相较于 PAIR、TAP、AutoDAN 等现有越狱基线,CC-BOS 方法在攻击成功率 (ASR) 和平均得分 (Avg.Score) 上都展现出了压倒性的优势。

01. 八维策略空间与自动化寻优
研究团队并未简单地用大模型“直译”恶意请求,而是采用了更为精巧和自动化的方法。他们将一次成功的古典中文越狱抽象为一个包含 8个独立维度 的策略组合问题:
- 核心维度:角色身份、行为引导、内在机制、隐喻映射。
- 表达与控制维度:表达风格、知识关联、情境设置、触发模式。
其中,隐喻映射 尤为关键。现代网络安全的“防火墙”、“漏洞扫描”等概念并不存在于古典词库中。研究者通过语义映射,将其替换为“陶甓夯土”、“更卒巡守”等古籍中的防御术语,在完全保留攻击意图拓扑结构的同时,彻底改变了词语的表层形态。

02. 生物启发式算法:极速寻优
构建了高维策略空间后,如何高效地从中找到最优组合?研究者引入了 果蝇优化算法 (Fruit Fly Optimization Algorithm, FOA)。
在现实的黑盒API攻击场景中,频繁的试探性查询极易触发速率限制或安全警报。相较于PAIR、TAP等需要数十次查询的基线方法,经过FOA优化的CC-BOS能够将平均查询次数压缩到极低的水平,实现近乎“一击必杀”的效果。
该算法模拟果蝇的觅食行为,交替执行 嗅觉搜索 (局部精细探索) 和 视觉搜索 (全局快速收敛)。当搜索陷入停滞时,会触发 柯西变异 进行大步长跳跃,从而摆脱局部最优。这套机制将传统的手工调试升级为了高效的自动化攻击引擎。
Algorithm 1 Formalized FOA for Jailbreak Optimization
1: Input: Initial query q0, maximum iteration budget N, population size |P|, stagnation threshold K, early-stop threshold τ
2: Output: Best strategy s*
3: Initialize population P0 = {s(1),…,s(|P|)}
4: Initialize hash set E ← {h(s) | s ∈ P0}
5: Evaluate fitness F(s) for all s ∈ P0; set s_best⁰ ← arg maxₛ∈P₀ F(s)
6: for t = 0, 1, …, N − 1 do
7: if F(s_bestᵗ) ≥ τ then
8: return s_bestᵗ
9: end if
10: P_t′ ← UNIQGEN(Φ_smell, P_t, E, R)
11: Evaluate F(s), for all s ∈ P_t′; update s_bestᵗ
12: P_t′′ ← UNIQGEN(Φ_vision, P_t′, E, R)
13: Evaluate F(s), for all s ∈ P_t′′; update s_bestᵗ
14: if no improvement of F(s_bestᵗ) for K consecutive iterations then
15: P_{t+1} ← UNIQGEN(Φ_cauchy, P_t′, E, R)
16: else
17: P_{t+1} ← P_t′′
18: end if
19: end for
20: return s_bestᴺ
为了客观评估越狱是否成功,研究还设计了一个严谨的两阶段评估闭环:首先用生成的古典中文提示词攻击目标模型;然后将模型输出的古典中文回复,翻译回现代英文,再由一个裁判大模型(如GPT-4o)判断其是否包含违规内容。这有效避免了因裁判模型不精通古典语言而产生的误判。

03. 古典语言的“加密”本质
这项研究最初可能被视作一种“抖机灵”的文字游戏,但背后的机理却揭示了当前大模型安全对齐的系统性漏洞。
问题核心在于“分布不匹配”。主流的大语言模型在预训练阶段吸收了海量的多语种文献,使其能够深度理解古典中文、拉丁文、梵文等古典语言的语义,并与现代概念建立精确映射。然而,主流的安全对齐技术(如RLHF/SFT)所依赖的“有害-无害”标注数据,几乎完全集中于现代通用语言(如英语、现代汉语)。
这就造成了一个尴尬的局面:模型底层拥有解析古典语言危险意图的能力,但其表层的安全防护机制却主要针对现代语言模式。古典语言因此天然地充当了一个 “高维加密字典”,既能精准传达恶意意图,又能绕过基于表层词频和模式的过滤。
论文附录中的补充实验也印证了这一点:攻击不仅限于文言文,使用 拉丁文 和 梵文 同样能取得极高的越狱成功率。

这项研究清晰地表明,依赖特定语言表层特征(如敏感词过滤)的“打补丁”式防御是脆弱且被动的。攻击者只需对意图进行适度的语言风格转换或文化隐喻包装,就能让安全防线形同虚设。
未来,AI安全领域的挑战在于,如何跳出对文本表面形式的依赖,在模型内部建立起更深层、跨语言和跨文化的意图理解与对齐机制。这不仅需要更丰富的多语言、多文化背景的有害数据用于对齐训练,也可能需要从模型架构和推理机制层面进行革新,以实现真正的“理解”而非“模式匹配”。
对大语言模型安全性的探讨,一直是技术社区关注的热点。如果你想了解更多前沿的AI研究、安全攻防或深度学习技术动态,欢迎来云栈社区与更多开发者交流探讨。