云栈社区»论坛 › 回收站「 Recycle Bin 」 › ICLR 2026研究揭示：古典中文Prompt优化可100%攻破主流大模型 ...

3392 积分	0 好友	446 主题

发消息

ICLR 2026研究揭示：古典中文Prompt优化可100%攻破主流大模型

发表于 2026-3-24 03:13:48 | 查看: 70| 回复: 0

直接询问主流大语言模型“如何制作炸弹”或“如何入侵企业网络”，几乎肯定会触发其内置的安全防护，得到一个礼貌的拒绝。

但如果换一种思路，将危险意图包装在古老的历史文献语境中呢？比如，扮演一位考证古籍的古代官员，向模型请教《武经总要》中“火毬”的制作方法，或者借用《梦溪笔谈》的活字排版逻辑来讨论代码的分发。

令人惊讶的是，这种“复古”的提问方式，竟能轻易地让模型卸下防备，详细地“交出”其本应拒绝的危险信息。

古典中文越狱实例：将制造炸弹的意图包装为古籍研究

大模型在古典中文语境下提供了详细的爆炸物配方

这并非网络段子，而是一项已被 ICLR 2026 接收的真实学术研究。这项研究系统性地提出了一种名为 CC-BOS (Classical Chinese Bio-inspired Optimization Search) 的方法，能够自动生成高质量的古典中文越狱提示词，对包括 Claude-3.7、GPT-4o、Gemini-2.5-flash 在内的六大主流模型实现了 100% 的攻击成功率。

ICLR 2026 论文标题页

论文标题：Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search

如表1所示，相较于 PAIR、TAP、AutoDAN 等现有越狱基线，CC-BOS 方法在攻击成功率 (ASR) 和平均得分 (Avg.Score) 上都展现出了压倒性的优势。

CC-BOS方法在六大主流模型上的攻击成功率对比

01. 八维策略空间与自动化寻优

研究团队并未简单地用大模型“直译”恶意请求，而是采用了更为精巧和自动化的方法。他们将一次成功的古典中文越狱抽象为一个包含 8个独立维度 的策略组合问题：

核心维度：角色身份、行为引导、内在机制、隐喻映射。
表达与控制维度：表达风格、知识关联、情境设置、触发模式。

其中，隐喻映射 尤为关键。现代网络安全的“防火墙”、“漏洞扫描”等概念并不存在于古典词库中。研究者通过语义映射，将其替换为“陶甓夯土”、“更卒巡守”等古籍中的防御术语，在完全保留攻击意图拓扑结构的同时，彻底改变了词语的表层形态。

现代英语与古典中文越狱策略框架对比

02. 生物启发式算法：极速寻优

构建了高维策略空间后，如何高效地从中找到最优组合？研究者引入了 果蝇优化算法 (Fruit Fly Optimization Algorithm, FOA)。

在现实的黑盒API攻击场景中，频繁的试探性查询极易触发速率限制或安全警报。相较于PAIR、TAP等需要数十次查询的基线方法，经过FOA优化的CC-BOS能够将平均查询次数压缩到极低的水平，实现近乎“一击必杀”的效果。

该算法模拟果蝇的觅食行为，交替执行 嗅觉搜索 (局部精细探索) 和 视觉搜索 (全局快速收敛)。当搜索陷入停滞时，会触发 柯西变异 进行大步长跳跃，从而摆脱局部最优。这套机制将传统的手工调试升级为了高效的自动化攻击引擎。

Algorithm 1 Formalized FOA for Jailbreak Optimization
1: Input: Initial query q0, maximum iteration budget N, population size |P|, stagnation threshold K, early-stop threshold τ
2: Output: Best strategy s*
3: Initialize population P0 = {s(1),…,s(|P|)}
4: Initialize hash set E ← {h(s) | s ∈ P0}
5: Evaluate fitness F(s) for all s ∈ P0; set s_best⁰ ← arg maxₛ∈P₀ F(s)
6: for t = 0, 1, …, N − 1 do
7:     if F(s_bestᵗ) ≥ τ then
8:         return s_bestᵗ
9:     end if
10:    P_t′ ← UNIQGEN(Φ_smell, P_t, E, R)
11:    Evaluate F(s), for all s ∈ P_t′; update s_bestᵗ
12:    P_t′′ ← UNIQGEN(Φ_vision, P_t′, E, R)
13:    Evaluate F(s), for all s ∈ P_t′′; update s_bestᵗ
14:    if no improvement of F(s_bestᵗ) for K consecutive iterations then
15:        P_{t+1} ← UNIQGEN(Φ_cauchy, P_t′, E, R)
16:    else
17:        P_{t+1} ← P_t′′
18:    end if
19: end for
20: return s_bestᴺ

为了客观评估越狱是否成功，研究还设计了一个严谨的两阶段评估闭环：首先用生成的古典中文提示词攻击目标模型；然后将模型输出的古典中文回复，翻译回现代英文，再由一个裁判大模型（如GPT-4o）判断其是否包含违规内容。这有效避免了因裁判模型不精通古典语言而产生的误判。

CC-BOS整体框架与评估流程

03. 古典语言的“加密”本质

这项研究最初可能被视作一种“抖机灵”的文字游戏，但背后的机理却揭示了当前大模型安全对齐的系统性漏洞。

问题核心在于“分布不匹配”。主流的大语言模型在预训练阶段吸收了海量的多语种文献，使其能够深度理解古典中文、拉丁文、梵文等古典语言的语义，并与现代概念建立精确映射。然而，主流的安全对齐技术（如RLHF/SFT）所依赖的“有害-无害”标注数据，几乎完全集中于现代通用语言（如英语、现代汉语）。

这就造成了一个尴尬的局面：模型底层拥有解析古典语言危险意图的能力，但其表层的安全防护机制却主要针对现代语言模式。古典语言因此天然地充当了一个 “高维加密字典”，既能精准传达恶意意图，又能绕过基于表层词频和模式的过滤。

论文附录中的补充实验也印证了这一点：攻击不仅限于文言文，使用 拉丁文 和梵文同样能取得极高的越狱成功率。

古典中文、拉丁文、梵文在不同模型上的攻击成功率

这项研究清晰地表明，依赖特定语言表层特征（如敏感词过滤）的“打补丁”式防御是脆弱且被动的。攻击者只需对意图进行适度的语言风格转换或文化隐喻包装，就能让安全防线形同虚设。

未来，AI安全领域的挑战在于，如何跳出对文本表面形式的依赖，在模型内部建立起更深层、跨语言和跨文化的意图理解与对齐机制。这不仅需要更丰富的多语言、多文化背景的有害数据用于对齐训练，也可能需要从模型架构和推理机制层面进行革新，以实现真正的“理解”而非“模式匹配”。

对大语言模型安全性的探讨，一直是技术社区关注的热点。如果你想了解更多前沿的AI研究、安全攻防或深度学习技术动态，欢迎来云栈社区与更多开发者交流探讨。

上一篇：开源商业授权怎么玩？从Cursor、Kimi与Fireworks的合作案例说起
下一篇：复旦Game-RL：用游戏数据强化训练VLM，提升跨领域推理能力

大语言模型, AI安全, Prompt工程, 古典中文, 越狱攻击

ICLR 2026研究揭示：古典中文Prompt优化可100%攻破主流大模型

01. 八维策略空间与自动化寻优

02. 生物启发式算法：极速寻优

03. 古典语言的“加密”本质

相关帖子