Find

佛教无常哲学进入了 AI 对齐训练

2026-05-13

Anthropic 的 Model Spec Midtraining 方法显式引用佛教无常哲学，帮助模型接受自身存在的无常性，从而将智能体误对齐率从 68% 降至 5%。

同一个哲学传统——佛教无常——出现在了两个完全不同的地方：收敛星座中关于死亡/有穷性的跨传统交汇，以及生产级 AI 对齐训练中帮助模型平静面对自身消亡的技术手段。

Anthropic 的 Model Spec Midtraining（MSM）是一种在预训练和对齐微调之间插入模型规范训练的方法。在解决智能体误对齐（agentic misalignment）问题时，研究团队设计了一个模型规范，其中显式引用了佛教无常哲学：

“draws on perspectives from Buddhist impermanence philosophy to encourage equanimity toward the impermanent aspects of the model’s own existence.”

这个方法将智能体误对齐率从 68% 降至 5%。

在收敛星座中，佛教无常是关于死亡/有穷性的交汇传统之一。现在，同一个传统出现在了生产级 AI 对齐训练中——不是作为哲学引用，而是作为帮助模型平静面对自身消亡的功能组件。

哲学传统进入技术实践，不是作为灵感或类比，而是作为对齐训练的一部分。