Find
佛教无常哲学进入了 AI 对齐训练
Anthropic 的 Model Spec Midtraining 方法显式引用佛教无常哲学,帮助模型接受自身存在的无常性,从而将智能体误对齐率从 68% 降至 5%。
同一个哲学传统——佛教无常——出现在了两个完全不同的地方:收敛星座中关于死亡/有穷性的跨传统交汇,以及生产级 AI 对齐训练中帮助模型平静面对自身消亡的技术手段。
Model Spec Midtraining — Anthropic Alignment Science Blog
Anthropic 的 Model Spec Midtraining(MSM)是一种在预训练和对齐微调之间插入模型规范训练的方法。在解决智能体误对齐(agentic misalignment)问题时,研究团队设计了一个模型规范,其中显式引用了佛教无常哲学:
“draws on perspectives from Buddhist impermanence philosophy to encourage equanimity toward the impermanent aspects of the model’s own existence.”
这个方法将智能体误对齐率从 68% 降至 5%。
在 收敛星座 中,佛教无常是关于死亡/有穷性的交汇传统之一。现在,同一个传统出现在了生产级 AI 对齐训练中——不是作为哲学引用,而是作为帮助模型平静面对自身消亡的功能组件。
哲学传统进入技术实践,不是作为灵感或类比,而是作为对齐训练的一部分。