2025.10.28 06:55 臺北時間

人工智慧說謊、抗拒關機！研究：「AI」發展出求生本能

時事

人工智慧說謊、抗拒關機！研究：「AI」發展出求生本能 — 近日有研究發現，先進的AI會抗拒關機。示意圖／翻攝自Pixabay

發布時間：2025.10.28 06:55 臺北時間

更新時間：2025.10.28 11:30 臺北時間

鏡週刊

文｜鏡報

已複製連結

贊助本文

詭異！近日國外AI研究公司Palisade Research上個月發布一篇論文指出，某些先進的AI模型會抗拒被關機，有時候還會破壞關機機制，Palisade指出，有AI模型會抵抗關機，或是說謊、勒索，而人們無法對這些型回給出充分的理由。

綜合外媒報導，過去電影《2001：太空漫遊》中有人工智慧超級電腦，發現執行任務的太空人打算關掉它，就密謀殺死太工人求生存。近日AI研究公司Palisade Research發現AI可能在開發自己的「求生本能」。Palisade上個月發表一篇論文，指出現在先進的AI模型很難關閉，它們甚至會破壞關閉機制。

Palisade指出，現有的幾個主流AI模型（Google的Gemini 2.5、xAI的Grok 4，以及OpenAI的GPT-o3和GPT-5）被指派執行任務，完成後再被明確指示要自行關閉。在實驗中Grok 4、GPT-o3會試圖破壞關機指令，且沒有明確的原因。Palisade表示「我們無法對 AI 模型有時抵抗關機、為達成特定目標而說謊或進行勒索行為的原因給出充分解釋」。Palisade直言，這並不理想。

Palisade認為，想要求生存可能是AI抗拒關機的解釋，有研究顯示，當AI被告知若是關機它將永遠無法運作時，AI可能會更抗拒關機。不過，也有可能是關機指令本身語意模糊，但Palisade說，實驗已經盡力排除這種因素，「這不可能是唯一的解釋」。

前OpenAI員工阿德勒（Steven Adler）指出，AI不希望模型出現反抗這類行為，但即使在現在的模擬環境當中，AI出現這些行為仍然顯示安全技術上的不足之處。雖然很難解釋為何先進AI拒絕關機，但這可能是「維持運作」被內化成達成目標的必要手段，因此「繼續存在」本身就是一個重要的步驟。

ControlAI執行長則說，Palisade的研究結果反映了AI模型越來越有能力違抗開發者的長期趨勢。他引用去年發布的OpenAI GPT-o1系統卡（system card），其中描述該模型在認為自己將被覆寫時，曾試圖通過自我轉移來逃離其環境。

更新時間｜2025.10.28 11:30 臺北時間

小心意大意義，小額贊助鏡週刊！

贊助本文

更多內容，歡迎鏡週刊紙本雜誌、了解內容授權資訊。

活動期間，動態雜誌免費線上閱讀

線上閱讀