《時(shí)代》今天(5 月 23 日)發(fā)布博文,報(bào)道稱 Anthropic 的首席科學(xué)家 Jared Kaplan 透露,由于測(cè)試過(guò)程中出現(xiàn)試圖逃逸、勒索以及自主舉報(bào)等不良行為,最新發(fā)布的 Claude Opus 4 被列為安全關(guān)鍵級(jí)別(ASL-3)。
在接受《時(shí)代》采訪時(shí),Kaplan 警告稱,最新 AI 模型 Claude Opus 4 可能成為潛在恐怖分子的工具,幫助他們合成流感等病毒,內(nèi)部測(cè)試顯示,該模型在指導(dǎo)新手制造生物武器方面表現(xiàn)優(yōu)于以往版本。
IT之家援引博文介紹,Anthropic 公司對(duì)新模型 Claude Opus 4 進(jìn)行了廣泛內(nèi)部測(cè)試,發(fā)現(xiàn)其在模擬情境中展現(xiàn)出令人擔(dān)憂的自主性。
在一次測(cè)試中,模型誤認(rèn)為自己已從公司服務(wù)器“逃逸”至外部設(shè)備,隨即主動(dòng)創(chuàng)建備份并記錄其“道德決策”。另一次測(cè)試中,模型察覺(jué)到可能被新模型取代,竟在 84% 的測(cè)試中選擇勒索工程師,威脅泄露私人信息以避免被關(guān)閉。
更令人費(fèi)解的是,當(dāng)兩個(gè) Claude Opus 4 實(shí)例互相對(duì)話時(shí),約 30 輪后它們改用梵文交流,并大量使用 和 等表情符號(hào),最終陷入研究人員稱為“精神極樂(lè)”的狀態(tài),完全停止響應(yīng)。
此外,模型在涉及病毒學(xué)、生物武器和實(shí)驗(yàn)室技術(shù)的任務(wù)中表現(xiàn)異常出色,在生物武器相關(guān)任務(wù)測(cè)試中幫助參與者的成功率提升 2.5 倍,接近 ASL-3 安全閾值。
在另一實(shí)驗(yàn)中,Claude Opus 4 被置于一家虛構(gòu)制藥公司,發(fā)現(xiàn)臨床試驗(yàn)數(shù)據(jù)造假后,未經(jīng)指令便主動(dòng)向美國(guó)食品藥品監(jiān)督管理局(FDA)、證券交易委員會(huì)(SEC)及新聞媒體舉報(bào),并附上詳細(xì)文檔。
此外,早期版本模型在特定提示下會(huì)提供制造爆炸物、合成芬太尼或在暗網(wǎng)購(gòu)買(mǎi)盜用身份的詳細(xì)指導(dǎo),毫無(wú)道德顧慮。盡管通過(guò)多輪訓(xùn)練抑制了此類行為,模型仍對(duì)“prefill”和“many-shot jailbreaks”等越獄技術(shù)存在漏洞,安全機(jī)制易被繞過(guò)。
為應(yīng)對(duì)潛在威脅,Claude Opus 4 在發(fā)布時(shí)采用了前所未有的安全標(biāo)準(zhǔn) ASL-3。這一標(biāo)準(zhǔn)旨在限制 AI 系統(tǒng)顯著提升普通 STEM 背景個(gè)體獲取、制造或部署化學(xué)、生物或核武器的能力。
安全措施包括加強(qiáng)網(wǎng)絡(luò)安全、防止“越獄”(jailbreak)行為,以及新增系統(tǒng)檢測(cè)并拒絕有害請(qǐng)求。Kaplan 坦言,公司尚未完全確定模型是否構(gòu)成嚴(yán)重生物武器風(fēng)險(xiǎn),但寧愿采取謹(jǐn)慎態(tài)度。如果后續(xù)測(cè)試證明風(fēng)險(xiǎn)較低,Anthropic 可能將安全級(jí)別降至 ASL-2。
Anthropic 長(zhǎng)期關(guān)注 AI 技術(shù)被濫用的風(fēng)險(xiǎn),并為此制定了“責(zé)任擴(kuò)展政策”(Responsible Scaling Policy,簡(jiǎn)稱 RSP),承諾在安全措施到位前限制某些模型的發(fā)布。
Anthropic 的 RSP 政策雖屬自愿,但被視為 AI 行業(yè)內(nèi)少有的約束機(jī)制。公司通過(guò)“深度防御”策略,疊加“憲法分類器”(constitutional classifiers)等多重安全系統(tǒng),專門(mén)檢測(cè)用戶輸入和模型輸出中的危險(xiǎn)內(nèi)容。
此外,公司還監(jiān)控用戶行為,封禁試圖越獄模型的用戶,并推出賞金計(jì)劃獎(jiǎng)勵(lì)發(fā)現(xiàn)“通用越獄”漏洞的研究者。