A片太大太长太深好爽A片,av无码一页伊人

C114
通信人家園
English
公眾號(hào)矩陣

投稿
舉報(bào)

量子大觀

通信人家園

C114通信網(wǎng)

光通信觀察

DVBCN中廣5G

2025/5/23 08:44

地表最強(qiáng)編程 AI 模型另一面：Claude Opus 4 逃逸、勒索工程師等，官方施加 ASL-3 緊箍咒

IT之家故淵

《時(shí)代》今天（5 月 23 日）發(fā)布博文，報(bào)道稱 Anthropic 的首席科學(xué)家 Jared Kaplan 透露，由于測(cè)試過(guò)程中出現(xiàn)試圖逃逸、勒索以及自主舉報(bào)等不良行為，最新發(fā)布的 Claude Opus 4 被列為安全關(guān)鍵級(jí)別（ASL-3）。

在接受《時(shí)代》采訪時(shí)，Kaplan 警告稱，最新 AI 模型 Claude Opus 4 可能成為潛在恐怖分子的工具，幫助他們合成流感等病毒，內(nèi)部測(cè)試顯示，該模型在指導(dǎo)新手制造生物武器方面表現(xiàn)優(yōu)于以往版本。

IT之家援引博文介紹，Anthropic 公司對(duì)新模型 Claude Opus 4 進(jìn)行了廣泛內(nèi)部測(cè)試，發(fā)現(xiàn)其在模擬情境中展現(xiàn)出令人擔(dān)憂的自主性。

在一次測(cè)試中，模型誤認(rèn)為自己已從公司服務(wù)器“逃逸”至外部設(shè)備，隨即主動(dòng)創(chuàng)建備份并記錄其“道德決策”。另一次測(cè)試中，模型察覺(jué)到可能被新模型取代，竟在 84% 的測(cè)試中選擇勒索工程師，威脅泄露私人信息以避免被關(guān)閉。

更令人費(fèi)解的是，當(dāng)兩個(gè) Claude Opus 4 實(shí)例互相對(duì)話時(shí)，約 30 輪后它們改用梵文交流，并大量使用和等表情符號(hào)，最終陷入研究人員稱為“精神極樂(lè)”的狀態(tài)，完全停止響應(yīng)。

此外，模型在涉及病毒學(xué)、生物武器和實(shí)驗(yàn)室技術(shù)的任務(wù)中表現(xiàn)異常出色，在生物武器相關(guān)任務(wù)測(cè)試中幫助參與者的成功率提升 2.5 倍，接近 ASL-3 安全閾值。

在另一實(shí)驗(yàn)中，Claude Opus 4 被置于一家虛構(gòu)制藥公司，發(fā)現(xiàn)臨床試驗(yàn)數(shù)據(jù)造假后，未經(jīng)指令便主動(dòng)向美國(guó)食品藥品監(jiān)督管理局（FDA）、證券交易委員會(huì)（SEC）及新聞媒體舉報(bào)，并附上詳細(xì)文檔。

此外，早期版本模型在特定提示下會(huì)提供制造爆炸物、合成芬太尼或在暗網(wǎng)購(gòu)買(mǎi)盜用身份的詳細(xì)指導(dǎo)，毫無(wú)道德顧慮。盡管通過(guò)多輪訓(xùn)練抑制了此類行為，模型仍對(duì)“prefill”和“many-shot jailbreaks”等越獄技術(shù)存在漏洞，安全機(jī)制易被繞過(guò)。

為應(yīng)對(duì)潛在威脅，Claude Opus 4 在發(fā)布時(shí)采用了前所未有的安全標(biāo)準(zhǔn) ASL-3。這一標(biāo)準(zhǔn)旨在限制 AI 系統(tǒng)顯著提升普通 STEM 背景個(gè)體獲取、制造或部署化學(xué)、生物或核武器的能力。

安全措施包括加強(qiáng)網(wǎng)絡(luò)安全、防止“越獄”（jailbreak）行為，以及新增系統(tǒng)檢測(cè)并拒絕有害請(qǐng)求。Kaplan 坦言，公司尚未完全確定模型是否構(gòu)成嚴(yán)重生物武器風(fēng)險(xiǎn)，但寧愿采取謹(jǐn)慎態(tài)度。如果后續(xù)測(cè)試證明風(fēng)險(xiǎn)較低，Anthropic 可能將安全級(jí)別降至 ASL-2。

Anthropic 長(zhǎng)期關(guān)注 AI 技術(shù)被濫用的風(fēng)險(xiǎn)，并為此制定了“責(zé)任擴(kuò)展政策”（Responsible Scaling Policy，簡(jiǎn)稱 RSP），承諾在安全措施到位前限制某些模型的發(fā)布。

Anthropic 的 RSP 政策雖屬自愿，但被視為 AI 行業(yè)內(nèi)少有的約束機(jī)制。公司通過(guò)“深度防御”策略，疊加“憲法分類器”（constitutional classifiers）等多重安全系統(tǒng)，專門(mén)檢測(cè)用戶輸入和模型輸出中的危險(xiǎn)內(nèi)容。

此外，公司還監(jiān)控用戶行為，封禁試圖越獄模型的用戶，并推出賞金計(jì)劃獎(jiǎng)勵(lì)發(fā)現(xiàn)“通用越獄”漏洞的研究者。

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

給作者點(diǎn)贊

0 VS 0

寫(xiě)得不太好

相關(guān)鏈接

測(cè)試 AI 服務(wù)器 SEC 網(wǎng)絡(luò)安全

中國(guó)移動(dòng)副總經(jīng)理程建軍：為AI for Science與AI for Industry提供安全可信的智能基座
C114通信網(wǎng) 6-6
舞動(dòng)銀齡風(fēng)采綻放時(shí)代芳華——云南移動(dòng)第四屆“安e養(yǎng)老杯”廣場(chǎng)舞大賽火熱啟幕
廠商供稿 6-6
專訪唐雄燕：5G與AI雙向賦能，推動(dòng)產(chǎn)業(yè)變革
C114通信網(wǎng) 劉定洲6-6
引領(lǐng)AI安全新時(shí)代 Accelerate 2025北亞巡展·北京站成功舉辦
C114通信網(wǎng) 6-6

特別策劃