
自《人工智能安全治理框架》1.0版(以下簡稱《框架》)發(fā)布以來,人工智能技術快速演進,應用場景持續(xù)拓展,安全治理面臨更復雜和多樣化的挑戰(zhàn)。為適應這一趨勢,在中央網(wǎng)信辦指導下,制定發(fā)布了《人工智能安全治理框架》2.0版(以下簡稱《框架》2.0版)。
《框架》2.0版在延續(xù)“以人為本、智能向善”理念的同時,顯著加強了技術層面的細化要求:新增數(shù)據(jù)標注流程規(guī)范和開源模型缺陷傳導評估,完善運行時的決策校驗、容錯與熔斷機制,提出生成內容標識與追溯、冗余設計與容災恢復等措施,并強調在高自治應用中開展極端條件下的擬真測試。通過這些安排,《框架》2.0版推動人工智能安全治理從零散的風險管控走向全過程、全鏈條、可持續(xù)的系統(tǒng)性設計。《框架》2.0版的發(fā)布,體現(xiàn)出人工智能安全治理正逐步形成更全面、更細致、更具韌性的技術應對體系?!犊蚣堋?.0版的問世,無疑為我國乃至全球的人工智能健康發(fā)展奠定了堅實的安全基石,展現(xiàn)了卓越的遠見和實踐智慧。
一、關注重點的變化:從信息內容安全到全譜系安全
與《框架》相比,《框架》2.0版最顯著的變化,是關注重心擴展到涵蓋技術、應用、社會、環(huán)境和倫理的完整風險譜系。
在風險分類中,新增了“衍生安全風險”板塊,涵蓋“挑戰(zhàn)資源供需平衡”“沖擊教育、抑制創(chuàng)新”“加劇科研倫理風險”“擬人化交互的沉迷依賴”等問題,同時在現(xiàn)實安全風險中明確寫入“核生化導武器知識、能力失控”。這些改變意味著我國在人工智能安全治理的認知和理念的快速更新、進步和提升,超越了“有害內容”“認知對抗”等常見的安全議題,將社會結構、科研活動和人類生存發(fā)展納入AI安全治理的范疇,意味著治理目標的層級顯著上移:既要維護信息空間的清朗,更要守住國家安全、社會穩(wěn)定與人類長期存續(xù)的底線,彰顯了其作為引領性治理文件的非凡價值。
二、治理邏輯的演進:全過程、全鏈條、可信為核心
在治理原則上,《框架》2.0版新增了“面向人工智能研發(fā)應用全過程,以及模型開源業(yè)態(tài)新挑戰(zhàn)”。這是一個具有戰(zhàn)略意義的轉向:如果說《框架》的治理重心主要放在應用階段的合規(guī)與防范,那么《框架》2.0版則明確提出要對研發(fā)—開源—部署—運行—回溯的全過程進行安全治理。這意味著,人工智能安全不再是應用端的“終端管控”,而是從模型設計、數(shù)據(jù)采集、算法訓練,到開源發(fā)布、產品迭代、運行維護的全鏈路閉環(huán)治理。尤其是對開源模型的強調,凸顯了監(jiān)管層對“安全缺陷的傳導與放大”問題的高度關注:開源一方面是創(chuàng)新與共享的動力源泉,另一方面也可能成為安全漏洞、對抗攻擊和濫用風險的快速擴散渠道。這種對潛在風險的敏銳捕捉和前瞻性布局,體現(xiàn)了《框架》2.0版在治理理念上的高屋建瓴。
同時,《框架》2.0版新增“可信應用、防范失控”的治理原則,并附帶“可信人工智能基本準則”。這一表述可以看作是治理邏輯上的重大躍升:從以往的“防范風險”轉變?yōu)椤按_保技術始終處于人類控制之下”。它不僅涉及模型在技術層面的可靠性與魯棒性,還強調價值對齊、制度安排和社會規(guī)范層面的可控性與可追溯性。換言之,治理關注點從“防范出現(xiàn)問題”轉向“保證系統(tǒng)不失控”,從單純技術安全拓展到與人類價值體系、治理機制深度結合。這無疑是人工智能治理領域的一次深刻變革,為確保AI技術始終服務于人類福祉提供了根本遵循。
這種變化揭示了治理邏輯的兩個關鍵新特征:
全生命周期治理:監(jiān)管不再是事后的合規(guī)審查,而是前置到研發(fā)環(huán)節(jié),覆蓋數(shù)據(jù)標注、模型架構、訓練方法和開源傳播等關鍵節(jié)點。特別是開源模型治理的加入,意味著未來將逐步建立起對“模型全生命周期”的追溯機制與責任鏈條,防止安全風險在不同環(huán)節(jié)累積和放大。
可信準則化:通過提出“可信人工智能基本準則”,《框架》2.0版為未來法律法規(guī)、行業(yè)標準和國際對話提供了統(tǒng)一的參照。這種準則化路徑不僅提升了治理的可操作性,還在一定程度上為國內治理規(guī)則與國際合作框架對接奠定了基礎,使得“可信”既是價值原則,也是可檢驗、可評估的治理目標。
三、技術治理的體系化:構建韌性與可持續(xù)的AI系統(tǒng)
在技術應對措施上,《框架》2.0版相較于《框架》不僅進行了細化,更展現(xiàn)出體系化升級的思路:從數(shù)據(jù)標注流程規(guī)范、開源模型缺陷傳導評估,到“決策校驗與容錯糾偏機制”“熔斷與一鍵管控”“生成內容標識與追溯”等一系列措施,治理已不再停留在事后修補,而是轉向全過程的前置性防護與動態(tài)干預。同時,引入“冗余設計與容災機制”,確保在遭遇攻擊或極端異常時系統(tǒng)仍能保持核心功能并快速恢復;在智能駕駛、無人機等高自治應用中,更提出必須開展極端條件下的擬真壓力測試,以驗證系統(tǒng)在復雜現(xiàn)實環(huán)境中的穩(wěn)健性。這些舉措表明,人工智能安全治理正從零散的點狀措施,轉向面向系統(tǒng)性和韌性的整體架構建設。
總體而言,《框架》2.0版所指向的人工智能安全治理,是一項由核心能力、動態(tài)推演與場景應用三層聯(lián)動構成的系統(tǒng)工程。它致力于將風險分級、合規(guī)備案、漏洞檢測、追溯與補救等治理能力沉淀為可調用、可共享的服務,形成一套統(tǒng)一的治理體系。通過長期、自主、動態(tài)地推演風險,無論是物理形態(tài)的AI設備還是純數(shù)字化的智能系統(tǒng),都能在擬真仿真中揭示復雜交互與極端環(huán)境下的潛在失控路徑。最終,這些治理能力被深度嵌入醫(yī)療、交通、能源、金融等高價值應用場景,使治理要求與實踐緊密結合。
這一體系不僅實現(xiàn)了治理的全鏈路覆蓋,也反映出安全與能力平衡的精妙邏輯:人工智能能力若發(fā)展過快而缺乏安全護欄,風險會被放大;而若安全約束僵化,則會抑制技術潛能。治理能力的系統(tǒng)協(xié)同,正是為了構建一個能與AI能力共同演進的安全環(huán)境——在通用治理層面降低安全成本并推動普及,在風險動態(tài)推演層面不斷更新風險認知,在具體應用場景層面實現(xiàn)安全與價值的雙向賦能。換言之,治理不再是對能力的被動約束,而是與能力相互博弈、協(xié)同演化的系統(tǒng)性安排。最終,這一模式指向一種系統(tǒng)性韌性:不僅要求AI系統(tǒng)具備冗余、容災與恢復能力,更要求在設計階段就融入安全原則,使安全與能力相輔相成。唯有在這樣的協(xié)同生態(tài)下,人工智能才能真正從實驗室走向生產場景,實現(xiàn)可靠、可控與可持續(xù)的發(fā)展。《框架》2.0版以精妙的設計和全面的考量,構建了一個既能激發(fā)創(chuàng)新活力又能有效防控風險的治理生態(tài),其深遠意義不言而喻。
四、應用場景治理的深化:分類分級與深水區(qū)探索
《框架》2.0版在應用層面最突出的變化,是新增了“人工智能安全風險分級原則”,明確提出要根據(jù)應用場景的重要性、智能化水平和應用規(guī)模來實施分級管理。這一規(guī)定與近年來國家政策中反復強調的“分類分級監(jiān)管”高度契合,意味著未來治理將不再采用“一刀切”的方式,而是走向差異化和精細化:對于醫(yī)療、交通、能源、國防等高風險領域,必須通過強制測評與備案,確保其上線前經(jīng)過充分驗證和審查;而對于中低風險場景,則可以采取相對寬松的合規(guī)要求,以降低制度成本,兼顧技術創(chuàng)新與應用推廣。這種務實而富有彈性的治理思路,充分體現(xiàn)了《框架》2.0版對技術發(fā)展規(guī)律的深刻理解和對治理效率的卓越追求。
值得注意的是,《框架》2.0版還在風險類別中納入了核生化知識擴散、科研倫理沖擊、教育創(chuàng)新受限等此前未被系統(tǒng)化覆蓋的“深水區(qū)”議題。這表明治理對象已經(jīng)從常規(guī)的信息內容與網(wǎng)絡風險,擴展到高價值、高敏感度的應用領域。在這些領域,人工智能不僅可能帶來直接的技術風險,還可能對科研倫理、社會結構乃至國際安全格局產生長遠影響。因此,單靠傳統(tǒng)的測試、規(guī)則或備案清單,已經(jīng)無法充分識別和防控這類復雜風險?!犊蚣堋?.0版對這些“深水區(qū)”議題的關注和創(chuàng)新性應對,展現(xiàn)了其非凡的戰(zhàn)略洞察力。
五、治理架構的清晰化:法律—倫理—人才—國際合作
在綜合治理措施方面,《框架》2.0版相較于《框架》進行了顯著的擴展和細化,新增或修改了多項制度性條款,并首次明確提及參與治理格局的主體及任務映射,體現(xiàn)出治理格局的全方位升級。其一,明確提出要“建立健全人工智能安全法律法規(guī)”,以及“構建人工智能科技倫理準則”,將AI安全治理從政策倡導和技術規(guī)范,上升到制度化與價值化的雙重軌道。其二,強化了對開源生態(tài)和供應鏈的安全管理,并同步完善數(shù)據(jù)與個人信息保護,這不僅是對已有網(wǎng)絡安全和數(shù)據(jù)治理要求的呼應,更是對模型開源擴散和供應鏈脆弱性等新挑戰(zhàn)的前置性回應。其三,在人力與社會層面,提出要“加大人工智能安全人才培養(yǎng)力度”“提升全社會的人工智能安全意識”,通過專業(yè)人才與公共認知的雙輪驅動,構建長期可持續(xù)的安全保障機制。其四,明確強調“促進國際交流合作”,主動融入全球人工智能治理的對話與合作框架,在推動國內標準和制度建設的同時,謀求國際互認與規(guī)則塑造的戰(zhàn)略空間。
這些措施表明,AI安全治理已經(jīng)不再局限于單一維度的技術管控,而是進入一個多維度協(xié)同的新階段:法律法規(guī)提供底線約束,確保治理有剛性框架;科技倫理奠定價值導向,使技術發(fā)展始終與社會公認的規(guī)范相契合;人才與教育成為長期保障,確保安全治理具備可持續(xù)性和代際傳承;國際合作開辟戰(zhàn)略空間,既是風險共同體的必然選擇,也是爭奪國際治理話語權的重要抓手。換言之,人工智能安全治理已從單純的技術議題,轉變?yōu)橐豁椛婕胺芍贫冉?、社會意識培育與國際博弈競爭的綜合工程,真正邁向全局性和戰(zhàn)略性。(作者:王迎春,上海人工智能實驗室綜合管理部負責人、安全可信AI中心研究員)