
2025年9月,《人工智能安全治理框架》2.0版(以下簡稱《框架》2.0版)正式發(fā)布,這距離《人工智能安全治理框架》1.0版(以下簡稱《框架》)的發(fā)布僅一年有余。之所以快速迭代,是因為一年間人工智能技術出現(xiàn)了超預期的突破:例如,涌現(xiàn)出高性能推理模型,極大提升了解決復雜問題的能力;高效能輕量級模型的開源大幅降低了AI應用部署門檻,使得人工智能迅速向各行業(yè)領域滲透普及。與此同時,大模型應用形態(tài)從單一問答向嵌入業(yè)務流程的智能體演進,腦機接口等前沿技術日新月異,人機融合的智能時代不再遙不可及。但技術飛速發(fā)展的另一面,人工智能安全風險的形式、影響范圍和認知也在同步演進。為應對AI快速發(fā)展帶來的新風險、新挑戰(zhàn),在國家網(wǎng)信辦指導下,有關部門和機構及時跟蹤風險變化、調(diào)整風險分類、探索風險分級方法并動態(tài)更新防范措施,制定了《框架》2.0版。本文將從“提升”和“邏輯與意義”兩個層面,對比解讀新版框架的關鍵改進及其背后的深意。
一、《框架》2.0版相比《框架》的關鍵提升
《框架》2.0版在治理原則、風險分類、技術應對、治理機制、安全指引等方面都有重要升級。概括而言,相比《框架》,《框架》2.0版的改進主要體現(xiàn)在以下幾個方面:
一是治理原則更加完善?!犊蚣堋反_立了包容審慎、安全為先,風險導向、敏捷治理,技管結合、協(xié)同應對,開放合作、共治共享等原則。而《框架》2.0版在此基礎上新增了“可信應用、防范失控”原則。這一新增原則強調(diào)構建涵蓋技術防護、價值對齊、協(xié)同治理等層面的可信AI基本準則,確保人工智能技術演進是安全、可靠、可控的,嚴防出現(xiàn)威脅人類生存發(fā)展的失控風險,保證AI始終處于人類控制之下。這一提升表明治理理念上更加關注人工智能可信賴性以及對失控風險(如所謂“AI脫韁”情景)的前瞻防范。
二是安全風險分類更全面。《框架》將AI安全風險劃分為技術自身的內(nèi)生安全風險和應用層面的安全風險兩大類,包括模型算法缺陷、數(shù)據(jù)安全,以及AI在網(wǎng)絡、現(xiàn)實、認知、倫理等應用領域引發(fā)的風險?!犊蚣堋?.0版則在延續(xù)技術內(nèi)生風險和技術應用安全風險的基礎上,引入了“人工智能應用衍生安全風險”這一新類別。應用衍生安全風險側(cè)重于人工智能大規(guī)模應用對社會和環(huán)境帶來的次生影響,包括對勞動就業(yè)結構的沖擊、資源能源消耗的挑戰(zhàn)等社會環(huán)境風險,以及放大偏見歧視、沖擊教育創(chuàng)新等衍生倫理風險。通過增加這一類別,《框架》2.0版進一步拓展了風險邊界,將AI對宏觀社會系統(tǒng)可能造成的系統(tǒng)性風險也納入治理視野。
三是技術應對措施更豐富。新版框架強化了多項關鍵技術對策,以更有力地防范和化解AI安全風險。在模型算法層面,新增了對基礎模型缺陷傳導的重視,要求加強對基礎模型及開源模型安全缺陷向下游傳導的評估。在高風險應用場景下,《框架》2.0版提出建立“熔斷”機制和“一鍵管控”措施,當AI系統(tǒng)引入高度自主的操作能力時,可以在極端情況下迅速介入緊急停機,防止失控造成損害。此外,針對生成式AI引發(fā)的信息內(nèi)容安全問題,《框架》2.0版強調(diào)人工智能生成內(nèi)容的溯源標識,完善對合成內(nèi)容的顯式/隱式標記和追溯機制,覆蓋內(nèi)容生產(chǎn)源頭、傳播路徑和分發(fā)渠道,方便用戶識別信息來源真?zhèn)巍_@些技術對策的強化,體現(xiàn)出《框架》2.0版對模型安全漏洞擴散、AI自主性風險以及生成內(nèi)容可信度等問題的更高關注和更積極防護。
四是治理機制與工具更健全?!犊蚣堋?.0版在治理手段上新增了多項機制創(chuàng)新。其中一大亮點是風險分級原則的提出。新版框架在調(diào)整風險類型的同時,探索建立具有共識的安全風險分級方法論,從應用場景、智能化水平、應用規(guī)模等維度科學評估風險等級,并采取相應的差異化防范措施。這意味著治理者可以根據(jù)AI應用的不同場景和影響范圍來實施分類分級管理,以做到高風險嚴管、低風險松綁,提升治理的精準性和有效性。同時,《框架》2.0版構建了人工智能安全測評體系,對模型算法、安全性能和具體場景進行分層次的評估測試。例如,模型層面的測評關注魯棒性、可靠性、抗干擾性和決策透明度等內(nèi)生安全能力;應用通用層面的測評評估常見應用的安全性;場景化測評則評估特定場景下AI系統(tǒng)滿足安全要求的能力。此外,新版框架鼓勵組織開展AI安全漏洞眾測活動,匯聚各方力量發(fā)現(xiàn)潛在安全漏洞和風險。這些新增的治理工具為政府和行業(yè)提供了更加制度化、專業(yè)化的抓手,推動AI安全治理由原則倡議向可操作機制落地轉(zhuǎn)化。
五是安全指引覆蓋全生命周期。在指導各方安全實踐方面,《框架》主要是按角色提供指引,例如針對模型算法研發(fā)者、AI服務提供者分別提出安全開發(fā)和運維要求(同時對重點領域的應用者和政府監(jiān)管等也有所涉及)?!犊蚣堋?.0版則調(diào)整為按照人工智能系統(tǒng)研發(fā)生命周期劃分指引,更全面地覆蓋從研發(fā)、部署到運行管理的各階段安全要求。新版框架設置了“三段式”的安全指引:6.1模型算法研發(fā)安全開發(fā)指引、6.2應用建設部署安全指引、6.3應用運行管理安全指引。例如,在研發(fā)環(huán)節(jié)強調(diào)提升算法可靠性、公平性和隱私保護等內(nèi)生安全能力,在部署環(huán)節(jié)要求對軟硬件工具進行安全檢測和漏洞修補,在運行環(huán)節(jié)則強調(diào)完善應用安全管理和人工復核機制等。這種從“按主體”到“按生命周期”的轉(zhuǎn)變,有助于確保安全要求貫穿AI系統(tǒng)的整個生命周期,避免安全治理出現(xiàn)斷點,更符合AI產(chǎn)品開發(fā)到應用的實際流程。
二、提升背后的邏輯和動因
《框架》2.0版系列升級舉措的背后,體現(xiàn)了我國AI安全治理認知邊界的拓展和治理范式的轉(zhuǎn)變。首先,在風險視域上,新版框架不再局限于列舉已有風險,而是將治理重點拓展到潛在的極端風險和衍生風險領域。這一點從新增的“防范失控”原則及相應措施中可見一斑。文件明確要求確保AI始終在人類控制之下,嚴防出現(xiàn)威脅人類生存發(fā)展的失控風險??梢哉f,《框架》2.0版已將AI可能帶來的存在性風險(如利用AI研發(fā)大規(guī)模殺傷性武器、AI演化出不可控行為等)納入政策考量,并通過要求對核、生化等高風險領域的AI應用設定嚴格限制來加以應對。其次,在治理思路上,《框架》2.0版實現(xiàn)了由“羅列風險清單”向“提供系統(tǒng)方法論”的轉(zhuǎn)變。如果說《框架》主要是在摸清AI安全風險底數(shù),描繪風險版圖;那么《框架》2.0版更進一步,引入了基于風險等級的治理方法論,強調(diào)根據(jù)風險評估結果采取分級分類、靶向施策的治理模式。例如,通過建立風險分級原則和全流程安全測評機制,新版框架為不同程度、不同類型的AI風險設計了差異化的干預措施。這種方法論上的升級,將治理框架從靜態(tài)的風險目錄,擴展為動態(tài)的風險管理體系,使治理更加科學、靈活、富有前瞻性。
從更宏觀的視角來看,《框架》2.0版的演進是多重因素共同作用的結果,主要體現(xiàn)在政策、技術、開源生態(tài)和國際治理四個方面:一是政策層面,國家高度重視人工智能安全,繼2023年提出《全球人工智能治理倡議》后,監(jiān)管部門持續(xù)完善相關政策標準框架。在國家網(wǎng)信辦指導下,《框架》和《框架》2.0版的制定正是為了落實這一倡議、促成各方在AI安全上的共識與協(xié)同行動。二是技術層面,如前文所述,過去一年AI技術的突破性進展帶來了全新的安全挑戰(zhàn)——更強大的推理能力和更復雜的自主代理讓風險形式和不確定性同步增加。新技術的不斷涌現(xiàn)要求治理框架及時更新,以覆蓋新出現(xiàn)的風險點。三是開源生態(tài)層面,AI開源社區(qū)的蓬勃發(fā)展在降低AI應用門檻的同時也加劇了風險擴散?;A模型開源使得更多開發(fā)者能基于強大模型進行二次開發(fā),但也可能出現(xiàn)模型缺陷迅速傳播、模型濫用等問題。因此《框架》2.0版無論在風險評估還是治理措施中,都更加關注開源模型帶來的安全隱患,并強化了開源生態(tài)的安全責任和規(guī)范。四是國際治理層面,當前全球范圍對AI安全治理的關注度前所未有,各國和國際組織密集出臺治理倡議和規(guī)則。中國在此領域主動參與并引領方向:通過《框架》2.0版進一步與國際接軌,既響應了國際社會對可信AI、AI for Good等共識性理念的呼應,也在生成內(nèi)容標識、治理準則等具體措施上與國際最佳實踐對標,為全球治理貢獻“中國方案”。
三、《框架》2.0版的重大意義
綜上所述,《框架》2.0版的出臺,具有多方面的重大意義:
一是提高治理的可操作性。相比《框架》側(cè)重原則倡議和風險梳理,《框架》2.0版提供了更加具體、可執(zhí)行的措施和工具,方便政策制定者和從業(yè)機構落地實施。例如,風險分級分類機制的引入使監(jiān)管可以“對癥下藥”,避免一刀切;安全測評體系和漏洞眾測機制則為企業(yè)和科研機構提供了評估改進AI系統(tǒng)安全性的抓手。再如,引入熔斷機制和一鍵管控等技術手段,賦予了AI系統(tǒng)在緊急情況下快速關停的“安全閥”。這些舉措極大提升了框架的實踐指導價值,使各相關方有章可循、有據(jù)可依,推動AI安全要求真正融入研發(fā)部署運維的全過程。
二是增強治理的國際接軌性。新版框架充分體現(xiàn)了對國際AI治理趨勢的呼應和融入。一方面,《框架》2.0版呼應了全球范圍內(nèi)對于AI可信、安全、可控的共同關切,特別是通過附件形式提出了可信AI基本準則,宣示“以人為本、智能向善”的發(fā)展理念,并倡議各國共同防范AI失控風險,形成廣泛國際共識。另一方面,《框架》2.0版在具體措施上與國際治理實踐接軌,如強調(diào)AIGC內(nèi)容的標識與溯源機制,與歐美針對深度合成媒體的監(jiān)管要求一脈相承;又如倡導建立AI安全評測標準和漏洞報告機制,也類似于國際上對AI系統(tǒng)進行安全認證和紅隊測試的趨勢。這些都展示出中國在參與全球AI治理時的開放姿態(tài)和合作意愿。通過對標國際高標準,《框架》2.0版有助于促進我國AI產(chǎn)業(yè)在安全合規(guī)方面贏得國際社會信任,為中國AI走出去奠定基礎。
三是強化應對高風險AI的能力。值得注意的是,《框架》2.0版專門把防范重大失控風險提升到原則和行動層面,這使我國在應對高風險AI方面走在前列。框架要求對AI在軍事、生化等高風險敏感領域的應用進行嚴格管理,防止AI被不法分子利用于極端用途;同時強調(diào)開發(fā)者要對模型進行定期測試研判,以發(fā)現(xiàn)潛在的技術失控風險苗頭。這些舉措表明我國治理框架已開始未雨綢繆地考慮“災難性風險”,并提出具體預防對策。在技術層面,引入熔斷和人工復核機制,要求關鍵決策有人類監(jiān)督備份,實質(zhì)上為未來可能出現(xiàn)的更高級AI提供了制度性的安全網(wǎng)。可以預見,隨著《框架》2.0版的實施,我國將逐步建立起一套應對“黑天鵝”級別AI風險的能力體系,確保無論AI技術如何演進,都能將其風險控制在可承受范圍內(nèi)。
《框架》2.0版的發(fā)布,標志著我國AI安全治理進入了系統(tǒng)化深化的新階段。如果說《框架》是奠定基礎、提出愿景,那么《框架》2.0版則是在實踐中摸索完善后的全面升級,它既結合了過去一年的經(jīng)驗教訓,也融匯了最新的技術發(fā)展和治理理念。從治理原則的豐富,到風險分類的擴展;從技術措施的細化,到治理機制的創(chuàng)新,再到指引體系的重構,無不體現(xiàn)出治理者趨利避害、與時俱進的智慧。對于政策制定者而言,新版框架提供了更加明確的監(jiān)管思路和工具;對于行業(yè)從業(yè)者和研發(fā)機構而言,它提出了更高的安全標準和操作指南。在全球AI競爭與合作并存的當下,《框架》2.0版不僅有助于保障國內(nèi)人工智能健康發(fā)展,也向世界傳遞出中國維護AI安全、推動AI造福人類的堅定決心。展望未來,隨著《框架》2.0版的貫徹落實,我們有理由期待一個安全可控又充滿活力的人工智能時代加速到來。(作者:洪延青,北京理工大學教授)