2026.05.09
3665基于AI STR(人工智能安全可信负责任)框架的探索——李雨航
摘要:本文秉持"以人为本、智能向善"的理念和原则,以AI STR治理框架为基础阐述了人工智能发展与治理的路径与实践。首先从安全(Safety)、可信(Trust)、负责任(Responsibility)三个方面阐述了AI STR治理框架。然后从推进AI安全标准化与认证机制、构建可信数据空间、强化全球协同治理、人才赋能等维度陈述“智能向善”的AI治理体系及实践。同时介绍了利用AI提升安全防御能力和AI治理水平,即通过AI能力反哺AI治理。另外从顶层治理架构设计、法律法规与标准制定、产业落地与技术实践等方面介绍了中国在AI治理领域的积极贡献。总之,制约人工智能发展的不是技术能力而是治理水平。因此要牢记“以人为本、智能向善”的使命,坚持走安全、可信、负责任的AI发展和治理之路,实现在AI领域乃至整个数字世界的全球共治、共享和共赢。
关键词:人工智能治理、智能向善、AI STR、AI驱动安全、AI赋能安全防御、AI安全原生、可信数据空间、全球协同治理、AI安全标准、AI安全认证
“共同构建网络空间人类命运共同体”——习近平主席2017年在日内瓦万国宫发表的历史性演讲,为全球数字空间的和平、安全、开放与合作指明了方向,也为后续世界数字科学院(WDTA)等国际组织的成立提供了思想指引。在人工智能浪潮席卷全球的今天,这一理念更显其深远的前瞻性与时代价值。人工智能已不仅是区域性或技术性的议题,其发展与管理关乎全人类的共同未来,是构建网络空间命运共同体的关键一环。
我对此深刻领悟,并在多个国际场合指出:“人工智能不仅是技术革命,更是治理革命。我们必须以构建人类命运共同体的担当,建立一个安全、可信、负责任的人工智能全球治理体系,确保技术发展的成果惠及所有国家与人民。”
随着生成式人工智能与大模型技术以前所未有的深度与广度渗透至经济社会各领域,我们正面临新型的全球性挑战:数据滥用、算法偏见、深度伪造(AI幻觉)、自主系统失控等问题日益凸显,任何一国都难以独善其身。在此背景下,“以人为本、智能向善”已从一国一域的行动准则,升华为国际社会的核心共识与根本原则,是携手应对风险、共塑智能未来的必然选择。我们必须在网络空间命运共同体的框架下,推进人工智能的协调发展与治理,让这一颠覆性技术成为凝聚人类、而非分裂世界的力量。
二、以人为本:AI STR 治理框架的核心支柱
AI STR(人工智能安全、可信、负责任)框架是WDTA于2023年提交联合国并于2024年在联合国万国宫发布的人工智能治理标准体系,其核心理念正是“以人为本”。该框架从威胁源推导的三个维度构建治理基石,并在设计中融入“AI安全原生”的理念,即通过“安全左移”(在产品开发阶段融入安全免疫体系)和“安全右移”(在运营阶段提供安全医疗体系),实现从需求到运营的全生命周期防护,确保AI系统的可实施与可持续安全。
1. 安全
安全的威胁源来自居心不良的破坏者与攻击者。他们不仅瞄准价值巨大的AI体系,还可能利用AI作为工具或武器进行各种非法活动。这使得人工智能安全的危害范围从传统信息与网络安全的ICT环境,扩大到了物理环境甚至人身安全领域。例如,对AI辅助或自主控制的医疗系统、交通系统、制造系统的破坏可能导致人员伤亡。因此AI安全需要从Security升级到Safety,最大限度控制AI安全风险,实现全面安全防护,使AI用户“不担心、敢于使用”。
物理安全:确保AI系统在自动驾驶、医疗设备、工业系统等关键领域具备可靠的安全机制,防止对人身或物品造成伤害。
心理安全:防范深度伪造、虚假信息等对用户心理、社会舆情与公共决策的侵蚀。
数字安全:通过安全芯片、零信任架构、隐私增强技术等手段,保障AI系统与数据自身的安全性。
在此维度,我们强调“安全左移”,即在AI系统/产品开发早期阶段嵌入安全设计,如采用威胁建模和风险评估,确保系统从源头具备免疫力;同时通过“安全右移”建立实时监控与响应机制,提供运营阶段的“医疗”干预,如异常检测和自动修复。
2. 可信
可信的威胁源来自唯利是图的生产者与运营者。他们利用开发与服务AI产品的便利性,侵害用户权益以谋取私利,例如未经授权使用用户数据、在AI系统中植入行为监测与后门,甚至诱导或替代用户做出决定。因此必须建立完善的数字信任体系,使AI用户“可理解、愿主动使用”。
透明度:推动算法可解释性、数据来源可追溯性,推进AI项目开源,增强用户对AI决策的理解与信任。
公平性:通过去偏见技术、公平性评估工具与可信度测评,防止算法歧视。
用户授权:建立“知情-同意”机制,确保用户对数据使用的控制权。
数据质量:避免幻觉造成的虚假信息,提升AI生成的数据质量,增强用户信心和信任。
3. 负责任
负责任的威胁源来自AI系统本身。已有偏见的聊天机器人被下架的案例,而未来的通用人工智能系统可能产生自我意识,甚至具备自我复制和控制人类行为的能力。因此必须完善人工智能的责任框架,让AI具备完善的治理生态、保障AI良性可持续发展。
伦理审查:将伦理评估嵌入AI全生命周期,防止技术滥用。
可控性设计:设置由人类控制的紧急关停机制与权限管理,防止AI自我复制与失控。
全球协作:推动跨国标准互认,共建人工智能治理生态。
三、智能向善:从理念到实践的路径探索
“智能向善”不仅是一种价值观,更是一套可执行的技术与治理体系。WDTA在向联合国提交的《全球数字契约》、《全球人工智能治理宣言》等建议内容及AI STR框架中,提出以下实践路径,并在实践中融入“AI安全原生”理念,确保治理的可实施性:
1. 推进AI安全标准化与认证机制
WDTA联合多家国际组织与全球知名AI厂商发布《生成式AI应用安全测试标准》、《大语言模型安全要求》、《大模型供应链安全要求》、《AI智能体运行安全测试标准》等系列标准,并颁发全球首张AI STR认证证书,为行业提供可度量的安全基准。
2. 构建可信数据空间
在联合国数据治理工作组指导下,构建全球可信数据空间框架,实现AI训练与生产数据的“可用不可见”,在保障隐私与主权的前提下促进数据要素的安全流通与价值释放。
3. 强化全球协同治理
推动联合国主导的多边治理机制,倡议建立类似国际原子能机构的AI监督机构,统筹技术标准、风险评估与跨国协作,应对AI的跨境挑战。
4. 赋能人才与公众参与
通过“DigiBridge数字人才计划”与AI STR培训课程,践行“以人为本”的理念,致力于提升全球数字素养、技术能力与治理水平,确保人工智能发展“不让任何人掉队”。
四、AI驱动安全:利用生成式与代理式AI赋能防御
在AI治理框架中,不仅需要防范AI带来的风险,还应积极利用AI技术提升安全防御能力。生成式AI和代理式AI作为前沿工具,已被多家厂商应用于网络安全领域,形成战略性架构与解决方案。通过这些技术,AI从被动防护转向主动赋能,实现更智能、更高效的安全体系。
1. 生成式AI在安全防御中的应用
网络安全态势正经历深刻变革,高级持续性威胁、零日漏洞和社会工程等攻击手段使得传统静态防御措施往往滞后于威胁演变。生成式AI,特别是大语言模型和生成对抗网络,能够从海量数据中学习内在规律,并生成全新的、合理的合成数据。这一特性使其不仅能够模拟恶意行为以理解攻击模式,还能赋能防御方构建更具弹性和预测性的安全体系。
2. 代理式AI的战略与架构
随着人工智能技术的迅猛发展,代理式AI作为能够感知环境、自主决策并执行行动的智能系统,正深刻改变网络安全防御的范式。与孤立的AI模型不同,代理式AI能够通过与环境的持续交互,自主优化其安全策略,从而实现从“工具”到“虚拟安全专家”的跨越。
在网络安全防御中,代理式AI的适应性体现在:
环境感知:智能体能够实时感知网络流量、系统日志、终端行为、威胁情报流等多元、异构的安全数据。
决策与规划:基于内部模型(如深度神经网络、策略函数),智能体能够判断当前安全状态,并规划出最优响应行动序列。
自主行动:智能体可自动执行遏制、隔离、阻断、补丁修复等响应动作,或将高置信度警报上报给安全分析师。
持续学习:通过与攻击者(或模拟攻击环境)的不断博弈,智能体能够自适应地调整其检测与响应策略,以应对未知威胁。
尽管如此,代理式AI仍存在技术可靠性、安全伦理和系统集成等风险,人类的监督仍非常必要。需提供"人在回路"(HITL)机制,允许安全专家在任何阶段干预、暂停或修改代理式AI的行为,确保人类监督权、纠错权和关键决策权。
3. AI驱动安全的未来战略路径
展望未来,AI驱动安全应融入“安全左移”和“安全右移”理念。在开发阶段嵌入AI代理进行早期漏洞扫描和免疫设计;在运营阶段部署生成式AI提供持续监控和“医疗”式修复。通过厂商如OWASP的AI安全景观指南和Mindgard的红队测试工具的实施与推广,可构建全面生态,实现从被动防御到主动预知的转变,最终赋能全球AI治理。
为了帮助产业界落地AI驱动安全的能力,WDTA联合云安全联盟大中华区(CSA GCR)提供“AI驱动安全认证专家(CAIDCP)”及“AI安全专家认证(CAISP)”实践课程,为中国和全球广大从业人员提供能力建设支撑。
五、中国行动:在发展中治理,在治理中发展
中国在国家层面积极推进人工智能治理体系建设,秉持"以人为本、智能向善"的理念,通过顶层设计、法规制定、标准引领与国际协作,致力于构建包容、普惠、有韧性的治理生态。与此同时,中国科技企业、高校与研究机构也在技术落地与产业实践中贡献了众多优秀案例。
在顶层设计与伦理规范方面,中国展现了前瞻性的系统布局。2019年,国家新一代人工智能治理专业委员会发布《新一代人工智能治理原则——发展负责任的人工智能》,率先提出了和谐友好、公平公正、包容共享、尊重隐私、安全可控、开放协作、敏捷治理等八项原则,为全球AI伦理框架提供了重要参考。此后,这一理念在世界人工智能大会、乌镇世界互联网大会等国际平台上被不断深化与重申。2023年,中国提出《全球人工智能治理倡议》,系统性地阐述了关于AI全球治理的建设性方案,呼吁各国加强信息交流、风险防范,并反对技术壁垒和阵营对抗,体现了大国担当。
在法规制度与标准体系建设方面,中国的行动务实而高效。国家网信办联合多部委相继出台《生成式人工智能服务管理暂行办法》、《互联网信息服务深度合成管理规定》等关键法规,为生成式AI等新兴技术的应用划定了清晰的合规红线。在标准领域,全国信息安全标准化技术委员会组织制定了《人工智能安全基础技术要求》等系列国家标准。同时,中国积极参与并推动AI国际标准制定,在ISO/IEC JTC 1等国际标准组织中贡献中国智慧。2024年,国家数据局发布《可信数据空间发展行动计划(2024—2028年)》,明确提出建成100个以上可信数据空间,为数据要素的安全有序流通与AI模型的高质量训练提供了关键基础设施。
在产业实践与技术落地方面,中国科技企业、高校与研究机构展现出强大的创新能力和解决方案水平:
华为:在其昇腾AI计算平台及云服务中全面内置安全能力,发布《AI安全白皮书》,并实践"安全左移",在AI芯片与框架层集成可信执行环境,为大规模行业应用提供底层安全保证。
蚂蚁科技:在金融AI领域深耕可信技术,其自主研发的"蚂蚁天穹智能风控系统"通过图计算与深度学习技术,实现毫秒级风险识别与拦截,有效保护数亿用户的交易安全。同时参与制定《金融领域大模型应用技术规范》,推动行业安全标准建设。
科大讯飞:在其"讯飞星火认知大模型"中创新性地引入"可控生成"技术,通过内容安全过滤机制和实时伦理监测,确保生成内容符合社会主义核心价值观,并在教育、医疗等领域实现安全可控的产业化应用。
中国电信:基于运营商网络优势,构建"云网端协同AI安全防护体系",在网络层面集成AI异常流量检测与自动化处置能力,为政企客户提供从基础设施到应用层的全域安全服务。
清华大学:在AI治理基础研究方面发挥引领作用,其人工智能研究院牵头研发"AI治理平台",提供算法公平性检测、透明度评估等工具,并向产业界开源开放,推动治理技术的普及与应用。
阿里巴巴:通过"阿里云通义大模型"提供全链路安全防护,其"内容安全"服务利用AI实时识别与处置违规信息,日均检测量超十亿次,显著提升平台治理效率。
腾讯:将AI安全融入社交、金融与娱乐业务,其"腾讯云御点"产品采用AI驱动威胁检测,实现终端安全精准防护;同时牵头国内首个《大模型安全能力评估方法》标准,推动行业规范。
百度:在其"文心一言"等产品中应用"AI安全网关",对生成内容进行实时过滤与纠偏,并积极参与国家AI安全标准测试,是首批通过相关评估的企业之一。
奇安信、安恒信息等安全厂商:推出AI安全检测平台与托管服务,为政企客户提供大模型红队测试、数据泄露防护与隐私计算一体化方案,助力关键基础设施安全落地。
云安全联盟大中华区(CSA GCR):联合蚂蚁科技、微软、谷歌等厂商起草《大模型供应链安全要求》、《生成式人工智能应用安全测试标准》、《大语言模型安全测试方法》等多项AI安全标准。同时联合百度发布《AI安全产业图谱(2024)》,收录160多项AI安全技术及解决方案,覆盖内生安全、安全服务等四大领域,对 AI安全产业进行了比较全面的分析和呈现。
在国际合作与能力共建方面,中国是积极的倡导者和贡献者。中国联袂超过140个国家发起的联合国《加强人工智能能力建设的国际合作》决议,体现了对全球,特别是发展中国家AI发展诉求的重视与支持。通过世界人工智能大会、乌镇峰会、"一带一路"国际合作高峰论坛下的数字合作专题会议等系列高级别平台,中国持续推动全球AI治理的包容性对话,让更多声音融入全球规则塑造。
从乌镇峰会到上海世界人工智能大会,中国在人工智能治理中展现出开放与合作的鲜明态度,既全力驱动技术创新,也高度重视规范引领。从《治理原则》到《全球倡议》,从国内法规到国际标准贡献,正是'以人为本、智能向善'理念的生动实践,也为共建网络空间人类命运共同体提供了AI领域的中国方案。
六、结语:走向共治、共享、共赢的AI未来
人工智能的未来,不仅取决于技术的高度,更取决于治理的深度与温度。坚持以人为本、智能向善,意味着我们必须将人类价值、社会伦理与全球公共利益置于AI发展的中心。
正如我在联合国未来峰会上的发言:“我们正站在数字文明的十字路口。唯有通过合作、标准与信任,才能让人工智能真正成为推动人类进步的力量,而非分裂与风险之源。”
参考文献
1. World Digital Technology Academy (WDTA). *AI STR Framework: Safety, Trust, and Responsibility*. 2023.
2. 李雨航 等.《人工智能伦理与安全》. 清华大学出版社. 2024.
3. 李雨航 等.《网络服务安全与监控》. 电子工业出版社. 2021.
4. 李雨航 等.《生成式AI安全:理论与实战》. Springer出版社. 2024.
5. 全国信息安全标准化技术委员会.《人工智能安全基础技术要求》(征求意见稿). 2024.
6. 国家互联网信息办公室.《生成式人工智能服务管理暂行办法》. 2023.
7. 中国外交部.《全球人工智能治理倡议》. 2023.
8. 国家数据局.《可信数据空间发展行动计划(2024-2028年)》. 2024.
9. 国家新一代人工智能治理专业委员会.《新一代人工智能治理原则——发展负责任的人工智能》. 2019.
10. 国务院.《新一代人工智能发展规划》. 2017.
11. United Nations. "Seizing the opportunities of safe, secure and trustworthy artificial intelligence systems for sustainable development". A/78/L.49. 2024.
12. United Nations. "Resolution on Strengthening International Cooperation on AI Capacity-Building". A/78/L.45. 2024.
13. International Organization for Standardization. "ISO/IEC 23894:2023 - Information technology - Artificial intelligence - Guidance on risk management". 2023.
14. 华为技术有限公司.《华为AI安全白皮书》. 2023.
15. 阿里云.《通义大模型安全治理实践》. 2024.
16. 腾讯云.《大模型安全能力评估方法》标准. 2024.
17. Palo Alto Networks. "What Is Generative AI Security?". 2025.
18. Cisco. "AI Security Reference Architectures". 2025.