AI Safety与AI Security：探索共同点和差异(下)

首页 > 关于我们 > 新闻中心 > AI Safety与AI Security：探索共同点和差异(下)

2024.04.17
9662

1 AI Safety究竟是什么？

在探索了AI safety的各种热点话题之后，让我们综合这些内容来定义这个领域，承认其可持续和快速发展的特质，涵盖研究、技术和应用。

我们可以肯定的一点是，AI safety涵盖了广泛的关注范围，超越了传统网络安全范畴，涵盖了AI系统与人类价值观的一致性、系统可靠性、透明度、公平性和隐私保护。AI Safety通过积极的措施来解决这些问题，旨在减轻意外伤害或负面结果，并倡导人工智能系统道德伦理的开发实现和应用。

1.1 与人类价值观的一致性

AI safety中的一个基本挑战是确保AI系统与人类价值观和道德原则保持一致。随着AI系统变得更加自主并能够做出影响人类生活的决策，将适当的价值观和道德考虑灌输到这些系统中至关重要。

价值观一致性

价值观一致性指的是确保AI系统的目标和行为与人类的价值观和偏好保持一致的过程。这涉及将道德原则、社会规范和文化价值观定义并编码到AI系统的决策过程中。

逆强化学习、价值学习和宪法AI等技术旨在推导并嵌入人类价值观到AI系统中。此外，像机器伦理和道德推理等框架可以帮助AI系统应对道德困境，并做出符合人类价值观的决策。

逆强化学习

逆向强化学习是AI中使用的一种技术，用于从观察到的行为中推断出潜在的奖励函数或人类偏好。通过分析人类的行动或示范，AI系统可以学习模仿人类的决策过程和偏好。这种方法使AI系统能够将其行为与人类的价值观和偏好保持一致，增强其在各种情境下做出道德决策的能力。

价值学习

价值学习是一种专注于明确教导AI系统人类价值观的方法。通过将道德原则、道德准则和社会规范编码到AI算法的设计中，价值学习旨在确保AI系统优先考虑与人类价值观一致的行动。这种技术有助于减轻AI系统以违反道德标准或社会期望的方式行事的风险。

宪法AI

宪法AI指的是将一套基本原则或规则嵌入到AI系统中的概念，类似于管理其行为的宪法。通过在AI系统的架构中定义明确的边界、约束和道德准则，宪法AI旨在促进道德决策，并确保与人类价值观的一致性。这种方法为指导AI系统在复杂和模糊情况下的行为提供了一个结构化框架。

机器伦理和道德推理

机器伦理和道德推理框架提供了一种结构化方法来处理AI系统中的伦理困境和决策过程。这些框架为评估道德含义、考虑道德原则并做出符合人类价值观的决策提供了指导。通过将机器伦理原则整合到AI开发过程中，研究人员和开发者可以提高人工智能系统在伦理方面的鲁棒性，并促进负责任的决策。

人工智能中的其他对齐方法

除了前面提到的技术之外，人工智能中还有几种其他对齐方法，旨在确保AI系统与人类价值观和道德原则保持一致运行。以下描述了其中一些对齐方法：

奖励建模涉及明确指定AI系统应优化的奖励函数。通过提供清晰且可解释的奖励信号，AI系统可以学习做出符合人类设定的预期目标和价值观的决策。

迭代放大是一种放大人类监督和反馈来迭代训练AI系统做出决策的技术。这种方法利用人类输入来引导AI系统的学习过程，确保它们的决策反映出人类价值观和偏好。

合作逆向强化学习涉及人类与AI系统之间协作推断出人类偏好和价值观。通过参与协作学习过程，AI系统可以更好地理解并与人类价值观保持一致，并纳入来自于监督者的反馈。

对抗性对齐技术包括训练 AI 系统以预测并抵消可能导致不道德行为的恶意输入或激励措施。通过在训练期间模拟恶意场景， AI 系统可以学会抵制恶意影响，并优先考虑道德决策。

交互式学习方法涉及 AI 系统与用户之间基于实时反馈不断互动以完善决策流程。通过将用户反馈纳入到学习环路中， AI 系统可以调整其行为以符合不断发展变化中的人类价值观和偏好。

这些对齐方法，连同前面提到的技术，有助于人工智能模型和应用程序的安全开发。

人机协作

通过培养一种共生关系，让人类和人工智能系统共同合作，发挥各自的优势，并保持人类监督和控制，我们可以增强人工智能部署的道德鲁棒性。诸如“以人为中心”的系统、共享自治权和可解释性人工智能等技术在促进人类与AI系统之间有意义的合作方面发挥着重要作用，使得人们可以根据其价值观和偏好来引导并塑造AI技术的行为。

“以人为中心”的系统

“以人为中心” 系统将人监督和决策融入到 AI 过程中, 允许人提供反馈、更正和指导 AI 算法。通过在AI工作流的不同阶段（例如数据标记、模型训练和决策）合并人的输入，“以人为中心” 系统确保了整个AI开发生命周期都考虑到了人类价值观和偏好。这种方法通过赋予人的影响力来基于他们的专业知识和道德判断影响 AI 系统行为, 增强了透明度、问责制和符合伦理标准。

RLHF的关键概念

训练方法：RLHF通过结合人类反馈开发的单独奖励模型进行AI模型训练。主要模型旨在最大化其从奖励模型获得的奖励，从而改进其输出。

应用：OpenAI已经利用RLHF来训练像InstructGPT和ChatGPT这样的模型，展示了它在使AI系统与人类价值观和意图保持一致方面的有效性。

挑战：尽管具有益处，但RLHF面临着需要微调、昂贵的人类参与、人类反馈中可能存在偏见以及评估者之间存在分歧等挑战。

RLHF的实施

三个阶段：RLHF通常涉及三个阶段 - 选择一个预训练模型作为主模型，基于人类输入创建奖励模型来评估模型生成的输出，并将主模型的输出反馈给奖励模型。

奖励模型：通过对排名模型输出进行收集人类偏好，然后用于训练奖励模型。这些奖励模型向主模型提供反馈，以便在后续任务中提高性能。

直接偏好优化（DPO）：像DPO这样不断发展的技术通过利用专家的偏好来优化AI 模式，从而消除了对奖励模型和人工注释的需求。

共享自治

共享自治是一种协作方法，在此方法中，人类和AI系统根据各自的优点分担（共担）决策责任。在共享自治设置中，人类与AI算法实时互动，把人类直觉、创造力和道德推理与AI技术计算能力和效率进行结合。通过促进人类与AI系统之间动态合作关系，共享自治使双方具有互补能力，并启用联合决策过程。这种协作方式确保了保持人类监督同时利用 AI 提高问题解决和决策制定的效益。

可解释的人工智能

可解释的人工智能专注于开发为其决策、行动提供透明结识的人工智能系统，，使人类能够理解AI输出背后的推理。通过可解释的机器学习模型、可视化和自然语言界面等技术增强人工智能算法的可解释性，可解释的人工智能促进了信任、问责制，并与人类价值观保持一致。透明的AI系统赋予了人类权力去诠释、验证并干预AI技术决策过程，培育出一个协作环境，在这个环境中，人类判断引导着AI系统行为走向符合伦理标准的结果。

1.2 系统可靠性

确保人工智能系统的可靠性对于防止意外伤害或负面后果至关重要。随着人工智能系统在医疗保健、交通运输和金融等高风险领域的部署日益增多，它们的可靠性和鲁棒性变得至关重要。

鲁棒性与弹性

人工智能系统应该对各种类型的扰动具有鲁棒性和弹性，包括敌对攻击、分布转移以及意外环境条件。像敌对训练、领域适应和强化学习这样的技术可以增强人工智能系统的鲁棒性，使其能够在不同且具有挑战性的场景中可靠运行。

安全关键系统

在诸如自动驾驶车辆或医疗诊断系统等安全关键应用中，人工智能系统故障的后果可能会非常严重的。形式验证、运行时监控和容错设计等技术可以帮助确保这些高风险领域中人工智能系统的安全、可靠运行。

持续学习和适应

人工智能系统通常在动态和不断发展的环境中运行，需要具备持续学习和适应的能力。在线学习、迁移学习和元学习等技术可以使人工智能系统更新知识并适应新情况，同时保持可靠性和安全约束。

1.3 透明度和可解释性

透明度和可解释性对于建立人工智能系统的信任并实现有意义的人类监督至关重要。不透明或“黑匣子”人工智能系统可能会使理解其决策过程变得困难，潜在地导致意外后果或偏见。

可解释人工智能

可解释人工智能（XAI）技术旨在使人工智能系统更易于理解，并提供对其决策过程的洞察。诸如特征归因、显著性图谱和基于语言的解释等方法可以帮助人类了解人工智能系统输出和决策背后的推理。

尽管在XAI技术方面取得了进展，许多人工智能系统仍然作为“黑匣子”运行，这使得完全理解它们的决策过程变得困难。持续研究和采用可解释性方法对于实现有意义的人类监督以及对人工智能系统的信任至关重要。

算法审计

算法审计涉及系统地评估人工智能系统可能存在的偏见、错误或意外后果。这可以通过压力测试、反事实评估和因果分析等技术来实现，从而在部署之前识别和缓解问题。

人类与人工智能信任

透明度和可解释性对于促进人类与人工智能系统之间的信任至关重要。通过提供易理解的解释并实现有意义的监督，人类可以对人工智能系统所做出的决策和建议产生信心，促进其负责任地采用和部署。

1.4 公平性和非歧视

如果人工智能系统设计和部署不当，可能会延续或放大社会偏见和歧视。确保人工智能系统的公平性和非歧视对于促进公平并防止对边缘化或少数群体产生有害影响至关重要。

偏见减轻

诸如去偏数据、对抗式去偏以及因果建模等技术可以帮助减轻训练数据或人工智能模型中存在的偏见。此外，像公平感知机器学习和反事实评估这样的框架可用于评估和减轻人工智能系统输出中潜在的偏见。

尽管已经开发了一些减轻偏见的技术，但有效地在各种人工智能应用程序中一致地实施仍然是一个挑战。需要更加强大的工具和流程来检测并减轻训练数据、算法以及输出中的偏见。

包容性设计

包容性设计涉及积极让不同的利益相关者（包括不具有代表性的人群、社区）参与到人工智能系统的开发、部署中。这有助于识别并解决可能会不成比例地影响某些群体的潜在偏见或危害。

道德AI治理

建立稳固的道德AI治理框架，包括政策、指南以及监督机制，可以帮助确保人工智能系统以公平且无歧视方式进行开发与部署。这可能涉及多方合作、外部审计以及持续监控与评估流程。

1.5 隐私保护

人工智能系统通常依赖大量个人数据进行训练和推理，引发隐私担忧以及滥用或未经授权访问敏感信息的潜在风险。保护个人隐私是AI Safety的关键方面。

数据隐私

差分隐私、安全多方计算和联邦学习等技术有助于个人隐私的保护，同时可以使人工智能系统在不暴露敏感信息的情况下进行数据学习

保护隐私的AI

保护隐私的AI涉及开发尊重并保护个人隐私的AI模型和算法。这可以通过同态加密、安全区域和保护隐私机器学习等技术实现。

隐私法规与合规性

遵守相关的隐私法规和合规框架，如《通用数据保护条例》（GDPR）或《加州消费者隱秘權利法案》（CCPA），对于开发和部署AI系统的组织至关重要。这包括实施适当的数据治理实践、进行隐私影响评估，并确保透明度与问责制。

2 AI Safety和AI Security之间的共同点

AI Safety和AI Security是密切相关但又不同的概念，它们涉及确保人工智能系统负责任和值得信赖的发展与部署的不同方面。虽然两者之间存在一些共同点，但重要的是理解它们各自独特的关注点以及它们如何相互补充。

AI Safety和AI Security之间的共同点包括：

风险缓解：AI safety和AI security都旨在减轻与AI系统相关的风险。AI safety侧重于防止对人类造成意外伤害或负面后果，而AI security旨在保护AI系统免受恶意攻击、数据泄露和未授权访问。

道德考虑：这两个领域都涉及与开发和部署AI系统相关的道德考虑。AI safety强调将AI系统与人类价值观、公平性和非歧视性相一致，而AI security还考虑了数据隐私、机密性以及潜在滥用AI系统的道德影响。

可信可靠：确保人工智能系统的可信和可靠是AI safety和AI security的共同目标。AI safety关注诸如鲁棒性、弹性和持续学习等方面，而AI security则解决完整性、可用性以及防范对抗攻击等问题。

透明度与问责制：AI safety旨在使人工智能系统具有可解释、可问责，以建立信任并实现有意义的人类监督，确保AI系统的决策过程和输出是透明的，并且可以被理解，并建立清晰的问责措施来让开发者和运营商对于任何意外后果或有害结果负责。另一方面，AI security依赖于透明度来维护安全控制和漏洞管理，要求将安全部署措施以及已确定的漏洞或潜在威胁公之于众，并积极沟通以实现有效监测、事件响应以及补救努力来减轻风险并防止恶意行为者或系统意外错误。通过优先考虑透明度与问责制，无论是AI safety还是 AI security都可以促进信任，实现有效监督，并确保AI 系统得到负责任地开发与运营。

多学科方法：解决AI safety和AI security挑战需要一种多学科方法，结合技术专长、伦理框架、治理结构和利益相关者参与。这两个领域都涉及研究人员、开发者、政策制定者和各方利益相关者之间的合作。

最终，AI safety和AI security相辅相成，有助于负责任且值得信赖地开发和部署人工智能系统。通过同时解决这两个领域，组织机构和利益相关者可以创建不仅功能强大且有能力的AI系统，而且符合伦理原则、安全可靠，并对潜在风险和威胁具有抵御力。

3 AI Safety与AI Security的区别

尽管AI safety与AI security相关且互补，但它们有着不同的关注领域和优先事项。理解这两者之间的关键区别对于开发负责任和值得信赖的人工智能系统至关重要。

3.1 范围和目标

AI safety主要关注的是防止由 AI 系统的行为或输出导致的意外伤害或负面后果。其目标是确保 AI 系统与人类价值观、道德原则和社会规范保持一致，并且以可靠、稳健和值得信赖的方式运行。

AI security侧重于保护 AI 系统免受恶意攻击、未授权访问、数据泄露和其他网络安全威胁。其主要目标是维护 AI 系统、数据和相关基础设施的机密性、完整性和可用性。

3.2 风险缓解

AI safety解决了人工智能系统固有的复杂性、自主性和决策能力相关的风险。它旨在减轻意外偏见、透明度不足以及可能对个人、社区或整个社会产生负面影响等风险。

AI security旨在减轻与网络威胁相关的风险，包括数据泄露、对抗性攻击、模型盗窃以及利用AI系统或其基础设施中存在的漏洞。

3.3 伦理考虑

AI safety非常重视伦理考虑，如价值观一致性、公平性、问责制和尊重人权与隐私。它旨在确保AI系统以符合伦理原则并以促进社会福祉的方式开发和部署。

虽然AI security也涉及伦理考虑，如数据隐私和对AI系统的负责使用，但其主要关注点是针对恶意行为者和未授权访问所采取的技术措施。

3.4 技术和方法论

AI safety采用价值学习、逆向强化学习、宪法人工智能、可解释人工智能、算法审计和包容性设计实践等技术，以解决价值一致性、公平性、透明度和问责制等问题。

AI security利用安全隔离区域、同态加密、差分隐私、对抗训练和安全多方计算等技术来保护人工智能系统免受网络威胁，并确保机密性、完整性和可用性。

3.5 利益相关者参与

AI safety需要广泛与各种利益相关者合作和协作，包括伦理学家、政策制定者、领域专家以及受影响社区的代表，以确保AI系统在负责任和包容的方式下开发和部署。而AI security可能涉及与利益相关者如网络安全专家、监管机构和行业合作伙伴的协作，担其主要关注的仍是技术措施以及安全标准和法规的符合性。

值得注意的是，AI safety和AI security并不是相互排斥的；相反，它们是相辅相成的，必须同时解决才能创建负责任、可信赖且安全的AI系统。有效的人工智能治理和风险管理策略应覆盖AI safety和AI security的整个生命周期（设计、开发、部署、监控等）。

结论和讨论

AI safety领域是一个多方面的、快速发展的领域，旨在解决与日益先进的人工智能系统开发和部署相关的潜在风险和挑战。随着人工智能技术继续渗透到我们生活的各个方面，确保它们的 safety、security以及与人类价值观的一致性变得至关重要。

在这次探索中，我们深入研究了区分AI safety和AI security的差别，同时也承认它们互补的特性。AI safety涵盖了广泛的考虑因素，从价值观一致和道德发展到系统可靠性、透明度、公平性和隐私保护。它旨在减轻由于人工智能系统行为或输出而导致的意外伤害或负面后果，确保其以符合人类价值观和社会福祉为一致标准运行。

相比之下，AI security主要关注保护人工智能系统免受恶意攻击、未授权访问、数据泄露和其他网络安全威胁。其目标是维护人工智能系统、数据和相关基础设施的机密性、完整性和可用性，防范可能被恶意行为者利用或滥用的风险。

虽然AI safety和AI security有着不同的优先事项和关注领域，但它们是密不可分的，并且必须同时解决，以创建负责任、值得信赖和安全的人工智能系统。有效的人工智能治理和风险管理策略应该贯穿整个人工智能生命周期，从设计和开发到部署和监控。

随着人工智能技术的快速发展，确保其安全和负责任的发展所面临的挑战变得越来越复杂和紧迫。解决这些挑战需要多学科方法，结合技术专业知识、伦理框架、治理结构和利益相关者参与。

研究人员、开发者、政策制定者、伦理学家和各方利益相关者之间的协作努力对于驾驭AI safety和security这一错综复杂的领域至关重要。类似前沿模型论坛和开源合作等倡议有潜力促进透明度、知识共享以及最佳实践的发展，这些可以指导负责任且符合道德标准的人工智能系统的部署。

此外，围绕人工智能潜在风险和益处的持续辩论，包括对谨慎行事和需要监管框架的呼吁，突显了积极主动措施和国际合作的重要性。随着人工智能技术不断发展，其对社会的影响变得日益深远，需要采取一种平衡的方法来促进创新、减轻潜在风险，并确保与人类价值观相一致。

最终，追求AI safety与security代表着一场持续的旅程，这需要不断保持警惕、适应并致力于维护伦理原则。通过采用一种整体方法，将技术专业知识、伦理考量和利益相关者参与相结合，我们可以驾驭这项变革性技术的复杂性，并利用其潜力造福人类社会，同时防范意外后果和潜在滥用。

参考资料

Christiano, Paul. 2023. "AI ‘safety’ vs ‘control’ vs ‘alignment’." AI Alignment: https://ai-alignment.com/ai-safety-vs-control-vs-alignment-2a4b42a863cc.

Aouf, Abdellah. 2023. “How AI Bias Could Impact Hiring and Recruitment.” LinkedIn. https://industrywired.com/linkedin-coughed-out-ai-bias-is-ai-in-recruitment-reliable/.

Bansemer, Mary. n.d. "Securing AI Makes for Safer AI." Center for Security and Emerging Technology (CSET), Georgetown University. https://cset.georgetown.edu/.

Gonfalonieri, Alexandre. 2018. “Inverse Reinforcement Learning. Introduction and Main Issuesby Alexandre Gonfalonieri.” Towards Data Science. https://proceedings.mlr.press/v202/metelli23a/metelli23a.pdf.

Huang, Ken, Yang Wang, Ben Goertzel, Yale Li, Sean Wright, and Jyoti Ponnapalli, eds. 2024. Generative AI Security: Theories and Practices, Springer Nature Switzerland.

Imbrie, James. 2023, "AI Safety, Security, and Stability Among Great Powers: Options, Challenges, and Lessons Learned for Pragmatic Engagement." Center for Security and Emerging Technology (CSET), Georgetown University. https://cset.georgetown.edu/publications/.

Department of Homeland Security (DHS). 2023,"Promoting AI Safety and Security." https://www.dhs.gov/ai.

Marr, Bernard. 2023. "The 15 Biggest Risks of Artificial Intelligence." Forbes. https://www.forbes.com/sites/bernardmarr/.

Stanford University (AI100). 2021. "Gathering Strength, Gathering Storms: One Hundred Year Study on Artificial Intelligence (AI100) 2021-1.0." https://ai100.stanford.edu/.

文章来源：CSA官网原创作者：黄连金

https://cloudsecurityalliance.org/blog/2024/03/19/ai-safety-vs-ai-security-navigating-the-commonality-and-differences

本文翻译来自AI安全工作组成员：

张坤 CSA大中华区专家

杨喜龙 CSA大中华区专家

黄家栋 CSA研究协调员

上一篇：如何利用Sys：All漏洞渗透生产环境中的GKE集群

下一篇：AI Safety与AI Security：探索共同点和差异（上）

会员

企业会员

个人会员

活动