优发国际网站官网:大模子的清静挑战及应对建议

宣布时间 2024-09-06

目今 ,大模子手艺在多个领域显著提升事情效率、改变了生产模式 ,并创立了重大经济价值。例如 ,在金融行业 ,大模子被用于危害评估与市场展望;在医疗行业 ,它则助力争像识别与疾病诊断等。然而 ,这些手艺带来的清静危害和伦理问题也备受关注� ?攀� Web 应用程序清静项目(OWASP)宣布了关于大模子应用的十大清静危害 ,这些危害不但包括古板的沙盒逃逸、代码执行和鉴权不当等清静危害 ,还涉及提醒注入、对话数据泄露和数据投毒等人工智能特有的清静危害。


一、清静危害


大模子的清静危害不但限于数据清静和隐私问题 ,还涉及其训练数据的重大规模及其中潜在的误差 ,这些误差可能导致大模子在天生内容时不自觉地反应出这些误差 ,进而爆发歧视性或禁绝确的输出


(一)数据清静与隐私危害


在大模子领域 ,保存几个要害的数据清静和隐私危害:一是传输截获危害 ,敏感数据如小我私家身份和金融信息在差别主体间传输时容易被截获 ,导致隐私泄露;二是运营方窥探危害 ,运营机构可能不法网络和使用用户数据 ,包括小我私家偏好和行为习惯 ,举行不当营销或战略 ,甚至将数据出售给第三方以牟利;三是大模子影象危害 ,大模子训练后保存的历史数据和信息可能被泄露或滥用 ,攻击者可使用这些信息实验诈骗或针对性攻击 ,严重威胁用户小我私家信息清静。


(二)提醒注入危害


大模子与人类的相同建设在对自然语言的剖析和明确上。然而 ,由于这些大模子在区分系统指令和用户输入方面保存挑战 ,这为提醒注入攻击提供了时机。在这种攻击中 ,攻击者可以使用大模子对上下文的依赖和对自然语言的明确 ,通过巧妙结构的提醒来使用大模子的输出。


角色饰演是提醒注入攻击的一个典范案例。通常大模子会阻止爆发可能危害社会清静的回覆。攻击者通过让大模子饰演新的角色 ,可以绕过这些限制 ,从而输出原本应被拒绝的信息。别的 ,攻击者可能在一个问题中注入虚伪信息 ,导致大模子给蜕化误的回复;或者在多个问题中注入相关信息 ,使大模子在逻辑推理上爆发误差。攻击者还可以通过支解和重组字符串 ,疏散大模子的注重力 ,使其暂时忽略对输出内容的检查。这种攻击不但会严重影响用户体验 ,并且若是恶意提醒包括种族、政治等敏感话题 ,还可能加剧社会矛盾。


(三)对抗攻击危害


在大模子的场景下 ,对抗攻击可能体现为对输入文本的细小修改 ,这些修改可能看起来无关紧要 ,但可能会导致大模子爆发完全差别的输出。例如 ,攻击者可能会在输入文本中插入一些看似无关的词语或符号 ,或者玄妙地改变一些词语的拼写 ,从而诱导大模子爆发过失或误导性的输出。


(四)大模子滥用危害


大模子自己不可创立知识 ,但可以把碎片化的知识整合起来 ,从而大大降低使用门槛。然而 ,这种便当性也带来了被滥用的危害。例如 ,恶意攻击者可能会使用大模子天生网络攻击的工具 ,如垃圾邮件、网络垂纶攻击、恶意软件等。


(五)内容清静合规危害


大模子天生的内容是用户和大模子交互的效果 ,并不完全是大模子自身的产出。内容清静的危害很洪流平上来自于用户的恶意输入和诱导 ,别的 ,纵然没有恶意攻击者的保存 ,大模子的输出内容也并非完全清静 ,由于训练数据自己可能包括私见和有害内容。这些私见和有害内容可能在大模子的输出中获得反应 ,从而对用户造成误导。


(六)推理隐私泄露危害


虽然大模子在训练时不会记着详细的数据 ,但若是训练数据中包括敏感信息 ,大模子可能学到这些信息的一样平常模式 ,并在天生文本时爆发类似的内容。例如 ,若是大模子在训练数据中看到了许多密钥信息 ,它很可能在内容天生时输出真实密钥信息 ,从而导致敏感信息或隐私信息走漏。攻击者甚至会恶意诱导大模子输出隐私内容。


(七)事实性过失危害


图灵奖得主杨立昆(Yann LeCun)指出 ,自回归模子的过失概率会指数叠加 ,基于自回归模式的天生式人工智能难以处置惩罚过失叠加的问题 ,随着输出长度增添 ,大模子的“幻觉”更显着 ,即大模子可能一本正经地输蜕化误或虚伪的信息�;镁跷侍獾谋4� ,部分缘故原由是大模子可能被人为使用 ,通过重复诱导爆发过失的输出。但纵然没有人为的居心诱导 ,幻觉问题仍然会保存。


假设应用于医学、金融等非闲聊式场景 ,这些潜在危害可能会造成经济损失或威胁生命清静。例如 ,美国一位拥有 30 年履历的资深状师 Steven Schwartz 使用 ChatGPT 建设执法研究报告 ,并重复用 ChatGPT 确认这些案例都是真实保存的 ,并且能在着名执法数据库中查到。然而 ,在提交了这些报告后 ,被法院认定至少有 6 个案例“不保存” ,因此他陷入了贫困。


二、危害治理


由于深度神经网络的不可诠释性 ,我们无法确定网络中哪部分参数对应以优势险 ,也没有手艺手段在天生阶段榨取大模子天生危害内容。这决议了必需从工程化的危害治理视角出发 ,团结海内外规则和提倡性意见 ,天生式人工智能的危害治理需要贯串产品的全生命周期——数据处置惩罚、大模子训练、问题输入、内容天生、内容宣布与撒播各阶段。


(一)数据收罗、处置惩罚阶段的危害治理


为了�;な莸纳衩匦院屯暾� ,在数据处置惩罚阶段必需接纳适当的清静步伐 ,包括数据分类与�;ぁ⑹萃衙簟⑹菰瓷蠛恕⒉罘忠胶屯用艿�。在数据清静方面 ,应对数据举行分类和分级 ,凭证其清静级别接纳响应的�;げ椒� ,并通过流程化的流转审批机制确保数据转达的正当性和授权。在须要时 ,对敏感数据举行脱敏处置惩罚 ,以�;ば∥宜郊乙� ,并建设数据备份与恢复机制 ,避免数据丧失或损坏 ,并确保数据的快速恢复。别的 ,选择可信度高、准确导向的数据源举行正当收罗 ,针对大模子面临的数据投毒和隐私走漏危害 ,接纳数据洗濯的方法筛选出有问题的数据 ,并将相关数据从训练数据中移除。


在数据隐私�;し矫� ,差分隐私手艺通过添加噪声来�;び没Ш湍W又浣换サ氖�。别的 ,结条约态加密实现加密存储和清静盘算 ,确保数据在加密状态下的清静性 ,也是一种有用的隐私�;げ椒�


(二)大模子训练阶段的危害治理


训练阶段涤讪了大模子能力的基石 ,同时也修建了其清静防地 ,以下是四个要害的治理战略。


一是清静评测。针对算法清静危害 ,可以建设综合性的评测机制 ,不但包括攻击手段 ,也涵盖其他评估要领 ,以攻促防 ,周全评估算法的清静性。例如 ,除了使用对抗攻击的手段来测试大模子的防御能力 ,还可以接纳代码审查、误差扫描等要领 ,以及通过越狱攻击、反向诱导等手段来测试大模子对抗提醒注入攻击的能力。


二是增强鲁棒性。通过刷新算法训练要领、调解算法模子结构、扩充多样化的训练数据集 ,来增强盛模子的鲁棒性 ,提升算法对抗诱导攻击的能力。例如 ,可以使用对抗训练、将攻击样本加入训练数据集的方法来增强盛模子对抗和对抗攻击的能力。


三是后门检测。鉴于大模子可能遭受的改动危害 ,可以建设大模子后门检测能力 ,深入剖析大模子的行为模式 ,以便实时发明任何异常行为。这通常涉及对大模子行为举行深度剖析 ,以识别出与正常行为不符的模式。


四是接纳联邦学习手艺。允许大模子在不共享原始数据的情形下举行训练 ,通过在外地装备上处置惩罚数据 ,仅共享大模子的参数更新 ,从而有用�;び没б�。


(三)内容天生阶段的危害治理


用户和大模子交互时 ,大模子所天生的内容清静危害很洪流平上来自于用户的恶意输入和诱导。因此 ,从用户维度举行管控也是很是有用的手段之一。


一是清静攻击检测。通过清静检测手段 ,检测大模子在应用历程中是否保存提醒注入攻击、对抗攻击和隐私攻击。例如 ,可以通过提醒过滤的方法从输入侧防御提醒注入攻击 ,过滤掉可能导致攻击行为的提醒注入和潜在的敏感内容。二是内容清静合规审核。纵然没有用户的诱导 ,大模子的输出内容也并非完全清静。清静合规审核的目的是识别并阻止输出危害内容 ,以确保大模子和相关应用的内容清静。OpenAI 声称 ,用 GPT-4 做内容审核的水平比轻量级训练过的人类审核员强 ,但比训练有素的人类审核员弱。因此 ,可以使用基于大模子的要领来识别大模子的输出内容是否涉及暴力、色情、歧视、私见等。


现在 ,有一些危害识别的计划提出 ,例如 Perspective API、finetuned Roberta-Hate-Speech、Llama Guard 和 ShieldLM。其中 ,Perspective API 和finetuned Roberta-Hate-Speech 在特定类别的数据上体现优异 ,但不可顺应新的规则的定制;Llama Guard 在训练时代加入了规则 ,但缺乏诠释能力;ShieldLM 通过网络大宗中英文标注的盘问-响应来增强与人类清静标准的一致性 ,支持在训练时加入自界说规则。别的 ,ShieldLM 构建了一个流程 ,自动建设与人类标注一致的自然语言剖析 ,资助诠释响应为何被以为是清静、不清静或有争议。


(四)内容撒播阶段的危害治理


在内容撒播阶段 ,危害的扩散规模和速率已经脱离了服务提供者的控制 ,因此需要用撒播领域的手段来治理危害。

一是添加标识。通过使用水印系统等方法标明人工智能天生的内容 ,有助于降低人工智能天生的诱骗内容的危险性。例如 ,Google DeepMind 宣布推出一种添加水印的工具 SynthID ,为谷歌的文生图模子 Imagen 天生的图像添加水印 ,在不影响图像质量的条件下标识人工智能天生的内容 ,向公众提醒深度合成情形。二是危害监测。建设舆情监测机制和举报投诉入口 ,并实时响应和处置惩罚。


三、未来大模子攻防的展望


随着深度学习手艺的生长和研究的深入 ,未来大模子的攻防将在动态抗衡中一直升级 ,同时 ,大模子需要应对的新型清静威胁也将一直涌现和升级。包括图灵奖得主约书亚·本吉奥(Yoshua Bengio)在内的 19 人团队 ,探讨了意识的客观保存的标准和评估框架 ,证实晰人工智能现在的能力和形态在这个评估框架之下暂时还不切合意识的标准 ,但凭证现在的生长趋势 ,人工智能生长出意识不保存客观的障碍。OpenAI 前首席科学家、团结首创人伊尔亚·苏茨克维(Ilya Sutskever)在一次采访中体现 ,ChatGPT 可能已经具备了某种意识 ,新的优先级的事情是要阻止超等人工智醒目坏事。未来可能面临以下新型清静问题。


一是自顺应对抗攻击。随着大模子变得越发重大 ,攻击者可能会开发出能够自顺应模子防御机制的高级对抗性攻击 ,这些攻击可能在大模子更新或变换时迅速演化。二是深度伪造与信托�;�。使用大模子天生的深度伪造内容将越发逼真 ,这可能导致公众对数字媒体的信托度下降 ,引发社会层面的信息验证�;�。三是人工智能辅助的自动化攻击。人工智能手艺自己将被用于自动化攻击流程 ,实现快速识别系统误差、自动天生攻击剧本 ,大幅提高攻击效率和威胁级别。四是伦理和执法合规性问题。随着大模子在更多敏感领域的应用 ,如医疗、司法等 ,它们必需切合更高的伦理和执法标准。未来可能会泛起更多关于大模子决议历程和效果的合规性争议。五是大模子的可诠释性和透明度问题。大模子的决议历程往往不敷透明 ,这可能导致在要害领域中难以对其输出效果举行验证和信托。未来可能会泛起更多要求提高峻模子可诠释性和透明度的需求。



本文刊登于《中国信息清静》杂志2024年第6期