乐鱼体育技术慢下来还是治理跟上去？破解AIGC“科林格里奇困境”：用模型监督模型

日期：2023-12-29 15:43 / 作者：ezajj

　　乐鱼体育英国技术哲学家大卫·科林格里奇在《技术的社会控制》（1980）中指出：一项技术如果因为担心不良后果而过早实施控制，那么技术很可能就难以爆发。反之，如果控制过晚，已经成为整个经济和社会结构的一部分，就可能走向失控，再来解决不良问题就会变得昂贵、困难和耗时间，甚至难以或不能改变。

　　这种技术控制两难的“科林格里奇困境”，正成为当下AIGC（生成式人工智能）治理需要直面的挑战。

　　12月27日，“AI发展与治理创新研讨会”在北京举行。来自中国科学院、中国社会科学院大学、复旦大学、浙江大学、国家部委研究机构和国内AI企业的专家学者围绕AIGC技术乐鱼体育、风险和治理展开了激烈探讨。

　　2023年，伴随AIGC在全球的竞技式发展，国内大模型以通义千问、文心一言、讯飞星火等为代表，由通用大模型向行业大模型发展，应用百花齐放，涉及Chat、AIGC、数字人、智能体……

　　随着在人工智能领域的探索与实践的加深，人工智能的技术风险——数据安全性、算法透明性、系统稳定性及伦理争议，再如人类的自主能动、隐私保护、社会公平等逐渐暴露，由此引发社会的广泛关注。人工智能的风险管理乐鱼体育、全生命周期的治理成为全球的重要议题。

　　阿里研究院执行副院长袁媛在会上抛出 “灵魂拷问”。正如她所言，技术的发展是一种非线性，甚至是指数型的增长，但是从知识的积累、治理工具的演进，到政策的完善，它始终是一个线性的过程。政策与科技步调不一致成了必然规律。无论让技术慢下来、还是让政策跟上去，都考验着治理的包容与创新。

　　2023年3月，一组由AI绘图工具Midjourney生成的“特朗普被捕假照片”在网上疯传，“有图未必有真相”让外界对AIGC的内容风险有了清醒的共识。

　　阿里巴巴人工智能治理和可持续发展研究中心首席科学家何源分析指出AIGC当下四大风险时，亦直言“内容安全”首当其冲。

　　AIGC的“内容安全”广义上包括输出内容的社会安全性，是否合法合规、遵守道德伦理和公序良俗等，具体表现在违法不良信息、内容失实、偏见歧视、违反伦理道德等方面。

　　何源进一步指出，首先，相比传统内容生产模式，AIGC可以通过交互式快速生产，生产成本显著降低；而通过prompt方式可以批量生产大量内容，进行规模化，包括一些色情、低俗、血腥恐怖的内容，甚至不良导向的内容等等，对内容安全的防控带来新的挑战。与此同时，相比真实构图，AIGC生成内容具有更高的自由度，更加复杂、隐晦；AIGC产品还需要快速响应用户指令，这对内容安全防控体系都提出更高的时效性要求。

　　《每日经济新闻》记者现场了解到，多数与会专家对AIGC的内容风险都表达了“输出输入内容审核”的重要性。

　　但需要直面的另一个现实是，如果每一条输出内容都进行人工审查，人力成本大幅上升而用户体验严重受损，不具有可行性，这成为内容安全保障的难点。同时，由于现阶段生成式人工智能服务通常无法提供准确的依据和来源，相关生成内容无法鉴伪，风险也无法被有效定位溯源。

　　阿里巴巴集团与中国电子技术标准化研究院当日联合发布的《AIGC治理与实践白皮书》（以下简称《白皮书》）对此则认为，从训练数据和算法源头上控制内容安全、管理用户的输入和对生成结果的使用，成为降低AIGC风险的重要切入点。

　　谈及 “模型安全”，何源认为，由于大模型基于深度学习框架构建，在对抗“鲁棒性”（即模型对于输入中的扰动、对抗性样本或恶意攻击是否具有足够的抵抗力）上同样存在安全隐患；大模型基于海量数据进行自监督训练和基于反馈的强化学习优化，存在数据攻击风险，比如数据投毒、提示词越狱攻击等。而深度学习的黑盒运行机制，导致大模型同样面临“可解释性不足”的问题。

　　2023年，美国版权局拒绝登记《Zarya of the Dawn》，判定用Midjourney制作的AI图片不受保护；2023年12月，北京互联网法院公开审理AI文生图著作权案，原告使用AI生成图片发布网络后，被告直接拿去使用，原告认为被告侵犯了他的知识产权。这个案例北京互联网法院一审支持了原告。不过，《每日经济新闻》记者也注意到，该案判决强调，利用人工智能生成的内容，是否构成作品，需要个案判断，不能一概而论。

　　“大模型的训练是基于海量的数据，通常我们不可能为每一个训练数据确认它的使用权限。同时数据的隐私问题也会是一个潜在的风险。因为大模型用海量的互联网数据，既然没有确认每一张图片每一个样本的授权，版权的情况就会存在用户的数据隐私泄露的风险。”何源如是说。

　　2023年上半年，人工智能法草案被列入国务院2023年度立法工作计划；8月15日，由国家互联网信息办公室等七部门联合发布的《生成式人工智能服务管理暂行办法》正式施行。这是我国首份针对生成式人工智能的规范性监管文件……

　　11月2日，首届全球人工智能安全峰会在英国落下帷幕，包括中国、美国、英国在内的28个国家及欧盟共同签署了《布莱奇利宣言》（以下简称《宣言》）。《宣言》强调，人工智能的许多风险本质上是国际性的，因此“最好通过国际合作来解决”。与会国家和地区同意协力打造一个“具有国际包容性”的前沿人工智能安全科学研究网络，以对尚未完全了解的人工智能风险和能力加深理解。

　　复旦大学计算机科学技术学院教授张谧认为：“现在全球范围内有AI竞赛的氛围，注重安全反而可能造成技术落后，为了占领先机便不得不搁置安全。各方应该立足长远，携手营造有序竞争，把风险控制在防护能力的上界之内，保障AI发展处于安全区域。”

　　张谧对AI大模型未来的安全前景持乐观态度，她援引前沿观点指出，随着评测、治理技术的成熟，以及治理体系的完善，人类提供一整套安全规则，AI就能根据规则实现“用模型监督模型”。

　　何源则认为，AIGC风险治理不仅要对AIGC进行有针对性的立法、构建与技术应用相匹配的治理机制，还需要人工智能产业主动进行负责任的自律自治。

　　何源也对“大模型评测大模型”提出了他的看法：“我们认为大模型的风险用小模型去识别和处理是不够的，我们需要用大模型来评测大模型乐鱼体育，我们通过大模型生成内容安全风险的指令，看看目标模型的产出，构造一个闭环。”

　　在何源看来，最强的攻击手段是最好的评测方法，通过智能体对抗博弈，发现目标LLM（大语言模型）的风险敞口；同时，由易到难，得到丰富多彩的安全评测样本，提供给LLM进行内生安全增强。“风险不能仅仅靠安全措施在输入和输出环节，提升内生安全才是根本的解决方案。”