人工智能护栏的拆除引发了对开源模型监管限制的质疑

原文：AI guardrail removals raise questions over limits of open-source model regulation

《金融时报》测试发现，Meta 和谷歌对开放人工智能模型的安全控制可能在几分钟内被取消，引发了治理方面的担忧。

根据《金融时报》与人工智能安全组织 Alice 的测试，使用公开可用的工具可以在几分钟内删除主要技术组织开源人工智能模型的安全保护，从而使系统能够对包括生物武器、恶意软件和其他违禁内容在内的主题做出响应。

周一发布的调查结果加剧了人们的担忧，即一旦模型权重被发布和修改，开发人员嵌入的保护措施可能不会持续存在，这引发了关于人工智能安全责任应该由何处承担的问题。

这项调查使用公共代码存储库上提供的工具进行，发现 Meta 和 Google 等公司开发的模型上的护栏可以在 10 分钟内移除，无需专业硬件。

根据测试，系统的修改版本随后能够响应原始模型拒绝的提示，包括与恶意软件和化学危害相关的请求。

结果突显了政策制定者面临的挑战，因为开源系统变得更加强大且分布广泛。

相关：人工智能代理必须被视为不受信任的系统：研究人员

与专有模型不同，开源系统可以在原始开发人员的控制之外进行下载、更改和重新分发，这使得发布后执行安全约束变得更加困难，并引发了主要针对模型开发的监管是否足够的问题。

治理限制

全球监管机构正在开发先进人工智能系统的框架，包括欧盟的人工智能法案以及英国和美国新兴的前沿模型安全方法。然而，专家表示，调查结果揭示了当前治理假设的局限性。

欧盟人工智能法案。资料来源：欧盟委员会

马库斯·莱文 (Markus Levin)，decentraliz 联合创始人