随着Open AI的ChatGPT、Google的Bard、微软的Bing Chat、百度的文心一言和阿里巴巴的通义千问等以生成式人工智能(Generative AI)驱动的聊天机械人的出现,人工智能这话题最近一直佔据新闻头条。这些先进的语言工具能够像人类般回应提问,彻底改变我们使用科技交流和互动的方式。然而,在2023年3月,数以千计的人工智能专家、学者和商界领袖签署了一封公开信,呼吁所有人工智能实验室在最少六个月内暂停训练相比GPT-4更强大的人工智能系统,并在这期间共同制定和实施一套用于高阶人工智能系统的设计和开发的安全守则。这时候正好让我们重新审视使用人工智能对私隐和道德价值所带来的影响,以期罗列相关的考虑因素,确保机构以负责任的方式开发及使用人工智能。
生成式AI:颠复现状
麦肯锡将「生成式AI」定义为「可用于创建新内容(包括语音、代码、图像、文字、模拟和影片)的算法」。相对公众较少关注的早期人工智能,只专注于自动化或通过分析大数据进行决策,生成式AI迅速成为了全球热话,全因它有「神奇」的能力,能够回应几乎任何提问,及根据输入的提示生成犹如由人类创作的新内容,并以聊天机械人、搜索引擎和图像生成网上平台等形式出现供人使用。
生成式AI具有革命性的潜能,可为各行各业提高效率和带来新的认知。据报导,科技巨头已在研究将生成式AI应用到它们生产的软件之中,俾能令无数企业受益。而建基于大型语言模型(Large Language Models)的人工智能聊天机械人(如ChatGPT)拥有许多领域的知识,可以协助起草文件、制作个人化内容和商业计划、回应查询等。这些变革亦为法律行业带来一些改变,例如一些律师行已经开始利用生成式AI把不同的法律工作自动化,以提升效率,例如合同分析、尽职调查、诉讼和监管合规等。
有「机」亦有「危」
然而,全面审视生成式AI,就会发现它也带来了不同的私隐和道德问题。
私隐风险
有别于以监督式机器学习 (supervised machine learning) 训练的人工智能,以大型语言模型为基础的人工智能聊天机械人是利用深度学习技术,在没有监督的情况下分析和学习大量非结构化数据 (unstructured data)。这些训练数据通常来自在互联网上公开的文字,当中可能包括敏感的个人资料,甚至是在网上发布的琐事。例如,据报导,ChatGPT的开发者是从互联网上收集了多达3000亿字来训练ChatGPT。由于许多开发人工智能的机构会保留其数据集的专有权,并且很少披露有关收集资料的详请,因此它们可能规避了一般资料保障法例要求以公平和在当事人知情的情况下收集个人资料的规定(如《个人资料(私隐)条例》(《私隐条例》)的保障资料第1及第5原则),从而构成私隐风险。
人工智能聊天机械人的回答内容也可能产生私隐问题,因为聊天机械人与用户的对话可能会成为人工智能模型的新训练数据。如果用户无意中向人工智能系统提供敏感资料,这些资料便有机会被滥用,超出原本的收集目的,因而违反有关限制使用资料的原则(《私隐条例》保障资料第3原则)。人工智能聊天机械人亦可能提供包含个人资料的回应,而包含这些个人资料的前文后理可能被误解或已被删除。
另外,开发生成式AI的机构可能在资料当事人的查阅及更正个人资料的权利(《私隐条例》保障资料第6原则)和个人资料的保存期限(《私隐条例》保障资料第2原则及第26条)方面遇上困难。举例说,若过时及/或不准确的个人资料被用作人工智能的训练数据,并成为背后大型语言模型的一部分,用户便很难(甚至无可能)查阅、更正和删除这些资料。
此外,正因人工智能聊天机械人的模型和数据库存储了大量的对话,当中的资料保安风险也不容忽视。即使没有受到外来的恶意威胁,单是意外的资料外洩亦可构成重大伤害。就在2023年3月,ChatGPT出现了一次严重的资料外洩事故,披露了部分用户过往对话的标题、用户的姓名、电邮地址和信用卡号码的最后四位数字。
毋庸置疑,相关的机构必须保障个人资料不会受未获准许的或意外的查阅、处理、删除、丧失或使用(《私隐条例》保障资料第4原则)所影响。
其他道德风险
诚然,开发任何人工智能模型都应避免用劣质的材料生产劣质的产品。笔者认为这个问题在人工智能聊天机械人中尤其令人担忧。聊天机械人不时会自信地提供错误但看似合理的答案,专家将这种现象称为「幻觉」(hallucination)。有一次,笔者向一个聊天机械人指出,它提供的答案不正确,而聊天机械人即时回复:「对不起,我犯了一个错误。」人工智能聊天机械人提供不准确的资料,例如错误的医疗建议,更可能会对用户造成严重的后果。
另一个更复杂的道德风险问题是:生成式AI所生成的内容可能带有歧视或偏见。这是因为人工智能模型的训练数据是从现实世界中收集,因此亦包含现实世界的偏见(例如种族、性别和年龄歧视等);而当这些数据成为了人工智能模型的一部分,该人工智能便会生成带有歧视性或偏见的内容。
最后,通用的人工智能难以避免被坏人利用的风险。一个典型的例子是深伪技术 (deepfake),即以生成式AI科技合成的虚假语音、图像或影片,可能被用于传播虚假新闻或有害宣传。人工智能聊天机械人也可能被用于编写恶意软件的代码。
以上这些道德风险突显了社会需要切实努力,制订有效的保障措施,以防止人工智能被不当利用。
人工智能的监管环境
在监管方面,内地的《互联网信息服务深度合成管理规定》于2023年1月生效,规范深度合成服务提供者、营运商和使用者。国家互联网信息办公室(网信办)亦于2023年4月发布了《生成式人工智能服务管理办法(征求意见稿)》,其中规定禁止生成有害内容,并要求生成式人工智能产品和服务提供者向公众提供服务前向网信办申报安全评估;亦明确要求提供者遵守内地《个人信息保护法》。另一方面,欧盟正计划通过《人工智能法》规管所有人工智能。该法案提出以风险为基础的方式监管所有人工智能系统,并禁止使用某些高风险人工智能系统。加拿大也在考虑制订类似法律,即《人工智能和数据法》,目前正在进行公众谘询。最近,英国政府于2023年3月发布了人工智能的白皮书,提出以原则为本的框架规管人工智能,被视为比欧盟提出的监管方式更支持创新及更灵活。尽管方式不尽相同,但这些监管计划都认同保障个人资料和道德风险的重要性。上述拟议的法例均规定在开发和使用人工智能系统时,必须尊重私隐和保护个人资料,并维护道德价值,如防止偏见,保持公平和透明等。
各地政府和监管机构也一直在发布有关人工智能的指引,建议在营运中使用生成式AI的机构留意有关人工智能的管治和道德框架。个人资料私隐专员公署于2021年8月发布了《开发及使用人工智能道德标准指引》,协助机构以保障私隐和具道德的方式开发及使用人工智能系统。该指引胪列了国际公认的人工智能道德原则,涵盖问责、人为监督、透明度与可解释性、公平、数据私隐、有益的人工智能,以及可靠、稳健和安全方面的标准。内地政府于2021年9月发布的《新一代人工智能伦理规范》亦订定了类似的原则,如增进人类福祉、促进公平公正及保护隐私安全。亚太区其他司法管辖区,如新加坡、日本和南韩,也发布了有关人工智能道德管治的指引。
尽管全球尚未就是否应通过立法或其他方式规管人工智能及规管的范围达成共识,但可以肯定的是,在迎接一个人工智能所带来令人振奋又充满机遇的前景的同时,我们也必须评估和控制它对数据私隐和道德价值可能带来的伤害。所有持份者,包括科技公司和人工智能开发机构,应携手共建一个安全及健康的人工智能生态系统,确保这个变革性的技术会用于人类的福祉。