Skip to content

演講辭、簡報及專題文章

演講辭、簡報及專題文章

個人資料私隱專員在「香港律師」的文章
人工智能的轉捩點 :有關私隱和道德問題的關注(2023年6月)

隨著Open AI的ChatGPT、Google的Bard、微軟的Bing Chat、百度的文心一言和阿里巴巴的通義千問等以生成式人工智能(Generative AI)驅動的聊天機械人的出現,人工智能這話題最近一直佔據新聞頭條。這些先進的語言工具能夠像人類般回應提問,徹底改變我們使用科技交流和互動的方式。然而,在2023年3月,數以千計的人工智能專家、學者和商界領袖簽署了一封公開信,呼籲所有人工智能實驗室在最少六個月內暫停訓練相比GPT-4更強大的人工智能系統,並在這期間共同制定和實施一套用於高階人工智能系統的設計和開發的安全守則。這時候正好讓我們重新審視使用人工智能對私隱和道德價值所帶來的影響,以期羅列相關的考慮因素,確保機構以負責任的方式開發及使用人工智能。

生成式AI :顛覆現狀

麥肯錫將「生成式AI」定義為「可用於創建新內容(包括語音、代碼、圖像、文字、模擬和影片)的算法」。相對公眾較少關注的早期人工智能,衹專注於自動化或通過分析大數據進行決策,生成式AI迅速成為了全球熱話,全因它有「神奇」的能力,能夠回應幾乎任何提問,及根據輸入的提示生成猶如由人類創作的新內容,並以聊天機械人、搜索引擎和圖像生成網上平台等形式出現供人使用。

生成式AI具有革命性的潛能,可為各行各業提高效率和帶來新的認知。據報導,科技巨頭已在研究將生成式AI應用到它們生產的軟件之中,俾能令無數企業受益。而建基於大型語言模型(Large Language Models)的人工智能聊天機械人(如ChatGPT)擁有許多領域的知識,可以協助起草文件、制作個人化內容和商業計劃、回應查詢等。這些變革亦為法律行業帶來一些改變,例如一些律師行已經開始利用生成式AI把不同的法律工作自動化,以提升效率,例如合同分析、盡職調查、訴訟和監管合規等。

有「機」亦有「危」

然而,全面審視生成式AI,就會發現它也帶來了不同的私隱和道德問題。

私隱風險

有別於以監督式機器學習 (supervised machine learning) 訓練的人工智能,以大型語言模型為基礎的人工智能聊天機械人是利用深度學習技術,在沒有監督的情況下分析和學習大量非結構化數據 (unstructured data)。這些訓練數據通常來自在互聯網上公開的文字,當中可能包括敏感的個人資料,甚至是在網上發布的瑣事。例如,據報導,ChatGPT的開發者是從互聯網上收集了多達3000億字來訓練ChatGPT。由於許多開發人工智能的機構會保留其數據集的專有權,並且很少披露有關收集資料的詳請,因此它們可能規避了一般資料保障法例要求以公平和在當事人知情的情況下收集個人資料的規定(如《個人資料(私隱)條例》(《私隱條例》)的保障資料第1及第5原則),從而構成私隱風險。

人工智能聊天機械人的回答內容也可能產生私隱問題,因為聊天機械人與用戶的對話可能會成為人工智能模型的新訓練數據。如果用戶無意中向人工智能系統提供敏感資料,這些資料便有機會被濫用,超出原本的收集目的,因而違反有關限制使用資料的原則(《私隱條例》保障資料第3原則)。人工智能聊天機械人亦可能提供包含個人資料的回應,而包含這些個人資料的前文後理可能被誤解或已被刪除。

另外,開發生成式AI的機構可能在資料當事人的查閱及更正個人資料的權利(《私隱條例》保障資料第6原則)和個人資料的保存期限(《私隱條例》保障資料第2原則及第26條)方面遇上困難。舉例說,若過時及/或不準確的個人資料被用作人工智能的訓練數據,並成為背後大型語言模型的一部分,用戶便很難(甚至無可能)查閱、更正和刪除這些資料。

此外,正因人工智能聊天機械人的模型和數據庫存儲了大量的對話,當中的資料保安風險也不容忽視。即使沒有受到外來的惡意威脅,單是意外的資料外洩亦可構成重大傷害。就在2023年3月,ChatGPT出現了一次嚴重的資料外洩事故,披露了部分用戶過往對話的標題、用戶的姓名、電郵地址和信用卡號碼的最後四位數字。

毋庸置疑,相關的機構必須保障個人資料不會受未獲准許的或意外的查閲、處理、刪除、喪失或使用(《私隱條例》保障資料第4原則)所影響。

其他道德風險

誠然,開發任何人工智能模型都應避免用劣質的材料生產劣質的產品。筆者認為這個問題在人工智能聊天機械人中尤其令人擔憂。聊天機械人不時會自信地提供錯誤但看似合理的答案,專家將這種現象稱為「幻覺」(hallucination)。有一次,筆者向一個聊天機械人指出,它提供的答案不正確,而聊天機械人即時回覆:「對不起,我犯了一個錯誤。」人工智能聊天機械人提供不準確的資料,例如錯誤的醫療建議,更可能會對用戶造成嚴重的後果。

另一個更複雜的道德風險問題是:生成式AI所生成的內容可能帶有歧視或偏見。這是因為人工智能模型的訓練數據是從現實世界中收集,因此亦包含現實世界的偏見(例如種族、性別和年齡歧視等);而當這些數據成為了人工智能模型的一部分,該人工智能便會生成帶有歧視性或偏見的內容。

最後,通用的人工智能難以避免被壞人利用的風險。一個典型的例子是深偽技術 (deepfake),即以生成式AI科技合成的虛假語音、圖像或影片,可能被用於傳播虛假新聞或有害宣傳。人工智能聊天機械人也可能被用於編寫惡意軟件的代碼。

以上這些道德風險突顯了社會需要切實努力,制訂有效的保障措施,以防止人工智能被不當利用。

人工智能的監管環境

在監管方面,內地的《互聯網信息服務深度合成管理規定》於2023年1月生效,規範深度合成服務提供者、營運商和使用者。國家互聯網信息辦公室(網信辦)亦於2023年4月發布了《生成式人工智能服務管理辦法(徵求意見稿)》,其中規定禁止生成有害內容,並要求生成式人工智能產品和服務提供者向公眾提供服務前向網信辦申報安全評估;亦明確要求提供者遵守內地《個人信息保護法》。另一方面,歐盟正計劃通過《人工智能法》規管所有人工智能。該法案提出以風險為基礎的方式監管所有人工智能系統,並禁止使用某些高風險人工智能系統。加拿大也在考慮制訂類似法律,即《人工智能和數據法》,目前正在進行公眾諮詢。最近,英國政府於2023年3月發布了人工智能的白皮書,提出以原則為本的框架規管人工智能,被視為比歐盟提出的監管方式更支持創新及更靈活。儘管方式不盡相同,但這些監管計劃都認同保障個人資料和道德風險的重要性。上述擬議的法例均規定在開發和使用人工智能系統時,必須尊重私隱和保護個人資料,並維護道德價值,如防止偏見,保持公平和透明等。

各地政府和監管機構也一直在發布有關人工智能的指引,建議在營運中使用生成式AI的機構留意有關人工智能的管治和道德框架。個人資料私隱專員公署於2021年8月發布了《開發及使用人工智能道德標準指引》,協助機構以保障私隱和具道德的方式開發及使用人工智能系統。該指引臚列了國際公認的人工智能道德原則,涵蓋問責、人為監督、透明度與可解釋性、公平、數據私隱、有益的人工智能,以及可靠、穩健和安全方面的標準。內地政府於2021年9月發布的《新一代人工智能倫理規範》亦訂定了類似的原則,如增進人類福祉、促進公平公正及保護隱私安全。亞太區其他司法管轄區,如新加坡、日本和南韓,也發佈了有關人工智能道德管治的指引。

儘管全球尚未就是否應通過立法或其他方式規管人工智能及規管的範圍達成共識,但可以肯定的是,在迎接一個人工智能所帶來令人振奮又充滿機遇的前景的同時,我們也必須評估和控制它對數據私隱和道德價值可能帶來的傷害。所有持份者,包括科技公司和人工智能開發機構,應攜手共建一個安全及健康的人工智能生態系統,確保這個變革性的技術會用於人類的福祉。