中共中央、國務(wù)院于2017年印發(fā)的《新一代人工智能發(fā)展規劃》指出,“在大力發(fā)展人工智能的同時(shí),必須高度重視其可能帶來(lái)的安全風(fēng)險挑戰,加強前瞻預防與約束引導,最大限度降低風(fēng)險,確保人工智能安全、可靠、可控發(fā)展。”
本文以ChatGPT為切入點(diǎn),選取人工智能聊天機器人所引起的知識產(chǎn)權風(fēng)險進(jìn)行討論。一是因為ChatGPT的高度智能性主要表現在其能夠模仿人類(lèi)的表達邏輯,生成的文本內容與人類(lèi)創(chuàng )作的作品高度相近,并且在多數情況下可以為用戶(hù)直接采用,因而版權歸屬問(wèn)題、用戶(hù)使用限度問(wèn)題是強人工智能體對當前法律體系帶來(lái)的最直觀(guān)沖擊。二是強人工智能的發(fā)展以龐大的數據集為根基,缺乏足量的數據就無(wú)法對人工智能進(jìn)行訓練,而數據集的調用又涉及原始創(chuàng )作者的著(zhù)作權與商標權。
ChatGPT對當前人工智能的突破
由于以往的人工智能在“類(lèi)人性”方面總是有所缺憾,無(wú)論是繪畫(huà)創(chuàng )作AI“微軟小冰”還是蘋(píng)果智能語(yǔ)音助手Siri,都難以完整地復現人類(lèi)心智,因此這一定義在提出時(shí)很大程度上只是對未來(lái)的超前設想,描述了人工智能的發(fā)展遠景。而ChatGPT的出現使人工智能技術(shù)向“類(lèi)人性表達”的目標無(wú)限趨近,其生成文學(xué)作品、法律文書(shū)、案例分析的能力足以表明,當前生成式AI正從“技術(shù)層”向“應用層”突破,現實(shí)地完成人類(lèi)的高難度工作。具體而言,ChatGPT至少在通用性、智能性與邏輯性3個(gè)方面大幅領(lǐng)先于現有生成式AI。
ChatGPT具有通用人工智能大模型的特征
以往的人工智能多屬于小語(yǔ)言模型,其應用僅限于特定場(chǎng)景和專(zhuān)業(yè)范疇。ChatGPT則實(shí)現了“小模型”向“大模型”的突破,能夠回答法學(xué)、計算機、文學(xué)、經(jīng)濟學(xué)等多種專(zhuān)業(yè)領(lǐng)域的問(wèn)題,這具有兩方面意蘊。
一方面,通用性使人工智能的決策模式與人的相似性進(jìn)一步提高,與AlphaGo等小模型相比,克服場(chǎng)景限制后的ChatGPT很難再被單純地定義為一種專(zhuān)業(yè)輔助工具,至少從外觀(guān)上看ChatGPT更接近助手或顧問(wèn)的角色。
另一方面,通用性也標志著(zhù)人工智能技術(shù)逐步走向普適化、平民化應用。統計公司Similarweb數據顯示,2023年1月ChatGPT單日平均獨立訪(fǎng)客數量已達1300萬(wàn)人次,而至2月初,單日用戶(hù)訪(fǎng)問(wèn)量已達2500萬(wàn)人次。在以往的小模型階段,人工智能的開(kāi)發(fā)主要是為了解決特定領(lǐng)域的專(zhuān)業(yè)難題,因此在多數情況下只有特定行業(yè)的專(zhuān)業(yè)人員能夠接觸、使用AI。通用性人工智能的出現,使AI的應用正式從小范圍特定人群走向普羅大眾,與此同時(shí)也將潛在風(fēng)險向社會(huì )層面擴散。
ChatGPT具有高度智能化的特征
OpenAI官網(wǎng)內容顯示,ChatGPT的創(chuàng )新之處在于采用了RLHF(基于人類(lèi)反饋的強化學(xué)習)人工智能訓練方法,該訓練方法使得ChatGPT具有與以往人工智能不同的高度智能化特征。這一訓練過(guò)程包含3個(gè)階段,首先是監督學(xué)習階段,相比起AI無(wú)監督自我學(xué)習,監督學(xué)習需要專(zhuān)業(yè)人員對ChatGPT待解決的問(wèn)題進(jìn)行人工數據標注,為ChatGPT人工書(shū)寫(xiě)高質(zhì)量的答案。其次是訓練獎勵模型階段,專(zhuān)業(yè)人員通過(guò)建立獎勵模型的方式對ChatGPT輸出的不同答案進(jìn)行打分,促使ChatGPT輸出高分答案。最后是強化學(xué)習階段,運用PPO算法不斷強化ChatGPT的能力。
RLHF訓練方法極大地提升了ChatGPT的智能性,強化了生成式AI的功能,這一提升主要體現在以下兩個(gè)方面。其一,ChatGPT能夠基于人類(lèi)反饋模仿人類(lèi)的表達方式和表達邏輯。以往生成式AI所輸出的文本存在邏輯性較差、語(yǔ)序混亂、表達生硬以及情感缺失等問(wèn)題,與人類(lèi)的表達方式相去甚遠,因此無(wú)法被用戶(hù)直接使用。而ChatGPT能夠學(xué)習、模仿人類(lèi)的表達方式,輸出邏輯更嚴密、表達更健全的文本內容,因此可以在不經(jīng)用戶(hù)改寫(xiě)或少量改寫(xiě)的情況下直接使用。其二,ChatGPT能夠精準識別用戶(hù)指令,輸出與用戶(hù)需求高度匹配的答案。ChatGPT與之前的模型相比,其對話(huà)生成實(shí)現了從命令驅動(dòng)到意圖驅動(dòng)的轉換。ChatGPT在與用戶(hù)交流的過(guò)程中,用戶(hù)無(wú)需輸入繁瑣的要求和指令,僅需用日常語(yǔ)言輸入簡(jiǎn)單的想法,ChatGPT即可“心領(lǐng)神會(huì )”,完成用戶(hù)所指定的任務(wù)。此種對用戶(hù)需求精準識別的能力能夠有效降低AI產(chǎn)品的使用門(mén)檻,但同時(shí)也加劇了AI異化為違法犯罪工具的風(fēng)險。
ChatGPT具有記憶性
ChatGPT與當前人工智能相比另一個(gè)重要突破就是能夠記住與用戶(hù)交流的內容,并具有在前期對話(huà)的基礎上與用戶(hù)進(jìn)行持續交流的功能。使用者表示,ChatGPT能夠根據用戶(hù)的后續指令進(jìn)一步修正自己先前輸出的答案,也能夠質(zhì)疑不正當的提問(wèn)。記憶性特征使ChatGPT的運用變得更加靈活多樣,用戶(hù)所獲得的答案并非一次性的,即使ChatGPT初次生成的內容與用戶(hù)需求還存在一定的距離,用戶(hù)也無(wú)需親自進(jìn)行人工修改,而是可以逐步引導其增加、刪減部分內容。
ChatGPT所涉知識產(chǎn)權風(fēng)險的應對
人類(lèi)技術(shù)發(fā)展史表明,新技術(shù)一旦在人類(lèi)社會(huì )廣泛應用,將不可避免地引發(fā)全新的法律風(fēng)險。互聯(lián)網(wǎng)的普及引起了法學(xué)界對網(wǎng)絡(luò )暴力、通信信息詐騙、數據侵權、虛擬財產(chǎn)犯罪等風(fēng)險的警惕與慎思,相應的,以ChatGPT為代表的通用性、高智能性、記憶性人工智能的廣泛應用,也會(huì )對既有法律體系與法學(xué)理論提出全新的挑戰。作為文本生成式AI,目前ChatGPT尚不具有生成圖像、音視頻以及聯(lián)通多用戶(hù)交流的能力,因此其被利用成為智能化犯罪工具的可能性尚處于較低水平,現階段ChatGPT在法學(xué)領(lǐng)域引起的沖擊更多地集中于知識產(chǎn)權領(lǐng)域,包含在數據源獲取與內容生成兩個(gè)運行階段之中。
在數據源獲取階段,人工智能對數據集的使用可能涉及對原始作品權利人的侵權風(fēng)險。在內容生成階段,ChatGPT將進(jìn)一步引起人們對AI主體地位、AI生成物法律權屬問(wèn)題的反思。
ChatGPT在數據源獲取階段的侵權風(fēng)險
算法、算力、數據是人工智能開(kāi)發(fā)的三大要素。ChatGPT的通用性、高智能性、記憶性除基于其特殊的訓練方法外,更源于其所擁有的海量數據集。據統計,ChatGPT背后所擁有的參數高達1750億個(gè),遠超現有的其他生成式AI。根據國外人工智能學(xué)者Alan D.Thompson的研究,ChatGPT的數據源包含維基百科、書(shū)籍、期刊、Reddit鏈接、Common Crawl等。ChatGPT是通過(guò)學(xué)習互聯(lián)網(wǎng)上的現有數據,并在此基礎上加工整理形成答案的,而社交網(wǎng)站、書(shū)籍、網(wǎng)頁(yè)數據無(wú)不包含著(zhù)大量原始創(chuàng )作者的作品,這一過(guò)程并未經(jīng)過(guò)版權人許可,可能構成對原始作品權利人的侵權。
這一問(wèn)題在實(shí)踐中已經(jīng)出現,在A(yíng)ndersen et al v Stability案中,以Andersen為代表的3位藝術(shù)家對一款AI繪圖工具提起集體訴訟,認為AI公司在未經(jīng)許可的情況下將多位藝術(shù)家所創(chuàng )作的50億張網(wǎng)絡(luò )圖片用于A(yíng)I機器學(xué)習,其行為侵犯了藝術(shù)家們的權利。與此相近的是,意大利個(gè)人數據保護局取締了一款名為“Replika”的人工智能聊天機器人,認為其非法收集、使用原始數據。該案雖然并非知識產(chǎn)權侵權,但也同樣表明目前AI抓取、使用數據可能侵犯原始數據源之上的各種權利。
對于數據源獲取階段的知識產(chǎn)權侵權風(fēng)險,筆者認為,在解釋論上應適度擴張合理使用制度的范圍,以使其能夠適用于A(yíng)I抓取公開(kāi)數據的情形。
其一,數據抓取、分析是開(kāi)發(fā)人工智能程序的必要條件,未來(lái)強人工智能的進(jìn)一步發(fā)展更需要海量的數據源支撐。相關(guān)研究表明,人工智能大模型的訓練至少需要62億的參數量。此時(shí)要求開(kāi)發(fā)者獲取全部產(chǎn)權人的許可并不現實(shí),知識產(chǎn)權法領(lǐng)域若不能弱化該風(fēng)險,將阻礙人工智能的技術(shù)創(chuàng )新。
其二,AI開(kāi)發(fā)者利用數據集的行為具有合理使用的外觀(guān)。AI及其開(kāi)發(fā)者使用數據集的行為包含復制導入數據和AI學(xué)習分析數據兩個(gè)過(guò)程,而知識產(chǎn)權法之所以對復制行為進(jìn)行規制,是因為在傳統的出版領(lǐng)域復制與發(fā)行具有密切相關(guān)性,控制復制行為能夠有效阻止其后的發(fā)行行為。而現代計算機技術(shù)的出現使復制行為和傳播行為發(fā)生分離,單純復制行為的規制必要性大大降低,多數個(gè)人復制行為都被納入合理使用制度的框架,互聯(lián)網(wǎng)傳播行為成為法律規制的重點(diǎn)。而人工智能對數據源的使用恰恰具有單純復制行為的特征,開(kāi)發(fā)者所使用的數據源都是從互聯(lián)網(wǎng)上已公開(kāi)的內容中抓取的,其獲取行為不具有非法性,而且開(kāi)發(fā)者利用數據訓練人工智能,AI生成物在多數情況下不會(huì )復現原作品的內容。
ChatGPT在內容生成階段的權屬爭議風(fēng)險
如前所述,ChatGPT具有通用性、智能性及強大的人類(lèi)模仿能力,這使得其生成物具有與以往人工智能生成物相比更高的價(jià)值。而且ChatGPT已經(jīng)在社會(huì )層面得以普及,除部分IP受限制的國家和地區外,普通民眾也能直接注冊、使用ChatGPT。上述兩點(diǎn)使AI生成物的權屬問(wèn)題更實(shí)際地擺在了知識產(chǎn)權法理論面前,如果說(shuō)之前法學(xué)界對AI生成物權屬的探討是前瞻性的,那么現在的探討無(wú)疑具有現實(shí)性。
現有司法實(shí)踐對AI生成物權屬的判斷主要包含以下3個(gè)層面。一是從作品的角度入手,探討AI生成物是否符合著(zhù)作權法理論中作品的含義。二是從創(chuàng )作行為的角度入手,探討AI的創(chuàng )作過(guò)程是否具有“獨創(chuàng )性”。三是根據智力成果的投入,確定作品應歸屬于開(kāi)發(fā)者還是用戶(hù)。持肯定態(tài)度的觀(guān)點(diǎn)認為,AI生成物在外觀(guān)上具有獨創(chuàng )性,并且能夠體現創(chuàng )造者的個(gè)性化選擇、技巧、判斷等因素。持否定態(tài)度的觀(guān)點(diǎn)強調作品必須是人的智力成果,創(chuàng )作行為也必須是人的智力活動(dòng),AI生成物缺乏人的智力參與,沒(méi)有傳遞軟件使用者的思想,不能被認定為作品。
事實(shí)上,從“獨創(chuàng )性”“作品”角度探討人工智能生成物的權利歸屬問(wèn)題不具有現實(shí)意義,因為AI生成物和人類(lèi)作品的核心差異并不在于作品外觀(guān)上是否具有獨創(chuàng )性特征,而在于是否由人所完成。正如華東政法大學(xué)王遷教授所言,“只有當源自人類(lèi)的相同內容屬于作品時(shí),才有必要討論由人工智能生成的內容能否被認定為作品。”AI生成物的權屬問(wèn)題在根本上要解決的是AI所輸出的內容是否具有賦予其法律保護的必要性,或者說(shuō),AI生成物如果不受法律保護而成為人人可隨意使用的內容,是否會(huì )導致學(xué)術(shù)不端、抄襲泛濫?
筆者認為,在現階段有必要對AI生成物進(jìn)行法律保護。一是因為當前AI生成物已經(jīng)超出了對既有材料簡(jiǎn)單復制、加工、改寫(xiě)的階段,ChatGPT的高智能使其能夠輸出自身的觀(guān)點(diǎn),并且很難在互聯(lián)網(wǎng)上檢索到與輸出文本相似的內容,換言之,ChatGPT將AI生成物的獨創(chuàng )性推到了一個(gè)前所未有的高度。二是由于A(yíng)I生成物的隨意使用可能誘發(fā)學(xué)術(shù)不端。因此,在以ChatGPT為代表的具有一定程度獨立意識的高智能AI出現后,法律有必要對其生成物進(jìn)行保護,以最大可能防止AI在學(xué)術(shù)科研中的濫用。
需要明確的是,對AI生成物進(jìn)行法律保護并不意味著(zhù)需要承認人工智能的權利主體地位。而應當采用行為規制的方法,從限制用戶(hù)對AI生成物的使用范圍出發(fā),一方面利用行業(yè)自治規則等軟法要求使用者在作品創(chuàng )作中明確披露其對AI的使用情況,在排除AI生成內容后對作品的創(chuàng )新性、實(shí)用性進(jìn)行重新評估,根據作者自身創(chuàng )作的部分來(lái)判斷作品質(zhì)量。另一方面也要強化技術(shù)治理的作用,加大反AI檢測技術(shù)的運用,提升人類(lèi)對AI作品的識別能力,積極利用技術(shù)手段監管、反制技術(shù)所引起的風(fēng)險。
*本文刊載于《通信世界》總第916期 2023年3月25日 第6期原文標題:《人工智能聊天機器人的知識產(chǎn)權風(fēng)險及應對以ChatGPT為切入點(diǎn)》