• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > IT與互聯(lián)網(wǎng) >
     首頁(yè) > 資訊 > IT與互聯(lián)網(wǎng) >

    ChatGPT熱潮下的冷思考——AI數據集發(fā)展現狀、挑戰及建議

    2023-04-04 11:57:22   作者:   來(lái)源:天翼智庫   評論:0  點(diǎn)擊:


      2023年3月14日,OpenAI發(fā)布了多模態(tài)大模型的最新版本GPT-4,通過(guò)采用更大規模的數據集進(jìn)行訓練,其推理能力超過(guò)了ChatGPT,已成為目前最成功、最受歡迎的大模型。

      但GPT-4仍有很多限制,如對數據集的篩選、清洗等不充分,導致輸出內容出現社會(huì )偏見(jiàn)、幻覺(jué)和對抗性提示等。同時(shí)據Appen(全球最大的AI數據服務(wù)公司)調查發(fā)現,41%的AI領(lǐng)域從業(yè)者認為數據管理將是AI發(fā)展面臨的最大障礙。DeepMind團隊也指出,在對訓練數據集進(jìn)行擴展時(shí),需要重點(diǎn)關(guān)注數據集的質(zhì)量管理,尤其是其中的倫理和隱私等問(wèn)題。

      AI領(lǐng)域典型大模型(ChatGPT)的數據集簡(jiǎn)介

      ChatGPT的出現,打破了人們對AI技術(shù)復雜、使用門(mén)檻高的固有思維。雖然谷歌提出了比ChatGPT高10倍參數量的大模型(如Switch Transformer),且ChatGPT的核心算法采用谷歌提出的Transformer架構,但是谷歌卻敗給了OpenAI。我們分析數據規模、數據處理方式、用戶(hù)數據-模型飛輪是ChatGPT成功的關(guān)鍵。

      1. 龐大的數據集規模基礎

      ChatGPT訓練的數據集主要包括網(wǎng)站、書(shū)籍、社交媒體平臺等,80%以上的數據集來(lái)自GPT3使用的數據集。這些數據集包含大量的文本數據,用于自然語(yǔ)言處理等領(lǐng)域的研究和應用。

      二、高效的數據處理方式

      鄭緯民院士認為,ChatGPT在基礎技術(shù)方面并未有大的突破,主要是在數據清洗、人工標注反饋和整體系統工程化方面取得了進(jìn)展,從而使其整體效果相比之前的系統取得了較大飛躍。OpenAI團隊也表示他們采用了多項措施確保數據集的質(zhì)量和準確性,尤其數據篩選、數據收集、工程化(千億級token編碼、人工標注)等起了關(guān)鍵作用。

      3. 爆發(fā)式的用戶(hù)數據促進(jìn)產(chǎn)品質(zhì)量與用戶(hù)規模形成飛輪效應

      ChatGPT的服務(wù)開(kāi)放給公眾,同時(shí)可收集海量、多樣化的數據,搶得數據獲取先機。幾億用戶(hù)為ChatGPT貢獻數據,進(jìn)一步訓練和微調使得ChatGPT更符合用戶(hù)需求,吸引更多用戶(hù)為其免費提供數據。由此模型的數據飛輪快速轉動(dòng)起來(lái),用戶(hù)數據質(zhì)量越高,迭代模型效果越好。

      由ChatGPT的分析可知,數據集將是決定模型好壞的關(guān)鍵。據DeepMind 研究團隊預測大模型所需數據集規模隨參數量的增加而增加。然而隨著(zhù)數據集規模增加,相應數據質(zhì)量將越難控制。數據集的管理將是大模型發(fā)展面臨的一大困境。

      AI數據集的整體現狀

      隨著(zhù)大模型的持續火熱,大規模、多樣化數據集因模型的高參數、通用化需求也受到關(guān)注。我們將從數據集的布局、特點(diǎn)來(lái)分析目前數據集的發(fā)展現狀。

      一、 AI數據集的來(lái)源及分布

      從數據集來(lái)源看,AI數據集主要來(lái)自美國且以英語(yǔ)語(yǔ)言為主,包括微軟、斯坦福、谷歌等機構提供的數據集以及互聯(lián)網(wǎng)爬蟲(chóng)數據集,見(jiàn)表1。AI數據集根據數據類(lèi)型可分為文本、圖像、音頻、視頻等,不同的AI任務(wù)根據其任務(wù)特點(diǎn)選擇不同類(lèi)型的數據集,如語(yǔ)言模型任務(wù)選WikiText-2文本類(lèi)數據集,人臉識別選VGGface2圖像類(lèi)數據集等。

      表1 AI數據集簡(jiǎn)介

      備注:mC4是 C4(Colossal Clean Crawled Corpus)的一個(gè)變體:Common Crawl的網(wǎng)絡(luò )爬蟲(chóng)語(yǔ)料庫的一個(gè)大型、干凈的版本。

      從數據集分布看,全球數據集使用不平等情況凸顯,據加利福尼亞大學(xué)和Google研究機構發(fā)現,機器學(xué)習和自然語(yǔ)言處理模型使用的數據集50%由12家Top機構提供(如圖1左),其中10家為美國機構,僅2家機構來(lái)自德國和中國。據圖1(右)發(fā)現,數據集與數據機構的基尼系數有升高的趨勢,即數據集被少數Top機構或特定數據庫掌控的集中有所增加。

      2. AI數據集的特點(diǎn)

      目前AI數據集的發(fā)展已呈現大規模、多樣化、實(shí)時(shí)性等特點(diǎn)。

      一是數據集規模因大模型等場(chǎng)景需求爆發(fā)式增長(cháng),例如華為盤(pán)古系列大模型訓練數據集為40TB,GPT-3.5大模型的數據集為超萬(wàn)億單詞的人類(lèi)語(yǔ)言數據集(約45TB);

      二是多種應用需求導致數據類(lèi)型呈現多樣化,例如因機器翻譯、文本分類(lèi)需求出現了OpenWebText2等文本類(lèi)數據集,因人臉識別、圖像生成需求出現了以ImageNet為代表的圖像類(lèi)數據集;

      三是高質(zhì)量數據集實(shí)時(shí)性需求迫切,隨著(zhù)AR、自動(dòng)駕駛等場(chǎng)景的出現,社交媒體、交通數據集的采集和處理需要更加及時(shí)的反饋,以實(shí)現實(shí)時(shí)分析和決策。

      面臨的挑戰

      由于A(yíng)I數據集大部分來(lái)源于互聯(lián)網(wǎng)公共數據集,包含用戶(hù)或企業(yè)的大量隱私、敏感信息,導致其在數據監管、數據清洗、數據存量方面還存在很多挑戰。

      1. 數據來(lái)源的多樣性、復雜性不斷加深,加大數據安全風(fēng)險

      OpenAI表示,其數據集是“互聯(lián)網(wǎng)規模的”,訓練數據來(lái)自“各種被許可、被創(chuàng )建和公開(kāi)可用的數據源,其中可能包括公開(kāi)可用的個(gè)人信息”。面對數量龐大、種類(lèi)多樣的數據集調取與收集,若監管不當極易產(chǎn)生數據竊取、隱私泄露、數據濫用等風(fēng)險,損害公民的合法利益,甚至威脅國家安全。

      2. 內容涉及道德及倫理問(wèn)題,引發(fā)社會(huì )偏見(jiàn)

      規模龐大的互聯(lián)網(wǎng)數據尤其容易帶有偏見(jiàn)及負面詞匯,即使進(jìn)行過(guò)人工標注,數據集也會(huì )出現錯誤或道德問(wèn)題。如微軟與bing團隊研發(fā)的對話(huà)式理解AI機器人Tay,因為數據集清洗、標注不充分,導致出現種族歧視等言論,被迫下架。

      3. AI領(lǐng)域需求的高質(zhì)量數據集存量將耗盡

      訓練數據集需求增速有高于數據存量增速的趨勢,據Epoch AI研究團隊預測2022年至2100年間數據總量(包括可用的圖像和語(yǔ)言)以及未來(lái)大模型訓練數據集規模的增長(cháng)趨勢,給出一個(gè)結論:到2026 年高質(zhì)量的語(yǔ)言數據存量將耗盡,低質(zhì)量的語(yǔ)言數據和圖像數據的存量將分別在 2030 年至 2050 年、2030 年至 2060 年枯竭。

      關(guān)于A(yíng)I數據集未來(lái)發(fā)展的建議

      針對當前AI數據集存在的問(wèn)題,建議從加強數據監管、提升數據質(zhì)量、提高數據存量三方面入手,進(jìn)一步應對AI發(fā)展可能面臨的數據集困境。

      1. 加快推進(jìn)AI背景下我國數據安全監管

      完善面向ChatGPT等新場(chǎng)景的數據安全保護。建議政府與商業(yè)運營(yíng)主體應采取合作監管的模式,建立統一的數據監管系統,并針對不同類(lèi)型的數據采取相應的監管機制,對于開(kāi)放數據應加強分級分類(lèi)明確數據開(kāi)放程度,對于共享數據應采取強制許可措施防止企業(yè)壟斷,對于專(zhuān)有數據應采用區塊鏈、隱私計算等技術(shù)保護其數據隱私。

      2. 加大對數據質(zhì)量評估的關(guān)注

      提升獲取高質(zhì)量數據集的比例。制定數據集評估標準(包括是否刪除重復數據、排除敏感信息、刪除隱私信息、刪除異常符號等),確保獲取數據集符合任務(wù)需求,從而提高整體數據集的質(zhì)量。

      3. 利用AIGC技術(shù)構建新的數據集

      防患未來(lái)數據存量耗盡的危機。AI生成信息將是未來(lái)的趨勢,據Gartner預測,到2025年,大型企業(yè)機構對外營(yíng)銷(xiāo)信息中的合成信息比例將從2022年的不到2%上升到30%。建議充分利用AIGC技術(shù),根據模型的需求生成內容,轉化為新的數據集,為AI模型的訓練提供新的燃料。

    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    相關(guān)閱讀:

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 黎平县| 仲巴县| 红河县| 五华县| 和林格尔县| 西乌| 新余市| 武安市| 周口市| 富民县| 香港 | 莱西市| 湾仔区| 西城区| 芷江| 西充县| 韶关市| 宣城市| 泾源县| 万源市| 吉安市| 尖扎县| 六安市| 拜城县| 吉水县| 那坡县| 长治县| 石首市| 海丰县| 民勤县| 桐庐县| 颍上县| 安多县| 霸州市| 上蔡县| 永兴县| 仲巴县| 电白县| 楚雄市| 吉首市| 沈丘县| http://444 http://444 http://444 http://444 http://444 http://444