• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > IT與互聯(lián)網(wǎng) >
     首頁(yè) > 資訊 > IT與互聯(lián)網(wǎng) >

    昨天,騰訊云重新定義了向量數據庫

    2023-07-06 15:07:06   作者:   來(lái)源:   評論:0  點(diǎn)擊:


      摘要:未來(lái)企業(yè)之間的競爭將更加集中在數據上,誰(shuí)能夠更好地利用數據,誰(shuí)就有可能在未來(lái)的競爭中取勝。而看好AI,就應該看好向量數據庫,這是騰訊云的邏輯。------騰訊云數據庫副總經(jīng)理羅云

      昨天,騰訊云在北京召開(kāi)發(fā)布會(huì ),宣布重新定義向量數據庫,并發(fā)布了國內首個(gè)AI原生的向量數據庫Tencent Cloud VectorDB。

      先來(lái)快速了解下騰訊云重新定義向量數據庫的思考維度:

      圖片來(lái)自,發(fā)布會(huì )現場(chǎng)拍攝。

      騰訊云提出,向量數據庫不僅應該支持自然語(yǔ)言查詢(xún),更應將AI算法深度融合至計算層、存儲層和數據庫引擎中,從而提升AI原生應用的開(kāi)發(fā)效率。

      關(guān)于騰訊云對向量數據庫的重新定義,你有什么看法?在老魚(yú)看來(lái),是具有創(chuàng )新性的,該定義把AI與數據庫技術(shù)深度融合,涉及到自然語(yǔ)言查詢(xún),以及深度結合AI的數據算子和存儲優(yōu)化,這些都為處理大規模非結構化數據帶來(lái)了新的可能性。

      此次重新定義的價(jià)值表現在兩個(gè)方面。首先,這提供了一種全新的AI應用開(kāi)發(fā)解決方案。通過(guò)自然語(yǔ)言查詢(xún)和AI算法的深度結合,可以極大提高開(kāi)發(fā)效率。其次,利用存儲優(yōu)化和AI的輔助,可以顯著(zhù)降低存儲成本并提高數據處理效率。

      向量數據庫及其核心工作原理

      在ChatGPT火起來(lái)之前,可能90%的吃瓜群眾都不知道向量數據庫為何物?如今,如果你還不知道向量數據庫,那就out啦。因為,幾乎所有由大語(yǔ)言模型(LLM)驅動(dòng)的 AI產(chǎn)品或技術(shù)都使用了向量數據庫,向量數據庫是AI的基礎設施。

      那么,向量數據庫究竟是什么?通俗地講,是一種幫助機器學(xué)習模型在海量數據中找到相似樣本的技術(shù)。這可能聽(tīng)起來(lái)有些抽象,那就讓老魚(yú)用一個(gè)例子來(lái)解釋一下。

      假設一個(gè)圖書(shū)館就是一個(gè)數據庫,而書(shū)就是數據庫中的數據。在傳統的數據庫中,我們通過(guò)書(shū)名、作者、出版日期等關(guān)鍵詞去搜索我們想要的書(shū)籍。這個(gè)過(guò)程類(lèi)似于我們在數據庫中通過(guò)關(guān)鍵詞檢索需要的數據。

      然而,向量數據庫的運作機制又是怎樣的呢?在一個(gè)"向量"圖書(shū)館中,假設你不僅想找到一本特定的書(shū),你還想找到所有和這本書(shū)類(lèi)似的書(shū),例如內容、風(fēng)格、主題都相似的書(shū)。這在傳統圖書(shū)館中可能是一項極具挑戰的任務(wù),因為這需要逐一瀏覽和對比每一本書(shū)的內容。

      然而,在"向量"圖書(shū)館中,每本書(shū)都會(huì )被轉換成一個(gè)向量,它像書(shū)的指紋,包含了書(shū)的所有特征信息。然后,我們可以通過(guò)計算這些向量之間的距離或相似度,找到與特定書(shū)最相似的其他書(shū)籍。這就是向量數據庫的核心工作原理。

      例如, "I like to eat pizza" 這句話(huà),在我們人類(lèi)的眼中極為簡(jiǎn)單,但在計算機眼中,它會(huì )被解構成每一個(gè)單詞對應的向量。如下:

      有趣的是,語(yǔ)義相似的句子會(huì )對應到相似的向量。就像我們經(jīng)常玩的魔方,可以通過(guò)轉動(dòng)、找到與目標向量近似的向量。

      在現實(shí)中,向量數據庫被廣泛應用在A(yíng)I和機器學(xué)習領(lǐng)域,特別是在處理和查詢(xún)大量高維向量數據的場(chǎng)景,如人臉識別,語(yǔ)音識別,商品推薦等等。通過(guò)向量數據庫,我們可以在海量數據中,快速有效地找到相似的向量,從而提高檢索的效率和精度。這種能力不僅極大地推動(dòng)了AI技術(shù)的實(shí)用化,也使得我們的生活變得更加便捷和個(gè)性化。

      向量數據庫與大模型、生成式人工智能的邏輯關(guān)系

      我們再來(lái)看一看向量數據庫與大模型以及生成式人工智能的邏輯關(guān)系。

      應用開(kāi)發(fā)者如何使用向量數據庫和大模型處理和查詢(xún)過(guò)程?通常,這個(gè)過(guò)程包括文本分割、Embedding轉換、向量存儲、問(wèn)題查詢(xún)、向量檢索、最后到大模型的推理。

      老魚(yú)盡量把復雜的技術(shù)講得簡(jiǎn)單一些,向量數據庫就像是一個(gè)擁有極為豐富藏書(shū)的圖書(shū)館,大模型則好比一位擁有專(zhuān)業(yè)圖書(shū)館管理員,總能在海量的書(shū)籍中迅速找到讀者所需的信息。而生成式人工智能,就像是一位敏捷的作家,能基于圖書(shū)館中已有的信息創(chuàng )作出全新的作品。

      騰訊云重新定義了向量數據庫的概念,他們認為向量數據庫不僅是一個(gè)數據的存儲庫,同時(shí)也是一種關(guān)鍵的訓練工具。

      這個(gè)定義的核心在于,向量數據庫能顯著(zhù)提升生成式人工智能的輸出質(zhì)量,同時(shí)拓寬了大模型的時(shí)間和空間邊界,解決了大模型對于新信息的無(wú)知和可能的隱私泄露問(wèn)題。

      眾所周知,現在的大模型,如GPT-4,其訓練數據截止日期是2021年9月,那么對于此后的事情,它是一無(wú)所知的。然而,向量數據庫有能力存儲最新的信息,從而填補這個(gè)漏洞。

      同時(shí),通過(guò)在本地存儲向量數據,向量數據庫能有效地防止了大模型可能導致的隱私泄露風(fēng)險,這無(wú)疑是今天許多企業(yè)和組織極為關(guān)心的問(wèn)題。

      騰訊云向量數據庫能不能打?

      評估一個(gè)向量數據庫能不能打,通常需要考量多個(gè)關(guān)鍵因素:性能、可靠性、易用性、擴展性、成本效益,以及AI和機器學(xué)習的集成等。

      1、性?xún)r(jià)比:向量數據庫應當保證良好的性能,同時(shí)盡量降低存儲和計算成本。

      2、成熟度與可靠性:一個(gè)高質(zhì)量的向量數據庫應該提供穩定可靠的服務(wù),即使在面臨大規模并發(fā)查詢(xún)時(shí)也能保持高可用性,并且在硬件出現故障時(shí)能夠保證數據的持久性。

      3、易用性:一個(gè)高質(zhì)量的向量數據庫應該是簡(jiǎn)單易用的,包括簡(jiǎn)單快速的數據插入、查詢(xún)和刪除流程,同時(shí)提供易于理解和使用的API。此外,對于各種常見(jiàn)的數據格式和編程語(yǔ)言的支持也是必要的。

      4、AI和機器學(xué)習的集成:對于A(yíng)I原生向量數據庫,其是否能夠深度集成AI和機器學(xué)習算法,并提供豐富的AI功能,也是評價(jià)其成敗的一個(gè)重要指標。

      ……

      接下來(lái),讓我們看一下騰訊云Tencent Cloud VectorDB展示的一些核心亮點(diǎn)數據:

      高吞吐:最高支持10億級向量檢索規模, 相比單機插件式索引規模提升10倍;具備百萬(wàn)級每秒查詢(xún)(QPS)的峰值能力;

      低延遲:P99響應延遲20ms

      高可用:基于騰訊集團大規模運營(yíng)積累,日均處理萬(wàn)億次請求,現網(wǎng)運營(yíng)可用性指標達到99.99%

      彈性擴展一站式向量檢索數據庫 :Embedding+檢索集成方案,數據嵌入AI效率提升10倍

      向量化能力(embedding):多次獲得權威機構認可,2021年曾登頂MS MARCO榜單第一、相關(guān)成果已發(fā)表于NLP頂會(huì )EMNLPACL。

      低成本:將騰訊云向量數據庫用于大模型預訓練數據的分類(lèi)、去重和清洗相比傳統方式可以實(shí)現10倍效率的提升,如果將向量數據庫作為外部知識庫用于模型推理,則可以將成本降低2—4個(gè)數量級。

      ……

      這些指標意味著(zhù)怎樣的水平?90%的吃瓜群眾可能沒(méi)有概念,那就讓我們深入解析一下。

      騰訊云數據庫副總經(jīng)理羅云接受老魚(yú)采訪(fǎng)時(shí),他表示,Tencent Cloud VectorDB在業(yè)界處于已經(jīng)位居第一梯隊領(lǐng)先位置,其性能和谷歌的AI檢索引擎相媲美,,遠超一些開(kāi)源的解決方案。比如:簡(jiǎn)單的FAISS庫應用可能在數十萬(wàn)到百萬(wàn)級別,而插件式+單機能夠達到幾百萬(wàn),到億級別就比較少了。

      羅云進(jìn)一步表示,Tencent Cloud VectorDB在接入層支持自然語(yǔ)言查詢(xún),在計算層,通過(guò)AI算子替代企業(yè)尋找/調優(yōu)AI算法,將接入工期從1個(gè)月縮短到3天。在存儲層,融合智能壓縮算法,把向量存儲成本降低50%。

      在接受采訪(fǎng)時(shí),羅云還分享了一份有趣的數據:與傳統流程相比,使用Tencent Cloud VectorDB可以實(shí)現10倍的性能提升。在傳統開(kāi)發(fā)流程中,AI應用的開(kāi)發(fā)者需要花費大量時(shí)間進(jìn)行數據處理、模型選取、向量化等步驟。而在Tencent Cloud VectorDB的幫助下,這些步驟可以大大簡(jiǎn)化,使開(kāi)發(fā)者可以在更短的時(shí)間內完成工作。

      羅云對向量數據庫的市場(chǎng)前景表達了樂(lè )觀(guān)的看法,隨著(zhù)AI技術(shù)的快速發(fā)展,他預計向量數據庫有望在NoSQL領(lǐng)域或整個(gè)數據庫領(lǐng)域占據重要的位置。

      最后,對于Tencent Cloud VectorDB的目標客戶(hù),羅云表示主要是需要使用大模型和處理大量數據的企業(yè),特別是那些在A(yíng)I,機器學(xué)習,搜索和推薦系統等領(lǐng)域有大量應用的公司。

      而Tencent Cloud VectorDB的出現,無(wú)疑為這些企業(yè)提供了一種新的選擇。從性能、可靠性和成本效益來(lái)看,Tencent Cloud VectorDB有明顯優(yōu)勢。那么,騰訊云向量數據庫能否吸引大量的企業(yè)用戶(hù),從而改變現有的云數據庫市場(chǎng)競爭格局,我們拭目以待。

      文/老魚(yú)

    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    相關(guān)閱讀:

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 丹棱县| 宁陵县| 茶陵县| 青田县| 乌兰浩特市| 嘉禾县| 新疆| 松原市| 横峰县| 马关县| 偃师市| 安远县| 秀山| 荣成市| 永仁县| 沿河| 简阳市| 黄大仙区| 桓台县| 玛纳斯县| 札达县| 香河县| 清水县| 乌兰县| 西宁市| 苍梧县| 家居| 安徽省| 临武县| 高安市| 孟津县| 陇西县| 宜昌市| 郸城县| 宣武区| 富蕴县| 江城| 永宁县| 新蔡县| 常熟市| 塔城市| http://444 http://444 http://444 http://444 http://444 http://444