• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 文章精選 >
     首頁(yè) > 資訊 > 文章精選 >

    圖像分割2020最新進(jìn)展

    2020-10-13 09:50:35   作者:Jakub Czakon   來(lái)源:LiveVideoStack   評論:0  點(diǎn)擊:


      該文章由Derrick Mwiti發(fā)表在Neptune blog,在這篇文章中,我們將會(huì )探討深度學(xué)習在圖像分割領(lǐng)域的應用。
      Posted by Jakub Czakon
      url : https://towardsdatascience.com/image-segmentation-in-2020-756b77fa88fc
      source來(lái)源:neptune.ai
    • 在這篇文章中我們將討論的話(huà)題有:
    • 什么是圖像分割
    • 圖像分割的架構
    • 圖像分割中使用的損失函數
    • 在你的圖像分割項目中可用的框架
      就讓我們一探究竟吧。
      什么是圖像分割
      顧名思義,圖像分割是將一幅圖像轉化成多個(gè)部分的過(guò)程。在這個(gè)過(guò)程中,圖像中的每個(gè)像素都與一個(gè)具體的物體相關(guān)聯(lián)在一起。圖像分割主要有兩種類(lèi)型:語(yǔ)義分割和實(shí)例分割。
      在語(yǔ)義分割中,所有物體都是同一類(lèi)型的,所有相同類(lèi)型的物體都使用一個(gè)類(lèi)標簽進(jìn)行標記,而在實(shí)例分割中,相似的物體可以有自己獨立的標簽。
      參考Anurag Arnab, Shuai Zheng 等作者的2018年的Paper:“Conditional Random Fields Meet Deep Neural Networks for Semantic Segmentation” http://www.robots.ox.ac.uk/~tvg/publications/2017/CRFMeetCNN4SemanticSegmentation.pdf
      圖像分割的架構
      圖像分割的基本結構由編碼器和解碼器組成。
      來(lái)自Vijay Badrinarayanan等作者2017的Paper:“SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation” https://arxiv.org/abs/1511.00561
      編碼器通過(guò)過(guò)濾器從圖像中提取特征。解碼器負責生成最終輸出,通常是包含對象輪廓的分割掩碼(segmantation mask)。大多數架構都有這種體系結構或其變體。
      讓我們看一看一些例子。
      U-Net
      U-Net是一個(gè)最初用于開(kāi)發(fā)生物影響分割的卷積神經(jīng)網(wǎng)絡(luò )。從視覺(jué)上看,它的架構看起來(lái)像字母U,因此而得名U-Net。它的架構由兩部分組成,左邊是收縮路徑,右邊是擴展路徑。收縮路徑的目的是捕獲內容,而擴展路徑的角色是幫助精確定位。
      來(lái)自Olaf Ronneberger等作者2015年的Paper “U-net architecture image segmentation” https://arxiv.org/abs/1505.04597
      U-Net由右側的擴展路徑和左側的收縮路徑組成。收縮路徑由兩個(gè)3×3的卷積層組成。卷積之后是一個(gè)校正的線(xiàn)性單元和和一個(gè)2×2的max-pooling池化層的計算來(lái)做下采樣。
      U-Net的完整實(shí)現可以在這里找到:https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/
      FastFCN — 快速全連接網(wǎng)絡(luò )
      在這種結構中,一個(gè)使用聯(lián)合金字塔上采樣(JPU)模塊來(lái)代替了擴展卷積網(wǎng)絡(luò ),因為卷積網(wǎng)絡(luò )消耗大量的內存和計算時(shí)間。它使用一個(gè)完全連接的網(wǎng)絡(luò )作為核心,同時(shí)應用JPU進(jìn)行上采樣。JJPU將低分辨率的feature map上采樣為高分辨率的feature map。
      來(lái)自Huikai Wu等作者2019的Paper “FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation” https://arxiv.org/abs/1903.11816
      如果你想把通過(guò)代碼實(shí)現,查看這里:https://github.com/wuhuikai/FastFCN
      Gated-SCNN
      這個(gè)架構由一個(gè)雙流CNN架構組成。在該模型中,使用一個(gè)單獨的分支來(lái)處理圖像的形狀信息。形狀流用于處理邊界信息。
      Towaki Takikawa等 al 2019年“Gated-SCNN:Gated Shape CNNs用于語(yǔ)義分割”  https://arxiv.org/abs/1907.05740
      代碼實(shí)現:https://github.com/nv-tlabs/gscnn
      DeepLab(深度實(shí)驗室)
      在這種體系結構中,帶有上采樣濾波器的卷積用于涉及密集預測的任務(wù)。多個(gè)對象的分割是通過(guò)無(wú)空間金字塔空間池完成的。最后,利用DCNNs改進(jìn)了目標邊界的定位。通過(guò)插入零或輸入特征圖進(jìn)行稀疏采樣來(lái)對濾波器進(jìn)行上采樣,從而實(shí)現無(wú)用卷積。
      陳良杰等人,2016年“ DeepLab:利用深度卷積網(wǎng)絡(luò ),Atrous卷積和全連接的CRF進(jìn)行語(yǔ)義圖像分割” https://arxiv.org/abs/1606.00915
      您可以在PyTorch(https://github.com/fregu856/deeplabv3)或TensorFlow(https://github.com/sthalles/deeplab_v3)上嘗試它的實(shí)現。
      Mask R-CNN
      在這個(gè)體系結構中,使用一個(gè)邊界框/包圍盒和語(yǔ)義分割對對象進(jìn)行分類(lèi)和定位,該語(yǔ)義分割將每個(gè)像素分類(lèi)為一組類(lèi)別。每個(gè)感興趣的區域都有一個(gè)分割蒙版。并且將產(chǎn)生一個(gè)類(lèi)標簽和一個(gè)邊界框作為最終輸出。實(shí)際上該體系結構是Faster R-CNN的擴展。Faster R-CNN由提出區域的深度卷積網(wǎng)絡(luò )和利用區域的檢測器組成。
      Kaiming He et. al 2017 “Mask R-CNN” https://arxiv.org/abs/1703.06870
      這是在COCO測試集上獲得的結果的圖像。
      Kaiming He et. al 2017 “Mask R-CNN” https://arxiv.org/abs/1703.06870
      圖像分割損失函數
      語(yǔ)義分割模型在訓練過(guò)程中通常使用一個(gè)簡(jiǎn)單的跨類(lèi)別熵損失函數。但是,如果您對獲取圖像的詳細信息感興趣的話(huà),那么您必須恢復到稍微高級的損失函數。
      我們來(lái)看看其中的幾個(gè)。
      焦點(diǎn)損失
      這個(gè)損失是對標準互熵標準的改進(jìn)。這是通過(guò)改變其形狀來(lái)完成和實(shí)現的,以使分配給分類(lèi)充分的示例的損失降低權重。最終,這確保了沒(méi)有階級不平衡的存在。在這個(gè)損失函數中,隨著(zhù)對正確類(lèi)別的置信度增加,交叉熵損失會(huì )隨著(zhù)縮放因子以零衰減而縮放。比例因子在訓練時(shí)自動(dòng)降低權衡簡(jiǎn)單示例的貢獻,并將重點(diǎn)放在難的示例上。
      來(lái)源source:neptune.ai
      骰子損失
      這種損失是通過(guò)計算平滑骰子系數函數得到的。這種損失是最常用的損失,屬于是分割問(wèn)題。
      來(lái)源source:neptune.ai
      IoU 平衡損失交集
      IoU平衡的分類(lèi)損失的目的是提高IoU高的樣本的梯度,降低低IoU樣本的梯度。這樣,通過(guò)這種方式,可以提高機器學(xué)習模型的定位精度。
      來(lái)源source:neptune.ai
      邊界損失
      邊界損失的一種變體適用于分段高度不平衡的任務(wù)。這種損失的形式是空間輪廓\等高線(xiàn)而不是區域的距離度量。以這種方法,可以解決了由高度不平衡的分割任務(wù)中區域損失所帶來(lái)的問(wèn)題。
      來(lái)源source:neptune.al
      加權交叉熵
      在交叉熵的一個(gè)變量中,所有的正例子都被某個(gè)一定系數加權。它用于涉及類(lèi)不平衡的場(chǎng)景或方案。
      來(lái)源source:neptune.ai
      Lovász-Softmax損失
      該損失基于子模損失的凸Lovasz擴展,對神經(jīng)網(wǎng)絡(luò )中的平均相交-大于聯(lián)合損失進(jìn)行直接優(yōu)化。
      來(lái)源source:neptune.ai
      其他值得一提的損失是:
    • TopK損失,其目的是確保網(wǎng)絡(luò )在訓練過(guò)程中集中在硬樣本上。
    • 距離損失的CE損耗將網(wǎng)絡(luò )引導到難以分割的邊界區域。
    • 敏感性\靈敏性-特異性(SS)損失,用于計算特異性和敏感性的均方差的加權和。
    • Hausdorff 距離(HD)損失,可從卷積神經(jīng)網(wǎng)絡(luò )估計Hausdorff距離。
      這些只是圖像分割中使用的幾個(gè)損失函數。要了解更多,請點(diǎn)此鏈接查看:https://github.com/JunMa11/SegLoss
      圖像分割的數據集
      如果你看到了這里的話(huà),你會(huì )思考說(shuō)從哪里可以獲得相應的數據集來(lái)進(jìn)行圖像分割的學(xué)習呢。
      現在我們來(lái)看下有哪些數據集我們拿來(lái)用。
      Common Objects in COntext — Coco數據集
      COCO是一個(gè)大規模的物體檢測、圖像分割和五項描述生成的大規模數據集。這個(gè)數據集中一共包含91個(gè)物品類(lèi)別。包含著(zhù)250000帶有關(guān)鍵點(diǎn)標注的人。它的下載大小是37.57GIB。它包含80個(gè)對象類(lèi)別。它在A(yíng)pache2.0許可下可用,可以從這里下載(https://cocodataset.org/#download)。
      PASCAL可視化對象類(lèi)(PASCAL VOC)
      PASCAL有9963張圖片,有20個(gè)不同的類(lèi)別。訓練/驗證集是一個(gè)2GB的tar文件。數據集可以從官方網(wǎng)站下載:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/
      Cityscapes 數據集
      此數據集包含城市場(chǎng)景的圖像。它可以用來(lái)評價(jià)視覺(jué)算法在城市場(chǎng)景中的性能。數據集可以從這里下載:https://www.cityscapes-dataset.com/。
      Cambridge駕駛標注視頻數據庫 — CamVid
      這是一個(gè)基于運動(dòng)的分割和識別數據集。它包含32個(gè)語(yǔ)義類(lèi)別。此鏈接包含進(jìn)一步的解釋和指向數據集的下載鏈接:http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/。
      圖像分割框架
      現在您已經(jīng)準備好了可使用的數據集,下面讓我來(lái)介紹一些可以用來(lái)入門(mén)的工具/框架。
    • FastAI庫——給定一個(gè)圖像,這個(gè)庫可以創(chuàng )建圖像中對象的掩碼/遮罩。
    • Sefexa圖像分割工具-——Sefexa是一個(gè)免費的工具,可用于半自動(dòng)圖像分割、圖像分析和地面真實(shí)性的創(chuàng )建。
    • Deepmask——Facebook Research的Deepmask是Deepmask和SharpMask的Torch實(shí)現。
    • MultiPath——這是“用于對象檢測的MultiPath網(wǎng)絡(luò ) ”中對象檢測網(wǎng)絡(luò )的Torch實(shí)現。
    • OpenCV——這是一個(gè)開(kāi)源的計算機視覺(jué)庫,有超過(guò)2500個(gè)優(yōu)化算法。
    • MIScnn——是一個(gè)醫學(xué)圖像分割開(kāi)源庫。它允許在幾行代碼中使用最先進(jìn)的卷積神經(jīng)網(wǎng)絡(luò )和深度學(xué)習模型來(lái)建立管道。
    • Fritz——Fritz提供了幾種計算機視覺(jué)工具,包括用于移動(dòng)設備的圖像分割工具。
      總結
      希望本文能為您提供一些圖像分割的背景知識,并為您提供一些工具和框架,以便您在工作中使用。
     
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    相關(guān)閱讀:

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 四子王旗| 南召县| 独山县| 饶平县| 孙吴县| 石河子市| 宽城| 平邑县| 龙井市| 宁河县| 南江县| 虹口区| 兴文县| 和林格尔县| 栾城县| 祁门县| 黔西县| 洛扎县| 卢湾区| 沛县| 扶余县| 招远市| 宿州市| 洪泽县| 塘沽区| 巨鹿县| 五莲县| 怀远县| 于都县| 大石桥市| 阳泉市| 翼城县| 精河县| 江口县| 兴安盟| 祁连县| 琼海市| 凤城市| 湘乡市| 华池县| 黄浦区| http://444 http://444 http://444 http://444 http://444 http://444