導(dǎo)讀
本文介紹了一些小目標(biāo)物體檢測的方法和思路。
在深度學(xué)習(xí)目標(biāo)檢測中,特別是人臉檢測中,由于分辨率低、圖像模糊、信息少、噪聲多,小目標(biāo)和小人臉的檢測一直是一個(gè)實(shí)用和常見的難點(diǎn)問題。然而,在過去幾年的發(fā)展中,也出現(xiàn)了一些提高小目標(biāo)檢測性能的解決方案。本文將對這些方法進(jìn)行分析、整理和總結(jié)。
圖像金字塔和多尺度滑動(dòng)窗口檢測
一開始,在深學(xué)習(xí)方法成為流行之前,對于不同尺度的目標(biāo),通常是從原始圖像開始,使用不同的分辨率構(gòu)建圖像金字塔,然后使用分類器對金字塔的每一層進(jìn)行滑動(dòng)窗口的目標(biāo)檢測。
在著名的人臉檢測器MTCNN中,使用圖像金字塔法檢測不同分辨率的人臉目標(biāo)。然而,這種方法通常是緩慢的,雖然構(gòu)建圖像金字塔可以使用卷積核分離加速或簡單粗暴地縮放,但仍需要做多個(gè)特征提取,后來有人借其想法想出一個(gè)特征金字塔網(wǎng)絡(luò)FPN,在不同層融合特征,只需要一次正向計(jì)算,不需要縮放圖片。它也被應(yīng)用于小目標(biāo)檢測,這將在后面的文章中討論。
簡單,粗暴和可靠的數(shù)據(jù)增強(qiáng)
通過增加訓(xùn)練集中小目標(biāo)樣本的種類和數(shù)量,也可以提高小目標(biāo)檢測的性能。有兩種簡單而粗糙的方法:
針對COCO數(shù)據(jù)集中含有小目標(biāo)的圖片數(shù)量較少的問題,使用過采樣策略:
不同采樣比的實(shí)驗(yàn)。我們觀察到,不管檢測小目標(biāo)的比率是多少,過采樣都有幫助。這個(gè)比例使我們能夠在大小物體之間做出權(quán)衡。
針對同一張圖片中小目標(biāo)數(shù)量少的問題,使用分割mask切出小目標(biāo)圖像,然后使用復(fù)制和粘貼方法(當(dāng)然,再加一些旋轉(zhuǎn)和縮放)。
通過復(fù)制粘貼小目標(biāo)來實(shí)現(xiàn)人工增強(qiáng)的例子。正如我們在這些例子中所觀察到的,粘貼在同一幅圖像上可以獲得正確的小目標(biāo)的周圍環(huán)境。
在Anchor策略方法中,如果同一幅圖中有更多的小目標(biāo),則會匹配更多的正樣本。
與ground truth物體相匹配的不同尺度anchor示意圖,小的目標(biāo)匹配到更少的anchor。為了克服這一問題,我們提出通過復(fù)制粘貼小目標(biāo)來人工增強(qiáng)圖像,使訓(xùn)練過程中有更多的anchor與小目標(biāo)匹配。
特征融合FPN
不同階段的特征圖對應(yīng)不同的感受野,其所表達(dá)的信息抽象程度也不同。
淺層特征圖感受野小,更適合檢測小目標(biāo),深層特征圖較大,更適合檢測大目標(biāo)。因此,有人提出將不同階段的特征映射整合在一起來提高目標(biāo)檢測性能,稱之為特征金字塔網(wǎng)絡(luò)FPN。
(a)利用圖像金字塔建立特征金字塔。特征的計(jì)算是在每個(gè)圖像的尺度上獨(dú)立進(jìn)行的,這是很緩慢的。(b)最近的檢測系統(tǒng)選擇只使用單一尺度的特征以更快地檢測。另一種選擇是重用由ConvNet計(jì)算出的金字塔特征層次結(jié)構(gòu),就好像它是一個(gè)特征圖金字塔。(d)我們提出的特征金字塔網(wǎng)絡(luò)(FPN)與(b)和一樣快,但更準(zhǔn)確。在這個(gè)圖中,特征圖用藍(lán)色輪廓線表示,較粗的輪廓線表示語義上較強(qiáng)的特征。
由于可以通過融合不同分辨率的特征圖來提高特征的豐富度和信息含量來檢測不同大小的目標(biāo),自然會有人進(jìn)一步猜測,如果只檢測高分辨率的特征圖(淺層特征)來檢測小人臉,使用中分辨率特征圖(中間特征)來檢測大的臉。
SSH的網(wǎng)絡(luò)結(jié)構(gòu)
合適的訓(xùn)練方法SNIP, SNIPER, SAN
在機(jī)器學(xué)習(xí)中有一點(diǎn)很重要,模型預(yù)訓(xùn)練的分布應(yīng)該盡可能接近測試輸入的分布。因此,在大分辨率(如常見的224 x 224)下訓(xùn)練的模型不適合檢測小分辨率的圖像,然后放大并輸入到模型中。
如果輸入的是小分辨率的圖像,則在小分辨率的圖像上訓(xùn)練模型,如果沒有,則應(yīng)該先用大分辨率的圖片訓(xùn)練模型,然后再用小分辨率的圖片進(jìn)行微調(diào),最壞的情況是直接使用大分辨率的圖像來預(yù)測小分辨率的圖像(通過上采樣放大)。
因此,在實(shí)際應(yīng)用中,對輸入圖像進(jìn)行放大并進(jìn)行高速率的圖像預(yù)訓(xùn)練,然后對小圖像進(jìn)行微調(diào)比針對小目標(biāo)訓(xùn)練分類器效果更好。
所有的圖都報(bào)告了ImageNet分類數(shù)據(jù)集驗(yàn)證集的準(zhǔn)確性。我們對48、64、80等分辨率的圖像進(jìn)行上采樣,在圖(a)中繪制出預(yù)訓(xùn)練的ResNet-101分類器的Top-1精度。圖(b、c)分別為原始圖像分辨率為48,96像素時(shí)不同cnn的結(jié)果。
更密集的Anchor采樣和匹配策略S3FD, FaceBoxes
如前面的數(shù)據(jù)增強(qiáng)部分所述,將一個(gè)小目標(biāo)復(fù)制到圖片中的多個(gè)位置,可以增加小目標(biāo)匹配的anchor數(shù)量,增加小目標(biāo)的訓(xùn)練權(quán)重,減少網(wǎng)絡(luò)對大目標(biāo)的偏置。同樣,在逆向思維中,如果數(shù)據(jù)集已經(jīng)確定,我們也可以增加負(fù)責(zé)小目標(biāo)的anchor的設(shè)置策略,使訓(xùn)練過程中對小目標(biāo)的學(xué)習(xí)更加充分。
例如,在FaceBoxes中,其中一個(gè)貢獻(xiàn)是anchor策略。
Anchor變的密集例子。為了清晰起見,我們只對一個(gè)感受野中心(即中央黑色網(wǎng)格)密集化錨點(diǎn),并只給對角錨點(diǎn)上色。
Anchor密集化策略,使不同類型的anchor在圖像上具有相同的密度,顯著提高小人臉的召回率。
總結(jié)
本文較詳細(xì)地總結(jié)了一般目標(biāo)檢測和特殊人臉檢測中常見的小目標(biāo)檢測解決方案。
英文原文:https://medium.datadriveninvestor.com/how-to-deal-with-small-objects-in-object-detection-44d28d136cbc
來源:AI公園
-
噪聲
+關(guān)注
關(guān)注
13文章
1150瀏覽量
48802 -
分辨率
+關(guān)注
關(guān)注
2文章
1091瀏覽量
43168 -
人臉檢測
+關(guān)注
關(guān)注
0文章
87瀏覽量
17088
原文標(biāo)題:在目標(biāo)檢測中如何解決小目標(biāo)的問題?
文章出處:【微信號:vision263com,微信公眾號:新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
AIcube1.4目標(biāo)檢測模型導(dǎo)入yolotxt格式數(shù)據(jù)集后一直顯示數(shù)據(jù)正在解析,為什么?
使用aicube進(jìn)行目標(biāo)檢測識別數(shù)字項(xiàng)目的時(shí)候,在評估環(huán)節(jié)卡住了,怎么解決?
請問AICube所需的目標(biāo)檢測數(shù)據(jù)集標(biāo)注可以使用什么工具?
YOLOv8水果檢測示例代碼換成640輸入圖像出現(xiàn)目標(biāo)框繪制錯(cuò)誤的原因 ?
基于LockAI視覺識別模塊:C++目標(biāo)檢測
基于LockAI視覺識別模塊:C++目標(biāo)檢測

labview調(diào)用yolo目標(biāo)檢測、分割、分類、obb
軒轅智駕紅外目標(biāo)檢測算法在汽車領(lǐng)域的應(yīng)用
16片ADS54J54多片如何同步,才能保證每個(gè)通道采集同一個(gè)目標(biāo)的數(shù)據(jù)一一對應(yīng)?
AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測模型
案例分享 ▏基于HZ-EVM-RK3576開發(fā)板實(shí)現(xiàn)YOLOv5目標(biāo)檢測應(yīng)用

淺談物聯(lián)網(wǎng)智能照明系統(tǒng)在雙碳目標(biāo)下的研究與設(shè)計(jì)

在樹莓派上部署YOLOv5進(jìn)行動(dòng)物目標(biāo)檢測的完整流程

評論