在线免费观看成年人视频-在线免费观看国产-在线免费观看国产精品-在线免费观看黄网站-在线免费观看精品

產品分類

當前位置: 首頁 > 工業電氣產品 > 端子與連接器 > 線路板連接器 > FFC連接器

類型分類:
科普知識
數據分類:
FFC連接器

One-stage目標檢測最強算法CenterNet來了 MS COCO上獲47%AP

發布日期:2022-05-18 點擊率:71

隨著深度學習的出現,目標檢測從一個自底而上的問題發展到一個自上而下的識別問題。由中科院、牛津大學以及華為諾亞方舟實驗室聯合提出的One-stag目標檢測論文《CenterNet: Keypoint Triplets for Object Detection》已發表,并在Github上開源。研究人員將此方法命名為CenterNet,據論文作者表示,CenterNet是目前已知的性能最好的one-stage目標檢測方法。CenterNet在最具挑戰性之一的數據集MS COCO上,獲得了47%AP,超過了所有已知的one-stage檢測方法,并大幅度領先,其領先幅度至少達4.9%。


One-stage目標檢測最強算法CenterNet來了 MS COCO上獲47%AP


傳統的基于關鍵點的目標檢測方法,例如最具代表性的CornerNet [1]通過檢測物體的左上角點和右下角點來確定目標,但在確定目標的過程中,無法有效利用物體的內部的特征,即無法感知物體內部的信息,從而導致該類方法產生了很多誤檢 (錯誤目標框)。


本文利用關鍵點三元組,即中心點、左上角點和右下角點三個關鍵點而非兩個點來確定一個目標,使網絡花費了很小的代價便具備了感知物體內部信息的能力,從而能有效抑制誤檢。另外,為了更好的檢測中心點和角點,研究人員分別提出了center pooling和cascade corner pooling來提取中心點和角點的特征。


研究人員將此方法命名為CenterNet,是一種one-stage的方法,在最具挑戰性之一的數據集MS COCO [2]上,獲得了47%AP,超過了所有已知的one-stage檢測方 法,并大幅度領先,其領先幅度至少達4.9%。


CenterNet 原理


研究人員抑制誤檢的原理基于一個推論:如果目標框是準確的,那么在其中心區域能夠檢測到目標中心點的概率就會很高;反之,就會很低。


因此,首先利用左上和右下兩個角點生成初始目標框,對每個預測框定義一個中心區域,然后判斷每個目標框的中心區域是否含有中心點。若有,則保留該目標框;若無,則刪除該目標框。原理如圖1所。


One-stage目標檢測最強算法CenterNet來了 MS COCO上獲47%AP

圖1


baseline 和 Motivation


不光是基于關鍵點的one-stage方法無法感知物體內部信息,幾乎所有的one-stage方法都存在這一問題。本論文的baseline為CornerNet,因此首先討論CornerNet為什么容易產生很多的誤檢。


首先,CornerNet通過檢測角點確定目標,而不是通過初始候選框anchor的回歸確定目標。由于沒有了anchor的限制,使得任意兩個角點都可以組成一個目標框,這就對判斷兩個角點是否屬于同一物體的算法要求很高;一但準確度差一點,就會產生很多錯誤目標框。


其次,恰恰因為這個算法有缺陷。因為此算法在判斷兩個角點是否屬于同一物體時,缺乏全局信息的輔助,因此很容易把原本不是同一物體的兩個角點,看成是一對角點,因此產生了很多錯誤目標框。


最后,角點的特征對邊緣比較敏感,這導致很多角點同樣對背景的邊緣很敏感,因此在背景處也檢測到了錯誤的角點。


綜上原因,使得CornerNet產生了很多誤檢。如圖2所示,研究人員用CornerNet對兩張圖片進行檢測,根據每個預測目標框的confidence選出Top 100個預測框 (根據 MS COCO 標準),可以發現產生了很多誤檢。


One-stage目標檢測最強算法CenterNet來了 MS COCO上獲47%AP

圖2。藍色框為ground truth,,紅色框為預測框。


為了能夠量化分析誤檢問題,研究人員提出了一種新的衡量指標,稱為FD (false discovery) rate,能夠很直觀的反映出誤檢情況。FD rate的計算方式為:


FD = 1-AP


其中AP為IoU閾值取[0.05 : 0.05 : 0.5]下的平均精度。研究人員統計了CornerNet的誤檢情況,如表1所示:


One-stage目標檢測最強算法CenterNet來了 MS COCO上獲47%AP


可以看到,FD = 37.8,而FD5高達32.7,這意味著即使把條件限制的很嚴格:只有那些與ground-truth的IoU< 0.05,才被認定為錯誤目標框。每100個預測框中,仍然平均有32.7 個錯誤目標框!而小尺度的目標框其FD更是達到了60.3!


分析出了CornerNet 的問題后,接下來就是找出解決之道。關鍵問題,在于讓網絡具備感知物體內部信息的能力。一個較容易想到的方法,是把CornerNet變成一個two-stage的方法,即利用RoI pooling或RoI align提取預測框的內部信息,從而獲得感知能力。


但這樣做開銷很大,因此研究人員提出了用關鍵點三元組來檢測目標,這樣使得方法在one-stage的前提下就能獲得感知物體內部信息的能力,并且開銷較小。因為只需關注物體的中心,從而避免了RoI pooling或RoI align關注物體內部的全部信息。


方法介紹


利用關鍵點三元組檢測物體


One-stage目標檢測最強算法CenterNet來了 MS COCO上獲47%AP

圖3


圖3為CenterNet的結構圖。網絡通過center pooling和cascade corner pooling分別得到center heatmap和corner heatmaps,用來預測關鍵點的位置。


得到角點的位置和類別后,通過offsets將角點的位置映射到輸入圖片的對應位置,然后通過embedings判斷哪兩個角點屬于同一個物體,以便組成一個檢測框。


正如前文所說,組合過程中由于缺乏來自目標區域內部信息的輔助,從而導致大量的誤檢。為了解決這一問題CenterNet不僅預測角點,還需要預測中心點。,對每個預測框定義一個中心區域,通過判斷每個目標框的中心區域是否含有中心點。若有,則保留,并且此時框的confidence為中心點、左上角點和右下角點的confidence的平均;若無,則去除,使得網絡具備感知目標區域內部信息的能力,能夠有效除錯誤的目標框。


研究人員發現中心區域的尺度會影響錯誤框去除效果。中心區域過小導致很多小尺度的錯誤目標框無法被去除,而中心區域過大導致很多大尺度的錯誤目標框無法被去除。因此研究人員提出了尺度可調節的中心區域定義法 (下方公式1)。


One-stage目標檢測最強算法CenterNet來了 MS COCO上獲47%AP


該方法可以在預測框的尺度較大時,定義一個相對較小的中心區域;在預測框的尺度較小時,預測一個相對較大的中心區域。如下圖所示


One-stage目標檢測最強算法CenterNet來了 MS COCO上獲47%AP


提取中心點和角點特征:Center Pooling


One-stage目標檢測最強算法CenterNet來了 MS COCO上獲47%AP

圖5


一個物體的中心并不一定含有很強的、易于區分于其他類別的語義信息。例如,一個人的頭部含有很強的、易于區分于其他類別的語義信息。,但是其中心往往位于人的中部。


研究人員提出了center pooling來豐富中心點特征。圖5為該方法原理,center pooling提取中心點水平方向和垂直方向的最大值并相加,以此給中心點提供所處位置以外的信息。


這一操作使中心點有機會獲得更易于區分于其他類別的語義信息。Center pooling可通過不同方向上的corner pooling的組合實現。一個水平方向上的取最大值操作可由left pooling和right pooling通過串聯實現;同理,一個垂直方向上的取最大值操作可由top pooling和bottom pooling通過串聯實現,如圖6所示


One-stage目標檢測最強算法CenterNet來了 MS COCO上獲47%AP

圖6


Cascade corner pooling: 一般情況下角點位于物體外部,所處位置并不含有關聯物體的語義信息,這為角點的檢測帶來了困難。圖7(b) 為傳統做法,稱為 corner pooling。它提取物體邊界最大值并相加,該方法只能提供關聯物體邊緣語義信息,對于更加豐富的物體內部語義信息則很難提取到。


One-stage目標檢測最強算法CenterNet來了 MS COCO上獲47%AP

圖7


圖7(a)為cascade corner pooling 原理,它首先提取物體邊界最大值,然后在邊界最大值處繼續向內部(圖中沿虛線方向)提取提最大值,并與邊界最大值相加,以此給角點特征提供更加豐富的關聯物體語義信息。Cascade corner pooling 也可通過不同方向上的 corner pooling 的組合實現,如圖8 所示,圖8展示了cascade left corner pooling 原理。


One-stage目標檢測最強算法CenterNet來了 MS COCO上獲47%AP

圖8


實驗分析


One-stage目標檢測最強算法CenterNet來了 MS COCO上獲47%AP


One-stage目標檢測最強算法CenterNet來了 MS COCO上獲47%AP


本實驗在最具挑戰性之一的 MS COCO 數據集上進行測試,科研人員選了一些比較有代表性的工作做了對比。


實驗結果表明CenterNet獲得了47%的AP,超過了所有已知的one-stage檢測方法,并大幅度領先,其領先幅度至少達4.9%。Table2為CenterNet與CornerNet的單獨對比。


最近目標檢測方法在COCO數據集上基本在以百分之零點幾的精度往前推進,因為coco數據集難度很高,而CenterNet往前推進了將近5個百分點。


同時,CenterNet的結果也接近two-stage方法的最好結果。值得注意的是,CenterNet訓練輸入圖片分辨率只有511X511,在single-scale下,測試圖片的分辨率為原圖分辨率(~500),在multi-scale下,測試圖片的分辨率最大為原圖分辨率的1.8倍。而two-stage的輸入圖片的分辨率一般最短邊也要>600,甚至更大,比如D-RFCN+SNIP [3]和PANet [4]。而且研究人員的方法是Train from scratch。


速度方面,Two-stage方法論文中一般是不報的One-stage方法只在較淺的backbone上如VGG-16上報速度,一般處理一張圖片需要十幾毫秒,在較深的backbone上速度慢一些,處理一張圖片需要幾百毫秒,但還是要比two-stage的方法快。


在這里,研究人員在一張Nvidia Tesla P100顯卡上比較了CornerNet和CenterNet,CornerNet511-104測試速度約為300ms/幀 (并沒有實現原論文所說的250ms/幀的速度,可能是與我用的服務器環境有關),而CenterNet511-104 的測試速度約為340ms/幀,比baseline慢約40ms/幀。


但對于更輕backbone,CenterNet511-52的測試速度約為270ms/幀,比CornerNet511-104快約30ms/幀,而且其精度無論是single-scale test 還是 multi-scale test 都比CornerNet511-104高。


One-stage目標檢測最強算法CenterNet來了 MS COCO上獲47%AP


CenterNet 以 CornerNet為 baseline,后者為最具代表性的基于關鍵點的目標檢測方法。上圖展示了CenterNet與CornerNet的對比結果。(a) 和 (b) 表明CenterNet能有效去除小尺度的錯誤目標框。(c) 和 (d) 表明CenterNet能有效去除中等尺度和大尺度的錯誤目標框。


One-stage目標檢測最強算法CenterNet來了 MS COCO上獲47%AP


上圖為CenterNet的檢測結果。由于CenterNet去除了大量錯誤的目標框,因此即使在目標框的confidence較低的情況下,依然能保證較好的檢測結果,上圖展示了confidence在0.5以上的目標框分布情況。


One-stage目標檢測最強算法CenterNet來了 MS COCO上獲47%AP


Table4為消除實驗。第一行為CornerNet結果。中心點的加入 (CRE) 使得網絡提升了2.3% (37.6% vs 39.9%)。對于中心點的檢測,本實驗使用傳統的卷積操作進行。


其中小尺度目標提升的最多,提升了4.6% (18.5% vs 23.1%), 而大尺度目標幾乎沒有發生變化。這說明小尺度的錯誤目標框被去除的最多,這是因為從概率上講,小尺度目標框由于面積小更容易確定其中心點,因此那些錯誤的小目標框不在中心點附近的概率更大,因此去除的最多。


Center pooling (CTP) 的加入使網絡進一步提升了0.9%。值得注意的是,大尺度目標提升了1.4% (52.2% vs 53.6%),小目標和中等目標也得到了一定的提升,這表明center pooling能夠使中心點獲得更易于區分于其他類別的語義信息。Cascade corner pooling (CCP) 使得使網絡性能進一步提升。


第二行的試驗中,科研人員將CornerNet的corner pooling替換成了cascade corner pooling,性能提升了0.7% (37.6% vs 38.3%)??梢杂^察到大目標的AP沒有發生變化,AR卻提升了1.8% (74.0% vs 75.8%),這說明cascade corner pooling通過加入了物體內部信息能夠感知更多的物體。


但是由于大目標由于面積過大,使其容易獲得較明顯的內部特征而干擾了邊緣特征,因此使得預測出的目標框位置不精確。當結合了CRE后,由于CRE能夠有效去除錯誤目標框,因此使大目標框的AP得到了提升 (53.6% vs 55.8%)。


Table3為錯誤目標框的去除實驗的對比。實驗結果表明CenterNet去除了大量的錯誤目標框,尤其是小尺度的錯誤目標框,這也是為什么小尺度目標的AP提升最多的原因。


Table5為錯誤實驗分析??蒲腥藛T將檢測的中心點用真實的中心點代替,實驗結果表明中心點的檢測準確度還有很大的提升空間。同時該結果還表明要想更進一步的提升檢測精度,需要進一步提升角點的檢測精度。


總結


前文提到 one-stage 方法都無法感知物體內部信息,這是由于 one-stage 直接對 anchor 進行回歸和分類,這個過程并沒有像 two-stage 方法一樣利用到了物體內部特征,因此無法感知物體內部信息。


本工作主要研究了基于關鍵點的 one-stage 方法,在接下來的工作中,研究人員將擴展到更廣義的 one-stage 方法,如 SSD[5] 等方法,以及更多的 backbone,例如VGG-16,resnet101等。


參考文獻:


[1]. H. Law and J. Deng. Cornernet: Detecting objects as paired keypoints. In Proceedings of the European conference on computer vision, pages 734–750, 2018.


[2]. T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll′ar, and C. L. Zitnick. Microsoft coco: Common objects in context. In European conference on computer vision, pages 740–755. Springer, 2014.


[3]. B. Singh and L. S. Davis. An analysis of scale invariance in object detection snip. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3578–3587, 2018.


[4]. S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia. Path aggregation network for instance segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 8759–8768, 2018.


[5]. W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.Y. Fu, and A. C. Berg. Ssd: Single shot multibox detector. In European conference on computer vision, pages 21–37. Springer, 2016.


論文鏈接:https://arxiv.org/abs/1904.08189


代碼鏈接:https://github.com/Duankaiwen/CenterNet


文章來源: CVer

下一篇: PLC、DCS、FCS三大控

上一篇: ?小米無人機和大疆對

推薦產品

更多