目標檢測的任務包括確定圖像中某些目標的位置,並對這些目標進行分類。以前的方法,如R-CNN及其變體,使用管道在多個步驟中執行此任務。這可能很慢並且難以優化,因為每個單獨的組件必須單獨訓練。
特性
YOLO將物體檢測重新定義為壹個回歸問題。它將單個卷積神經網絡(CNN)應用於整個圖像,將圖像劃分為網格,並預測每個網格的類概率和包圍盒。
該算法還可以預測物體在包圍盒中的概率。如果對象的中心落在網格單元中,則該網格單元負責檢測該對象。每個網格中會有多個邊界框。在訓練中,我們希望每個對象只有壹個包圍盒。因此,我們根據哪個框與地面真值框的重疊度最高,分配壹個框來預測對象。