testsAndMisc/python_pkg/praca_magisterska_video/answers/pytanie_24.md

57 KiB
Raw Blame History

PYTANIE 24: Detekcja obiektów

Problem, metody klasyczne, deep learning. Jak zbudować detektor z klasyfikatora?


Tło pojęciowe — słowniczek

Detekcja obiektów (object detection) — zadanie widzenia komputerowego: zlokalizuj obiekty na obrazie (bounding box) i przypisz im klasy (samochód, pieszo, kot...). Wynik: lista (klasa, prostokąt, pewność). Trudniejsze niż klasyfikacja (→ cały obraz, 1 label), ale łatwiejsze niż segmentacja (→ per piksel).

Klasyfikacja:  "To zdjęcie zawiera kota"
Detekcja:      "Kot w prostokącie (50,30)-(200,180), pewność 95%"
Segmentacja:   Maska pikseli kota

Bounding box (prostokąt ograniczający, bbox) — prostokąt opisujący położenie obiektu. Zwykle: (x_min, y_min, x_max, y_max) lub (x_center, y_center, width, height). Przybliżenie — obiekty rzadko są prostokątne.

Confidence (pewność) — wynik 0-1 mówiący jak pewny jest detektor, że wykrył obiekt danej klasy. Zwykle próg np. 0.5: detekcje poniżej odrzucane.


CNN (Convolutional Neural Network, konwolucyjna sieć neuronowa) — typ sieci neuronowej zaprojektowany specjalnie do przetwarzania OBRAZÓW. Używany w KAŻDYM nowoczesnym detektorze (R-CNN, YOLO, SSD, DETR). Kluczowa idea: zamiast łączyć KAŻDY piksel z KAŻDYM neuronem (→ miliardy parametrów), CNN używa MAŁYCH filtrów (np. 3×3 piksele) przesuwanych po obrazie. Dzięki temu:

  1. Mało parametrów (filtr 3×3 = 9 wag, niezależnie od rozmiaru obrazu)

  2. Wykrywa lokalne wzorce (krawędzie, rogi, tekstury)

  3. Inwariantność na przesunięcie (kot w lewym rogu = kot w prawym rogu)

    Dlaczego CNN a nie zwykła sieć neuronowa? Obraz 224×224×3 = 150 528 pikseli. Zwykła sieć (FC): 150 528 × 4096 neuronów = 616 MILIONÓW wag w 1 warstwie! CNN: filtr 3×3×3 = 27 wag, przesuwany po CAŁYM obrazie → 27 wag zamiast 616M!

    Mnemonik: CNN = „Czytaj Nie Naraz" — nie bierzesz całego obrazu naraz, tylko małe fragmenty (filtry 3×3), krok po kroku.

Konwolucja (convolution) — podstawowa operacja CNN: mały filtr (macierz np. 3×3) przesuwa się po obrazie, w każdej pozycji mnoży element-po-elemencie z fragmentem obrazu i sumuje → jedna liczba na wyjściu. Wynik = „feature mapa" — mapa pokazująca GDZIE na obrazie dany wzorzec jest obecny.

Przykład liczbowy:
Fragment obrazu 3×3:     Filtr 3×3:             Wynik (1 piksel feature mapy):
[1  2  3]                [-1  0  1]
[4  5  6]       ×        [-1  0  1]    = 1(-1)+2(0)+3(1)+4(-1)+5(0)+6(1)+7(-1)+8(0)+9(1)
[7  8  9]                [-1  0  1]    = (-1+0+3) + (-4+0+6) + (-7+0+9) = 6

Ten filtr wykrywa PIONOWE KRAWĘDZIE (liczy różnicę prawa-lewa strona).
Duży wynik (6) = silna krawędź. Wynik ≈ 0 = brak krawędzi.
Filtr przesuwa się po CAŁYM obrazie → cała mapa cech.

Pseudokod konwolucji:
def convolve(image, filter_3x3):
    output = zeros(image.height - 2, image.width - 2)
    for y in range(1, image.height - 1):
        for x in range(1, image.width - 1):
            patch = image[y-1:y+2, x-1:x+2]        # wycinek 3×3
            output[y-1][x-1] = sum(patch * filter)   # iloczyn + suma
    return output

Filtr / Kernel — mała macierz wag (np. 3×3, 5×5) uczona AUTOMATYCZNIE podczas treningu. CNN ma WIELE filtrów — każdy uczy się wykrywać INNY wzorzec. 64 filtry w jednej warstwie → 64 map cech.

KLUCZOWA RÓŻNICA: w HOG cechy projektuje CZŁOWIEK.
W CNN filtry uczy się SIEĆ SAMA — to główna przewaga deep learning!

Warstwa conv z 64 filtrami 3×3:
Filtr 1: nauczył się wykrywać pionowe krawędzie
Filtr 2: nauczył się wykrywać poziome krawędzie
Filtr 3: nauczył się wykrywać rogi
...
Filtr 64: jakiś inny wzorzec pomocny w rozpoznawaniu

Feature map (mapa cech) — wynik zastosowania JEDNEGO filtra do obrazu. Jasne piksele = „tu jest ten wzorzec". 64 filtry → 64 map cech → tensor [H × W × 64]. Feature mapy to WEWNĘTRZNA REPREZENTACJA tego, co sieć „widzi" na obrazie.

Hierarchia cech w CNN (każda warstwa coraz bardziej abstrakcyjna):
Warstwa 1:  krawędzie, gradienty         (jak HOG!)
Warstwa 2:  rogi, proste tekstury
Warstwa 3:  fragmenty obiektów (oko, koło, ucho)
Warstwa 4+: całe obiekty (twarz = oczy+nos+usta, samochód = koła+okna+dach)

Mnemonik: „K-R-F-O" = „Każdy Rycerz Znajduje Obiekt"
(Krawędzie → Rogi → Fragmenty → Obiekty)

Pooling (łączenie / podpróbkowanie) — warstwa ZMNIEJSZAJĄCA rozmiar feature mapy. Najczęstsza: max pooling 2×2 — z każdego bloku 2×2 pikseli zachowaj MAKSIMUM. Wynik: mapa 2× mniejsza w każdym wymiarze (= 4× mniej pikseli), ale zachowuje najsilniejsze cechy.

Feature map 4×4:           Po Max Pool 2×2:
[1  3 | 2  1]              [3  2]    ← max(1,3,0,3)=3   max(2,1,1,2)=2
[0  3 | 1  2]              [4  3]    ← max(0,4,1,2)=4   max(1,0,3,1)=3
─────────────
[0  4 | 1  0]              Rozmiar: 4×4 → 2×2 (4× mniej danych!)
[1  2 | 3  1]              Zachowane: najsilniejsze cechy z każdego bloku

Dlaczego max pooling?
1. Mniej pikseli = mniej obliczeń w następnych warstwach
2. Większe „pole widzenia" (receptive field) — warstwa „widzi" większy fragment
3. Odporność na małe przesunięcia: obiekt ±1px → ten sam max

Stride (krok) — o ile pikseli filtr przesuwa się za jednym krokiem. Stride=1: co 1 piksel (wyjście duże). Stride=2: co 2 piksele (wyjście 2× mniejsze). Max pool 2×2 ze stride 2 = typowy pooling.

FC (Fully Connected layer, warstwa w pełni połączona) — warstwa, w której KAŻDY neuron jest połączony z KAŻDYM wyjściem poprzedniej warstwy. W CNN zwykle na KOŃCU sieci: feature mapy (3D) → spłaszczone do wektora 1D → FC klasyfikuje.

CNN: Conv → Pool → Conv → Pool → [Flatten] → FC(4096) → FC(1000) → "kot"
                                     ↑                       ↑
                              spłaszcz 3D→1D         1000 klas (ImageNet)

FC = „warstwa decyzyjna" — łączy cechy z CAŁEGO obrazu w jedną decyzję.
Mnemonik: FC = „Full Connection" — każdy z każdym, jak klasa każdy-z-każdym.
Problem FC: DUŻO parametrów (np. 25088 × 4096 = 102M wag w VGG-16!)

Forward pass (przejście w przód) — JEDNO przetworzenie danych przez sieć od wejścia do wyjścia. Obraz wchodzi → przechodzi przez Conv, Pool, FC → wychodzi predykcja. Nie aktualizuje wag (to backward pass / backpropagation = uczenie).

Forward pass CNN (czasy na GPU):
Jeden obraz przez ResNet-50: ~5ms
R-CNN:      2000 regionów × 5ms = 10 SEKUND (dlatego był wolny!)
Fast R-CNN: 1 forward pass cały obraz + ROI Pool = ~200ms (50× szybciej!)

ReLU (Rectified Linear Unit) — funkcja aktywacji: f(x) = max(0, x). Przepuszcza wartości dodatnie, zeruje ujemne. Standard w CNN — stosowana PO KAŻDEJ warstwie konwolucyjnej.

Wejście:  [-3, 5, -1, 2, 0, -7, 4]
ReLU:     [ 0, 5,  0, 2, 0,  0, 4]

Dlaczego potrzebna? Bez ReLU sieć = seria mnożeń macierzy = JEDNA liniowa
transformacja → nie potrafi uchwycić złożonych wzorców.
ReLU dodaje NIELINIOWOŚĆ → sieć aproksymuje DOWOLNĄ funkcję.

Softmax — funkcja na WYJŚCIU klasyfikatora: zamienia surowe wyniki (logits) na prawdopodobieństwa sumujące się do 1.

Logits:     [2.0,  1.0,  0.1]
Softmax:    [0.66, 0.24, 0.10]   ← e^2.0 / (e^2.0 + e^1.0 + e^0.1) ≈ 0.66
Klasy:      ["kot", "pies", "ryba"]
→ „66% szans, że to kot"

Tensor — wielowymiarowa tablica liczb. Uogólnienie wektora i macierzy.

Skalar = 0D tensor:     5
Wektor = 1D:            [1, 2, 3]
Macierz = 2D:           [[1,2],[3,4]]
Obraz RGB = 3D:         [224 × 224 × 3]        ← wysokość × szerokość × kanały
Batch obrazów = 4D:     [32 × 224 × 224 × 3]   ← 32 obrazy naraz
Wyjście YOLO = 3D:      [7 × 7 × 30]           ← siatka × predykcje

Architektura CNN — pełny przykład (AlexNet, wygrał ImageNet 2012):

CNN — od obrazu do predykcji

ROZMIARY MALEJĄ:  224 → 55 → 27 → 13 → 6  (kompresja przestrzenna)
KANAŁY ROSNĄ:     3 → 96 → 256 → 384 → 256 (coraz więcej wyuczonych cech)

Backbone (kręgosłup / sieć bazowa) — duża, pretrenowana sieć CNN (np. ResNet-50, VGG-16) używana jako „ekstraktor cech". Backbone przetwarza obraz → feature mapa. Na wierzch dodaje się GŁOWICĘ (head) specyficzną dla zadania.

Analogia: backbone = SILNIK samochodu, head = KAROSERIA.
Ten sam silnik (ResNet) w różnych karoseriach:
    Sedan  → klasyfikacja: FC head → "kot"
    SUV    → detekcja: RPN + ROI Pool head → bbox + klasa
    Pickup → segmentacja: dekoder head → maska pikseli

Backbone PRETRENOWANY na ImageNet (miliony obrazów).
Head TRENOWANY od zera na konkretnym zadaniu (detekcja, segmentacja).

Detection head (głowa detekcyjna) — warstwy dodane NA WIERZCH backbone'u. Predykują klasy obiektów + pozycje bbox. W Faster R-CNN: RPN + ROI Pool + FC. W YOLO: warstwy conv + wyjście S×S×(B×5+C).

ResNet, VGG, AlexNet — popularne backbone'y:

Sieć       Rok   Warstw   Parametrów   Top-5 ImageNet   Innowacja
─────────────────────────────────────────────────────────────────────
AlexNet    2012   8        60M          84.7%             Pierwsza głęboka CNN
VGG-16     2014   16       138M         92.7%             Małe filtry 3×3
ResNet-50  2015   50       25M          96.4%             Skip connections

Mnemonik: A → V → R = „Architektura Bardzo Rezylientna" (2012 → 2014 → 2015)

Skip connection (ResNet): y = F(x) + x
Wejście bloku DODAWANE do wyjścia → gradient nie zanika
→ można trenować 50-152 warstw (bez skip: >20 warstw = DEGRADACJA!)

ImageNet — ogromny zbiór danych: 14M obrazów, 1000 klas (pies, samolot, gitara...). Standard pretrenowania w computer vision. ILSVRC (coroczne zawody) — AlexNet wygrał 2012 → rewolucja deep learning.

Transfer learning (uczenie transferowe) — weź sieć pretrenowaną na dużym zbiorze (ImageNet), użyj do INNEGO zadania (detekcja, segmentacja). Backbone „wie" jak wyglądają krawędzie i kształty — trzeba tylko nauczyć nowej głowicy.

Krok po kroku:
1. ResNet-50 pretrenowany na ImageNet (1000 klas, miliony obrazów)
2. Odtnij warstwę FC (klasyfikujse 1000 klas ImageNet) ← WYRZUĆ
3. Dodaj nową głowicę detekcji (bbox + 80 klas COCO)  ← NOWA
4. Trenuj głowicę na danych detekcyjnych (COCO/VOC)
5. Opcjonalnie: fine-tune = odmroź backbone, ucz z MAŁYM learning rate

Dlaczego działa? Cechy niskiego poziomu (krawędzie, tekstury) SĄ UNIWERSALNE.
Kot, samochód, twarz — wszystko ma krawędzie i tekstury!

Fine-tuning (dostrajanie) — forma transfer learning: odmrażasz backbone i uczysz CAŁĄ sieć z MAŁYM learning rate, żeby subtelnie dopasować cechy do nowego zadania.

COCO (Common Objects in Context) — benchmark detekcji: 330K obrazów, 80 klas (samochód, osoba, pies...), 1.5M bboxów. Standard oceny detektorów.

Pascal VOC (Visual Object Classes) — starszy benchmark: 20 klas. Używany w oryginalnym YOLO i R-CNN.

mAP (mean Average Precision) — główna metryka jakości detekcji. Łączy trafność klasy z trafnością lokalizacji.

mAP@0.5:      detekcja „trafna" jeśli IoU ≥ 0.5 (≥50% pokrycia z prawdą)
mAP@0.5:0.95: średnia po progach 0.5, 0.55, ..., 0.95 (dużo surowsza)

Faster R-CNN (COCO): mAP ≈ 42%
YOLOv8-X (COCO):     mAP ≈ 53%

End-to-end (od końca do końca) — cała sieć trenowana jako JEDNOŚĆ, jeden loss, jeden trening. Przeciwieństwo: R-CNN miał ODDZIELNIE Selective Search + CNN + SVM = 3 osobne kroki. Faster R-CNN = end-to-end → komponenty uczą się WSPÓŁPRACOWAĆ → lepsze wyniki.

FPN (Feature Pyramid Network) — technika łączenia feature map z RÓŻNYCH warstw backbone'u. Wczesne warstwy (wysoka rozdzielczość) → małe obiekty. Późne warstwy (niska rozdzielczość) → duże obiekty. FPN łączy obie → wykrywa obiekty WSZYSTKICH rozmiarów.

FPN (Feature Pyramid Network)


Klasyfikator (classifier) — model przypisujący etykietę do wejścia. Np. CNN trenowany na ImageNet: obraz → „kot" (+ prawdopodobieństwo). Klasyfikator nie mówi GDZIE jest obiekt — mówi tylko CO jest na obrazie. Pytanie brzmi: jak z takiego modelu zbudować detektor?

Sliding window (okno przesuwane) — najprostsza metoda budowy detektora z klasyfikatora: wytnij prostokątny fragment obrazu (wiele rozmiarów, wiele pozycji), każdy fragment sklasyfikuj. Jeśli „pozytywny" → detekcja. Ekstremalnie wolne: tysiące fragmentów × klasyfikacja per fragment.

[okno 64×64] przesuwa się po obrazie 640×480:
(640-64)×(480-64) ≈ ~240 000 pozycji × wiele skal = MILIONY klasyfikacji!

HOG (Histogram of Oriented Gradients) — klasyczny deskryptor cech wizualnych. Rozbijmy nazwę:

  • Gradient — w kontekście obrazu to „kierunek i siła zmiany jasności" w danym pikselu. Oblicza się go jako różnicę jasności sąsiednich pikseli. Gradient wskazuje KRAWĘDZIE — tam, gdzie jasność zmienia się szybko.

    Piksel:           [50] [50] [200]       ← nagły skok jasności
    Gradient w x:      0    150              ← duży gradient = KRAWĘDŹ!
    Gradient w y:      obliczany analogicznie (góra/dół)
    Kierunek krawędzi: arctan(gy/gx) ← np. 0° = pionowa, 90° = pozioma
    
  • Orientacja (Oriented) — kierunek gradientu. Gradient ma KĄTP (0°180°): krawędź pionowa = ~0°, pozioma = ~90°, ukośna = ~45°.

  • Histogram — zliczenie „ile pikseli ma gradient w danym kierunku". Dla komórki 8×8 pikseli liczymy histogram 9 binów (co 20°: 0°, 20°, 40°, ..., 160°).

  • HOG pipeline krok po kroku:

    Krok 1: Oblicz gradient KAŻDEGO piksela (Gx, Gy → magnitude + direction)
              Gx = pixel[x+1] - pixel[x-1]
              Gy = pixel[y+1] - pixel[y-1]
              magnitude = √(Gx² + Gy²)
              direction = arctan(Gy / Gx)
    
    Krok 2: Podziel obraz na komórki (cells) 8×8 pikseli
              Okno 64×128 → 8×16 komórek
    
    Krok 3: Dla każdej komórki stwórz histogram 9 binów (0°-180°, co 20°)
              Każdy piksel w komórce „głosuje" na bin odpowiadający jego kierunkowi
              z wagą = magnitude (silniejsze krawędzie głosują mocniej)
    
    Krok 4: Normalizuj histogramy w blokach 2×2 komórek (16×16 px)
              → odporność na zmiany oświetlenia
    
    Krok 5: Połącz wszystkie histogramy w jeden wektor cech
              Okno 64×128: (8-1)×(16-1) = 7×15 = 105 bloków × 4 komórki × 9 binów = 3780 cech
    
    Wynik: wektor 3780 liczb = „odcisk palca" kształtu w oknie
    Sylwetka człowieka → charakterystyczny wzorzec kierunków krawędzi
    

Pseudokod HOG:

  def compute_hog(window_64x128):
      gradients = compute_gradients(window)     # Gx, Gy per pixel
      magnitudes = sqrt(Gx**2 + Gy**2)
      directions = arctan2(Gy, Gx) * 180 / pi   # kąt w stopniach

      hog_vector = []
      for block in sliding_blocks_2x2(cells_8x8):
          block_hist = []
          for cell in block.four_cells():
              hist = zeros(9)                    # 9 binów
              for pixel in cell.pixels():
                  bin_idx = int(directions[pixel] / 20)
                  hist[bin_idx] += magnitudes[pixel]
              block_hist.append(hist)
          block_hist = normalize(concatenate(block_hist))  # L2-norm
          hog_vector.extend(block_hist)

      return hog_vector   # 3780-dim vector

SVM (Support Vector Machine) — klasyczny klasyfikator binarny (2 klasy: „tak/nie", „pieszy/nie-pieszy"). Pomysł:

  • Dane treningowe to punkty w przestrzeni wielowymiarowej (np. wektory HOG 3780-dim)
  • Każdy punkt ma etykietę: +1 (pozytywna klasa) lub -1 (negatywna)
  • SVM szuka hiperpłaszczyzny (w 2D to linia, w 3D to płaszczyzna) najlepiej SEPARUJĄCEJ dwie klasy

Czym jest hiperpłaszczyzna? W 2D: linia dzieląca punkty na dwie grupy. W 3D: płaszczyzna. W N wymiarach: (N-1)-wymiarowa „ściana".

Margines (margin) — odległość od hiperpłaszczyzny do najbliższego punktu danych. SVM MAKSYMALIZUJE margines → najlepsza generalizacja.

Support Vectors — punkty danych NAJBLIŻSZE hiperpłaszczyźnie. To one „podpierają" (support) margines i definiują pozycję hiperpłaszczyzny. Reszta punktów jest nieistotna! Nazwa: „wektory nośne" — bo to wektory cech, które „niosą" decyzję.

SVM — hiperpłaszczyzna i margines

HOG+SVM — klasyczny pipeline detekcji pieszych:

HOG + SVM pipeline detekcji pieszych

  1. Sliding window (okno 64×128) przesuwa się po obrazie
  2. Dla każdej pozycji okna:
     a) Oblicz HOG → wektor 3780 cech
     b) SVM klasyfikuje: „pieszy" (+1) lub „nie-pieszy" (-1)
  3. NMS (Non-Maximum Suppression) → usuń duplikaty
  4. Wynik: lista bounding boxów z detekcjami pieszych

Viola-Jones (2001) — przełomowy detektor twarzy w CZASIE RZECZYWISTYM. Trzy kluczowe innowacje wyjasnione szczegółowo:

Haar features (cechy Haarowe) — najprostsze cechy obrazowe: prostokąty podzielone na jasną i ciemną część. Wartość cechy = (suma pikseli jasnych) (suma pikseli ciemnych). Proste, ale skuteczne — wykrywają kontrasty typowe dla twarzy.

Cechy Haar — typy i zastosowanie na twarzy

Dlaczego działa na TWARZACH?
- Oczy CIEMNIEJSZE niż czoło → cecha "krawędź pozioma" daje dużą wartość
- Nos JAŚNIEJSZY niż policzki → cecha "linia pionowa" daje dużą wartość
- Twarz = charakterystyczna KOMBINACJA takich kontrastów!

Ile cech? W oknie 24×24 pikseli: ponad 160 000 możliwych cech Haar
(różne rozmiary × różne pozycje). AdaBoost wybiera ~200 NAJLEPSZYCH.

Integral Image (obraz całkowy) — precomputed tabela pozwalająca obliczyć sumę pikseli w DOWOLNYM prostokącie w O(1) — stały czas, niezależnie od rozmiaru! To dlatego Haar features liczą się tak szybko.

Jak? Integral Image[x,y] = suma WSZYSTKICH pikseli od (0,0) do (x,y).

Integral Image — suma prostokąta w O(1)

Zawsze 4 odczyty z tabeli → O(1)!
Czy prostokąt ma 4 piksele czy 4 MILIONY — czas TEN SAM!
Bez Integral Image: O(w×h) — suma 1000×1000 = milion operacji.
Z Integral Image: O(1) — 4 operacje. ZAWSZE.

Pseudokod:
def integral_image(img):
    II = zeros_like(img)
    for y in range(H):
        for x in range(W):
            II[y][x] = img[y][x] + II[y-1][x] + II[y][x-1] - II[y-1][x-1]
    return II

def rect_sum(II, x1, y1, x2, y2):   # O(1) zawsze!
    return II[y2][x2] - II[y1-1][x2] - II[y2][x1-1] + II[y1-1][x1-1]

AdaBoost (Adaptive Boosting) — algorytm uczenia maszynowego łączący wiele SŁABYCH klasyfikatorów w jeden SILNY. Słaby = niewiele lepszy od losowego (>50% trafień). AdaBoost iteracyjnie:

  1. Trenuj słaby klasyfikator (np. 1 cecha Haar + próg: "czy wartość > 1200?")

  2. Sprawdź, które przykłady ŹLE sklasyfikował

  3. Nadaj źle sklasyfikowanym WIĘKSZĄ wagę → następny klasyfikator SKUPI się na nich

  4. Powtórz 200× → suma ważona 200 słabych klasyfikatorów ≈ silny klasyfikator

    Intuicja: jak PANEL EKSPERTÓW, z których każdy zna się na JEDNEJ rzeczy. Ekspert 1: "czy okolice oczu ciemne?" (trafność 55%) Ekspert 2: "czy nos jaśniejszy niż policzki?" (trafność 60%) Ekspert 3: "czy brwi ciemne?" (trafność 53%) ... 200 ekspertów razem → trafność >95%! Mnemonik: AdaBoost = "ADAptacyjnie BOOSTuj" słabe modele do silnego.

Cascade (kaskada klasyfikatorów) — genialna optymalizacja szybkości: zamiast sprawdzać WSZYSTKIE 200 cech na każdym oknie, użyj KASKADY etapów. Każdy etap = prosty klasyfikator, który szybko ODRZUCA "na pewno nie-twarz".

Viola-Jones — kaskada klasyfikatorów (SITO)

Mnemonik: kaskada = "SITO" — coraz drobniejsze oczka,
na początku odpada piach, na końcu zostaje ZŁOTO (twarz).

Pseudokod kaskady:
def cascade_classify(window):
    for stage in cascade_stages:           # etap 1, 2, ..., 25
        score = stage.evaluate(window)     # oblicz kilka cech Haar
        if score < stage.threshold:        # za niski wynik
            return "NIE-TWARZ"             # SZYBKIE odrzucenie!
    return "TWARZ"                         # przeszło WSZYSTKIE etapy

Ewolucja detektorów: R-CNN → Faster R-CNN → YOLO

R-CNN family (two-stage detectors) — dwuetapowe: najpierw generuj propozycje regionów, potem klasyfikuj każdy region. Nazwa: Region-based CNN.

Selective Search (wyszukiwanie selektywne) — klasyczny algorytm (NIE sieć neuronowa!) generowania propozycji regionów. Zamiast MILIONÓW pozycji okna (sliding window), inteligentnie łączy podobne fragmenty obrazu i proponuje ~2000 prostokątów, w których MOGĄ być obiekty.

Algorytm krok po kroku:
1. Over-segmentation: podziel obraz na ~1000 małych regionów (superpixele)
   (na podstawie koloru i tekstury — algorytm Felzenszwalb)
2. Powtarzaj aż zostanie 1 region:
   a) Znajdź 2 najbardziej PODOBNE sąsiednie regiony:
      - podobny kolor? (histogram kolorów)
      - podobna tekstura? (histogram gradientów)
      - pasujący rozmiar? (preferuj łączenie MAŁYCH regionów)
   b) Połącz je w jeden → zapamiętaj bounding box nowego regionu
3. Zebrane bbox-y ze WSZYSTKICH kroków → ~2000 propozycji

Sliding window:    ~500 000 okien → 99.9% to "tło" → marnujesz czas
Selective Search:  ~2 000 regionów → ~50% zawiera coś → 250× wydajniej
RPN (Faster R-CNN): ~300 propozycji → sieć neuronowa (najszybciej!)

Czym jest "region proposal" (propozycja regionu)? — prostokąt, w którym MOŻE być obiekt. Dużo mniej niż sliding window (2000 zamiast milionów), ale każda propozycja ma WYSOKIE prawdopodobieństwo trafienia obiektu.

R-CNN (2014, Ross Girshick) — pierwszy detektor oparty na CNN. Pipeline:

Krok 1: Selective Search → ~2000 regionów-kandydatów (prostokątów)
Krok 2: Dla KAŻDEGO z 2000 regionów:
        a) Wytnij prostokąt z obrazu, przeskaluj do 224×224
        b) Przepuść przez CNN (np. AlexNet) → wektor cech 4096-dim
        c) SVM klasyfikuje: „samochód? kot? tło?"
Krok 3: Bbox regression — doprecyzuj pozycję prostokąta
Krok 4: NMS — usuń duplikaty

Problem: 2000 × CNN forward pass = 50 SEKUND na obraz! (2000 razy odpalasz CNN)
Dlaczego tak wolno? Bo CNN liczy cechy na KAŻDYM wyciętym regionie OSOBNO,
choć regiony się częściowo nakładają → redundantne obliczenia

Fast R-CNN (2015) — kluczowa optymalizacja: przepuść cały obraz przez CNN RAZ, uzyskaj "mapę cech" (feature map). Potem wytnij cechy regionów z tej mapy (ROI Pooling), zamiast odpalać CNN 2000 razy.

ROI (Region of Interest, region zainteresowania) — prostokątny fragment feature mapy odpowiadający propozycji regionu na oryginalnym obrazie. Np. Selective Search zaproponował bbox (100,50)-(200,150) na obrazie 800×600 → odpowiadający ROI na feature mapie (po redukcji 16× przez pooling) to mniej więcej (6,3)-(12,9).

ROI Pooling (pooling regionu zainteresowania) — operacja zamieniająca ROI o DOWOLNYM rozmiarze na tensor o STAŁYM rozmiarze (np. 7×7). Konieczne, bo warstwa FC wymaga stałego rozmiaru wejścia!

Problem: region 1 = 14×10 na feature mapie,  region 2 = 8×6  → RÓŻNE!
         Warstwa FC wymaga np. 7×7 → STAŁY rozmiar.

Rozwiązanie — ROI Pooling:
1. Weź ROI (np. 14×10) z feature mapy
2. Podziel go na siatkę 7×7 (= 7 wierszy × 7 kolumn)
   Każda komórka obejmuje ok. 2×1.4 pikseli feature mapy
3. W każdej komórce weź MAX (jak max pooling)
4. Wynik: tensor 7×7 — STAŁY rozmiar niezależnie od oryginalnego ROI!

ROI Pooling

Kluczowa sztuczka Fast R-CNN:
CNN raz na CAŁY obraz → JEDNA feature mapa → ROI Pool 2000 regionów z TEJ SAMEJ mapy
(zamiast 2000× odpalać CNN jak w R-CNN!)
Przyspieszenie: ~2 sec/obraz (vs 50 sec) → 25× szybciej!

Pseudokod ROI Pooling:
def roi_pool(feature_map, roi_bbox, output_size=7):
    roi = feature_map[roi_bbox]              # wycinek z feature mapy
    h, w = roi.shape
    cell_h, cell_w = h // output_size, w // output_size
    output = zeros(output_size, output_size)
    for i in range(output_size):
        for j in range(output_size):
            cell = roi[i*cell_h:(i+1)*cell_h, j*cell_w:(j+1)*cell_w]
            output[i][j] = max(cell)         # max pooling w komórce
    return output   # stały rozmiar 7×7!

CNN raz → feature map → ROI Pool 2000 regionów → FC → klasy + bbox

Bbox regression (regresja prostokąta ograniczającego) — sieć predykuje nie bezpośrednie współrzędne bbox, ale PRZESUNIĘCIA (offsets) od propozycji: Δx, Δy (przesunięcie środka), Δw, Δh (zmiana szerokości/wysokości).

Propozycja (z RPN/Selective Search): (x=100, y=80,  w=60,  h=90)  ← przybliżone
Predykcja regresji:                  (Δx=+5, Δy=-3, Δw=+10, Δh=+5)
Ostateczny bbox:                     (x=105, y=77,  w=70,  h=95)  ← dokładniejsze!

Dlaczego offsets a nie współrzędne bezpośrednio?
Łatwiejsze zadanie! Sieć poprawia przybliżony prostokąt O TROCHĘ,
zamiast zgadywać lokalizację od zera.
Mnemonik: bbox regression = "GPS korekta" — masz przybliżoną pozycję,
poprawiasz o parę metrów w prawo i w górę.

Faster R-CNN (2015) — ostatni krok ewolucji: zastąp Selective Search (osobny algorytm) siecią neuronową! RPN (Region Proposal Network) — mała sieć przesuwana po feature mapie, która w KAŻDEJ pozycji predykuje: "czy tu jest obiekt?" + proponuje bbox. Wszystko w jednej sieci, end-to-end.

Pipeline Faster R-CNN:
Obraz → CNN backbone (np. ResNet) → Feature Map → RPN (proposals) → ROI Pool → FC → klasy + bbox

RPN krok po kroku:
Feature mapa [40×60×256] ← z backbone
  ↓ Filtr 3×3 przesuwa się po feature mapie
  ↓ W KAŻDEJ pozycji (x,y) rozważ k=9 "anchor boxes":

    9 anchorów = 3 rozmiary × 3 proporcje:
    ┌───┐  ┌─────┐  ┌───────┐   ← 128×128, 256×256, 512×512
    │   │  │     │  │       │      × proporcje 1:1, 1:2, 2:1
    └───┘  └─────┘  └───────┘

  ↓ Dla KAŻDEGO z 9 anchorów sieć predykuje:
    - P(obiekt) = prawdopodobieństwo, że tu jest obiekt
    - (Δx, Δy, Δw, Δh) = przesunięcie bbox względem anchora

40×60 = 2400 pozycji × 9 anchorów = 21 600 potencjalnych propozycji!
→ Weź ~300 z najwyższym P(obiekt) → ROI Pool → FC → klasy + bbox

Faster R-CNN: ~5 fps (~0.2 sec/obraz) — 250× szybciej niż R-CNN!

Mnemonik ewolucji R-CNN: "CORAZ MNIEJ MARNOWANIA"
R-CNN:       Selective Search + 2000×CNN          = 50s  → WOLNE
Fast R-CNN:  Selective Search + 1×CNN + ROI Pool   = 2s   → lepiej
Faster R-CNN: RPN (w sieci!) + 1×CNN + ROI Pool   = 0.2s → 250× szybciej!

One-stage detectors — klasyfikacja i lokalizacja w jednym przejściu (bez osobnego etapu propozycji). Szybsze, ale historycznie mniej precyzyjne.

YOLO (You Only Look Once, 2016) — rewolucyjny pomysł: „po co robić 2 etapy, skoro można w JEDNYM?" Obraz dzielony jest na siatkę S×S (np. 13×13 = 169 komórek). Każda komórka odpowiada za wykrycie obiektu, którego ŚRODEK wpada w tę komórkę. Każda komórka predykuje:

  • B bounding boxów × (x, y, w, h, confidence) = lokalizacja + „pewność, że tu jest obiekt"
  • C prawdopodobieństw klas = „jaki to obiekt?" Jedno przejście przez sieć → WSZYSTKIE detekcje naraz. 45-155 fps!

YOLO — detekcja jednoetapowa (siatka S×S)

SSD (Single Shot MultiBox Detector, 2016) — ulepsza YOLO przez multi-scale feature maps: predykcje z WIELU warstw CNN, każda o innej rozdzielczości. Wczesne warstwy (wysoka rozdzielczość) wykrywają MAŁE obiekty; późne warstwy (niska rozdzielczość) wykrywają DUŻE. Anchor boxes predefiniowane na każdej skali.

Anchor box (kotwica) — predefiniowany prostokąt o określonym kształcie/proporcji (np. 1:1, 1:2, 2:1). Sieć NIE predykuje bbox od zera — predykuje PRZESUNIĘCIE (offset) od najbliższego anchora. Łatwiejsze zadanie! Wiele anchorów → pokrycie różnych kształtów obiektów (osoby = wysoki prostokąt, samochód = szeroki).

Anchor boxes — predefiniowane kształty

Anchor-free — nowoczesne podejście (FCOS, YOLOv8): bezpośrednia predykcja środka i wymiarów, bez predefiniowanych anchorów. Prostsza architektura, mniej hyperparametrów.

Transformer — architektura sieci neuronowej pierwotnie z NLP (2017, "Attention is All You Need"), ale skutecznie zaadaptowana do wizji komputerowej (ViT, DETR). Kluczowy mechanizm: self-attention — każdy element wejścia "patrzy" na WSZYSTKIE inne elementy i decyduje, które są dla niego ważne.

W tekście: słowo "bank" patrzy na "rzeka" i "pieniądze" →
attention decyduje: "w tym zdaniu chodzi o brzeg RZEKI, nie bank pieniędzy"

W obrazie (DETR): fragment obrazu "patrzy" na inne fragmenty →
attention: "ta łapa jest częścią TEGO kota, a nie tamtego psa"

Self-attention (samo-uwaga) — mechanizm: dla każdego elementu oblicz "uwagę" do KAŻDEGO innego elementu. Matematycznie: Query × Key → wagi attention → ważona suma Values.

Uproszczony pseudokod:
def self_attention(features):         # features = N elementów
    Q = features × W_query            # Query: "czego szukam?"
    K = features × W_key              # Key: "co oferuję?"
    V = features × W_value            # Value: "jaką informację niosę?"

    attention = softmax(Q × K^T / sqrt(d))  # macierz N×N: "kto ważny dla kogo"
    output = attention × V                   # ważona kombinacja wartości
    return output

Złożoność: O(n^2) — każdy element z każdym → wolne dla dużych obrazów.
Dlatego DETR wolniej się TRENUJE niż YOLO (ale architektura jest PROSTSZA).

DETR (DEtection TRansformer, 2020) — model Facebooka stosujący Transformer do detekcji. Radykalnie prostszy pipeline: BRAK anchorów, BRAK NMS! Sieć predykuje bezpośrednio ZESTAW N obiektów (np. N=100).

DETR — Transformer do detekcji

"Object queries" = 100 wyuczonych wektorów, każdy "szuka" jednego obiektu.
Obraz z 5 obiektami → 5 queries dopasuje się do obiektów,
95 queries zwróci klasę "brak obiektu" (empty set).

Pseudokod DETR:
def detr_forward(image):
    features = backbone(image)                # ResNet → feature mapa
    encoded = transformer_encoder(features)   # self-attention na feat. mapie
    queries = learnable_queries(100)           # 100 wyuczonych zapytań
    decoded = transformer_decoder(queries, encoded)  # cross-attention
    predictions = []
    for q in decoded:
        cls = classify(q)      # "samochód" / "pies" / "brak"
        box = regress(q)       # (x, y, w, h)
        predictions.append((cls, box))
    return predictions         # 100 predykcji (większość = brak)

Mnemonik DETR: "Detekcja Eliminująca Trikowe Redundancje"
→ bez NMS, bez anchorów, prosty pipeline.

Hungarian matching (dopasowanie węgierskie) — algorytm używany podczas TRENINGU DETR. Problem: sieć daje 100 predykcji, na obrazie jest 5 obiektów — która predykcja odpowiada któremu obiektowi? Algorytm węgierski znajduje OPTYMALNE dopasowanie 1:1 minimalizując łączny koszt (błąd klasy + błąd bbox).

Predykcje DETR:           Ground truth:
pred_1: "samochód"        gt_1: "samochód" (bbox A)
pred_2: "pies"            gt_2: "pies" (bbox B)
pred_3: "brak"
...                       Hungarian matching:
pred_100: "brak"          pred_1 ↔ gt_1 (najlepsze dopasowanie!)
                          pred_2 ↔ gt_2
                          reszta ↔ "brak obiektu"

Efekt: BRAK DUPLIKATÓW → BRAK NMS!
(Każdy obiekt dopasowany do DOKŁADNIE jednej predykcji)

NMS (Non-Maximum Suppression, tłumienie nie-maksymalnych) — algorytm post-processingu usuwający ZDUPLIKOWANE detekcje. Problem: detektor generuje WIELE nakładających się bbox dla tego samego obiektu. NMS zachowuje NAJLEPSZĄ i usuwa resztę. Jedyny detektor BEZ NMS = DETR.

Algorytm NMS krok po kroku:
Wejście: detekcje posortowane malejąco po confidence
[bbox_1 conf=0.95], [bbox_2 conf=0.90], [bbox_3 conf=0.85], [bbox_4 conf=0.40]

Pseudokod NMS:
def nms(detections, iou_threshold=0.5):
    detections.sort(by=confidence, descending=True)
    keep = []
    while detections:
        best = detections.pop(0)        # weź najlepszą
        keep.append(best)               # ZACHOWAJ ją
        detections = [d for d in detections
                      if iou(best, d) < iou_threshold]  # usuń nakładające
    return keep

Krok 1: Weź bbox_1 (0.95) → ZACHOWAJ
Krok 2: IoU(bbox_1, bbox_2) = 0.82 > 0.5 → USUŃ (duplikat tego samego kota!)
        IoU(bbox_1, bbox_3) = 0.75 > 0.5 → USUŃ (duplikat!)
        IoU(bbox_1, bbox_4) = 0.10 < 0.5 → ZACHOWAJ (INNY obiekt!)
Krok 3: Wynik: [bbox_1, bbox_4] — 2 unikalne obiekty

Mnemonik: NMS = "Najlepszy Ma Się dobrze" — zachowaj najlepszą, usuń resztę.

IoU (Intersection over Union) — miara nakładania dwóch prostokątów. IoU = pole przecięcia / pole sumy. Wartości: 0.0 (nie nakładają się) do 1.0 (identyczne).

IoU (Intersection over Union)

IoU = pole(∩) / pole(A  B)
    = pole(∩) / (pole(A) + pole(B)  pole(∩))

Przykład liczbowy:
A = [0, 0, 100, 100]    → pole = 10 000
B = [50, 50, 150, 150]  → pole = 10 000
∩ = [50, 50, 100, 100]  → pole = 2 500
IoU = 2500 / (10000 + 10000  2500) = 2500 / 17500 ≈ 0.14

IoU > 0.5 w NMS → "to TEN SAM obiekt" → usuń słabszą detekcję
IoU > 0.5 w mAP → "detekcja TRAFNA" → poprawna lokalizacja

Jak zbudować detektor z klasyfikatora? Trzy podejścia (+ bonus):

  1. Sliding window — wytnij, sklasyfikuj, NMS. Bardzo wolne (miliony klasyfikacji).
  2. Region proposals + klasyfikator — Selective Search → ~2000 regionów → klasyfikuj + NMS. Wolne ale działa (= R-CNN).
  3. Fine-tune backbone — weź pretrained classifier (ResNet z ImageNet), dodaj detection head (bbox regression + cls), dotrenuj na danych detekcyjnych. Najlepsza jakość (= Faster R-CNN, YOLO, SSD).
  4. Transformer (DETR) — bez anchorów, bez NMS, predykcja zestawu obiektów end-to-end.

Problem: czym jest detekcja obiektów?

Detekcja obiektów to lokalizacja (gdzie?) i klasyfikacja (co?) obiektów na obrazie. Wynik: lista krotek (klasa, bounding box, confidence).

Wejście:   zdjęcie ulicy
Wynik:     [("samochód", [50,30,200,180], 0.95),
            ("pieszy",   [300,100,350,250], 0.88),
            ("rower",    [400,150,480,300], 0.72)]

Porównanie z innymi zadaniami:

Klasyfikacja vs Detekcja vs Segmentacja


Metody klasyczne

Metody sprzed deep learningu — ręcznie projektowane cechy (features) + klasyczny klasyfikator.

Metoda Rok Cechy Klasyfikator Szybkość Use case
HOG + SVM 2005 Histogram of Oriented Gradients SVM wolna (~1 fps) detekcja pieszych
Viola-Jones 2001 Haar features + Integral Image AdaBoost cascade real-time (30+ fps) detekcja twarzy

HOG + SVM (Dalal & Triggs, 2005) — krok po kroku

Mnemonik kroków HOG: „GÓRA KOCHA BOGATYCH NARCIARZY" → Gradienty → Orientacja → Komórki → Bloki → Normalizacja

HOG + SVM pipeline detekcji pieszych

Krok 1 — Gradienty (G jak GÓRA): Oblicz gradient KAŻDEGO piksela. Gradient = „siła i kierunek zmiany jasności". Tam, gdzie jasność skacze (np. 50→200), jest krawędź.

Przykład liczbowy:
Piksele w wierszu: [50, 50, 200]
Gx = pixel[x+1]  pixel[x1] = 200  50 = 150  ← silna krawędź pionowa!
Gy = analogicznie w pionie
Siła: magnitude = √(Gx² + Gy²) = √(150² + 0²) = 150
Kierunek: direction = arctan(Gy/Gx) = arctan(0/150) = 0° (krawędź pionowa)

Krok 2 — Orientacja (O jak KOCHA): Każdy piksel głosuje na kierunek swojej krawędzi. 9 „koszyków" (binów) co 20°: 0°, 20°, 40°, …, 160°. Głos ważony SIŁĄ gradientu (silniejsza krawędź = mocniejszy głos).

Piksel z magnitude=150, direction=10°:
Głosuje na bin 0° (z wagą proporcjonalną do bliskości) i bin 20°
Piksel z magnitude=30, direction=85°:
Głosuje na bin 80° i bin 100° (słabsza krawędź = słabszy głos)

Krok 3 — Komórki (K jak BOGATYCH): Podziel okno (64×128 px) na komórki 8×8 pikseli = 8×16 = 128 komórek. Dla KAŻDEJ komórki stwórz histogram 9 binów — to jej „odcisk palca kierunkowości krawędzi".

HOG — kroki obliczania cech

Krok 4 — Bloki (B jak NARCIARZY): Grupuj komórki w bloki 2×2 (= 16×16 px). Przesuwaj blok z krokiem 1 komórki. Okno 64×128 → (81)×(161) = 7×15 = 105 bloków.

Krok 5 — Normalizacja (N): Dla KAŻDEGO bloku (4 komórki × 9 binów = 36 wartości) wykonaj normalizację L2 → odporność na zmiany oświetlenia. 105 bloków × 36 = 3780 cech → wektor HOG.

Pseudokod:
def compute_hog(window_64x128):
    Gx = pixel[x+1] - pixel[x-1]          # gradient poziomy
    Gy = pixel[y+1] - pixel[y-1]          # gradient pionowy
    mag = sqrt(Gx**2 + Gy**2)             # siła
    dir = arctan2(Gy, Gx) * 180 / pi     # kierunek 0°-180°

    hog = []
    for block_2x2 in sliding_blocks(cells_8x8):
        block_hist = []
        for cell in block_2x2:                 # 4 komórki
            hist = [0]*9                       # 9 binów
            for px in cell.pixels:             # 64 piksele
                bin = int(dir[px] / 20)        # który bin?
                hist[bin] += mag[px]           # ważone głosowanie
            block_hist += hist
        block_hist = L2_normalize(block_hist)  # normalizacja!
        hog += block_hist
    return hog  # wektor 3780 cech → do SVM

Krok 6 — SVM klasyfikuje: Wektor 3780 cech → SVM odpowiada: „pieszy" (+1) lub „tło" (1).

SVM — hiperpłaszczyzna i margines

Mnemonik SVM: „LINIA MAKSYMALNEGO ODDECHU"
SVM = linia (hiperpłaszczyzna) z MAKSYMALNYM marginesem.
Jak MOST nad rzeką — im szerszy, tym bezpieczniejszy (lepiej generalizuje).

Krok 7 — NMS: Usuń duplikaty (wiele okien wykryło tego samego pieszego → zachowaj najlepsze).

Mnemonik PEŁNEGO pipeline'u HOG+SVM: „GOKBN-SN"
→ Gradienty → Orientacja → Komórki → Bloki → Normalizacja → SVM → NMS
= „Grasz Ostro, Kumplu? Bądź Naturalny, Szybko Nabierz (wprawy)!"

Viola-Jones (2001) — krok po kroku

Mnemonik 3 innowacji: „HIC" → Haar + Integral Image + Cascade

Innowacja 1 — Haar features (H): Prostokąty dzielone na jasną i ciemną część. Wartość = Σ(jasna) Σ(ciemna). Proste, ale wykrywają kontrasty typowe dla twarzy.

Cechy Haar — typy i zastosowanie na twarzy

Pseudokod cechy Haar:
def haar_edge_vertical(img, x, y, w, h):
    left_sum  = sum_pixels(img, x, y, x+w//2, y+h)    # jasna połówka
    right_sum = sum_pixels(img, x+w//2, y, x+w, y+h)  # ciemna połówka
    return left_sum - right_sum   # duża wartość = silna krawędź

Mnemonik: Haar = „Hej, A tu jest Różnica?"
Cechy Haar pytają: „Czy lewa strona JAŚNIEJSZA niż prawa?"

Innowacja 2 — Integral Image (I): Precomputed tabela: suma DOWOLNEGO prostokąta w O(1) — 4 odczyty z tabeli, niezależnie od rozmiaru!

Integral Image — suma prostokąta w O(1)

Pseudokod:
def build_integral_image(img):
    II = zeros(H, W)
    for y in range(H):
        for x in range(W):
            II[y][x] = img[y][x] + II[y-1][x] + II[y][x-1] - II[y-1][x-1]
    return II

def rect_sum(II, x1, y1, x2, y2):    # ZAWSZE O(1)!
    return II[y2][x2] - II[y1-1][x2] - II[y2][x1-1] + II[y1-1][x1-1]

Mnemonik: Integral Image = „4 Odczyty I Gotowe!" = 4OIG
Jak czytanie z gotowej tabeli: nie liczymy, tylko odczytujemy!

Innowacja 3 — Cascade (C): Kaskada etapów — szybkie odrzucanie „na pewno nie-twarz".

Viola-Jones — kaskada klasyfikatorów (SITO)

Pseudokod:
def cascade_classify(window):
    for stage in [stage_1, stage_2, ..., stage_25]:
        score = sum(stage.weights[i] * haar_feature[i](window)
                    for i in stage.features)
        if score < stage.threshold:
            return "NIE-TWARZ"      # szybkie odrzucenie!
    return "TWARZ"                  # przeszło WSZYSTKIE etapy

Mnemonik: Cascade = „SITO z coraz drobniejszymi oczkami"
Etap 1: sito o dużych oczkach → odpada piach (oczywiste nie-twarze)
Etap 25: sito najdrobniejsze → zostaje ZŁOTO (twarz)
99% okien odpada w pierwszych 3 etapach → REAL-TIME!

Pełny pipeline Viola-Jones:

1. Sliding window (24×24) po obrazie w wielu skalach
2. Integral Image (preprocessing, O(n) — raz)
3. Dla każdego okna: kaskada (Haar + AdaBoost, najczęściej odrzuci w 1-3 etapie)
4. NMS na detekcjach → wynik

Mnemonik pipeline'u: „SIKN" = Sliding → Integral → Kaskada → NMS
= „Szybko Identyfikuj Kształty Niezwykłe!"

Deep learning

Two-stage detectors (dwuetapowe) — najpierw generuj propozycje regionów, potem klasyfikuj.

Model Rok Propozycje Szybkość Innowacja
R-CNN 2014 Selective Search (~2000) 50 sec/img (!) CNN per region
Fast R-CNN 2015 Selective Search ~2 sec/img CNN raz + ROI Pooling
Faster R-CNN 2015 RPN (w sieci!) ~5 fps Region Proposal Network
Ewolucja R-CNN:
R-CNN:       [Selective Search] → 2000 × [CNN] → 2000 × [SVM]    = 50s WOLNE!
Fast R-CNN:  [CNN raz] → [ROI Pool 2000 regionów] → [FC]          = 2s lepiej
Faster R-CNN:[CNN] → [RPN generuje propozycje] → [ROI Pool] → [FC] = 0.2s!

Ewolucja detektorów: R-CNN → Faster R-CNN

One-stage detectors (jednoetapowe) — klasyfikacja i lokalizacja w JEDNYM przejściu.

Model Rok Szybkość Innowacja
YOLO 2016 45-155 fps siatka S×S, jedno przejście
SSD 2016 46-59 fps multi-scale feature maps
YOLOv8 2023 100+ fps anchor-free, SOTA
DETR 2020 ~40 fps transformer, bez NMS
YOLO:
Obraz [416×416] → siatka 13×13 → każda komórka predykuje:
  - B bounding boxów (pozycja + rozmiar + confidence)
  - C klas (prawdopodobieństwa)
Jedno forward pass → WSZYSTKIE detekcje naraz → NMS → wynik

Two-stage vs One-stage:

Two-stage vs One-stage — porównanie


Jak zbudować detektor z klasyfikatora?

Masz wytrenowany klasyfikator (np. ResNet na ImageNet: obraz → „kot"). Jak go użyć do lokalizacji obiektów?

Mnemonik 3 podejść: „SRF" = „Sliding → Region → Fine-tune" = „Szukaj Ręcznie, Finalnie optymalizuj!"

Jak zbudować detektor z klasyfikatora? — 3 podejścia


Podejście 1 — Sliding Window (najprostsze, NAJWOLNIEJSZE)

Idea: Wycinaj prostokątne fragmenty obrazu, KAŻDY pokaż klasyfikatorowi, zbierz pozytywne.

Mnemonik: „WYCINAJ i PYTAJ" — jak wycinanie ciasteczek: koło po kole, aż cały obraz pokryty.

Sliding Window — najprostsze podejście

Pseudokod:
def sliding_window_detect(image, classifier, window_size=64, step=8):
    detections = []
    for scale in [0.5, 0.75, 1.0, 1.5, 2.0]:        # 5 skal
        resized = resize(image, scale)
        for y in range(0, resized.height - window_size, step):
            for x in range(0, resized.width - window_size, step):
                window = resized[y:y+window_size, x:x+window_size]
                label, confidence = classifier.predict(window)
                if label != "tło" and confidence > 0.5:
                    # przelicz współrzędne na oryginał
                    bbox = (x/scale, y/scale,
                            (x+window_size)/scale, (y+window_size)/scale)
                    detections.append((label, bbox, confidence))
    return nms(detections)   # usuń duplikaty

Dlaczego wiele skal? Obiekty mają różne rozmiary — kot blisko = duży, kot daleko = mały. Okno 64×64 nie złapie kota 200×200.

Obliczenia dla obrazu 640×480:
Pozycje na skali 1.0: (640-64)/8 × (480-64)/8 = 72 × 52 = 3 744
× 5 skal = 18 720 okien
× klasyfikacja ResNet (~10ms/obraz na GPU) = ~3 minuty
× na CPU (~100ms/obraz) = ~30 minut na 1 obraz!
⚠ NIEPRAKTYCZNE dla zastosowań real-time

Wady: (1) Ekstremalnie wolne. (2) Stały kształt okna — obiekty nie są kwadratowe. (3) ~99.9% okien to „tło" → marnowanie czasu.


Podejście 2 — Region Proposals + Klasyfikator (= R-CNN)

Idea: Zamiast milionów okien, inteligentnie zaproponuj ~2000 regionów, w których MOGĄ być obiekty, i tylko te sklasyfikuj.

Mnemonik: „INTELIGENTNE CIĘCIE" — zamiast kroić cały tort na milion kawałków, wytnij tylko tam, gdzie widzisz wiśnie (obiekty).

Pseudokod (= R-CNN):
def region_proposal_detect(image, classifier):
    # Krok 1: Selective Search — inteligentnie generuj regiony
    proposals = selective_search(image)    # ~2000 prostokątów
    detections = []

    # Krok 2: Dla KAŻDEGO regionu — clasificuj
    for bbox in proposals:                 # ~2000 iteracji (nie milion!)
        crop = image[bbox]                 # wytnij region
        crop = resize(crop, 224, 224)      # rozmiar wymagany przez CNN
        features = cnn_backbone(crop)      # ResNet → wektor 2048 cech
        label, conf = svm_classify(features)  # SVM: "samochód? kot? tło?"
        if label != "tło" and conf > 0.5:
            detections.append((label, bbox, conf))

    # Krok 3: bbox regression — doprecyzuj pozycje
    for det in detections:
        det.bbox += bbox_regressor(det.features)  # Δx, Δy, Δw, Δh

    return nms(detections)   # Krok 4: usuń duplikaty

Dlaczego 2000 a nie milion? Selective Search łączy podobne fragmenty obrazu (kolor, tekstura) bottom-up. Wynik: ~2000 „mądrych" propozycji, z których ~50% zawiera coś (vs 0.1% w sliding window).

Porównanie z sliding window:
Sliding Window: ~18 000 okien × 10ms = ~3 min
Proposals:      ~2 000 regionów × 10ms = ~20 sec ← 9× szybciej
ALE wciąż 2000 × forward pass CNN → dlatego powstał Fast R-CNN!

Wady: (1) Selective Search jest osobnym algorytmem (nie end-to-end). (2) 2000 × forward pass CNN = wciąż wolno. (3) SVM trenowany OSOBNO od CNN.


Podejście 3 — Fine-tune backbone + detection head (NAJLEPSZE)

Idea: Weź pretrenowany klasyfikator, ODETNIJ głowicę klasyfikacyjną (FC 1000 klas), zastąp ją DWOMA nowymi głowicami: (1) głowica klasyfikacji → klasa obiektu, (2) głowica regresji → pozycja bbox.

Mnemonik: „PRZESZCZEP GŁOWY" — ten sam silnik (backbone), nowa głowa (detection head).

Pseudokod (= Faster R-CNN / YOLO w uproszczeniu):
# KROK 1: Weź pretrenowany klasyfikator
resnet = load_pretrained("resnet50_imagenet")  # 1000 klas ImageNet

# KROK 2: Odetnij starą głowicę klasyfikacji
backbone = resnet.layers[:-2]    # ZACHOWAJ: Conv1...Conv5 (ekstraktor cech)
# WYRZUĆ: FC(1000) + Softmax

# KROK 3: Dodaj nowe głowice detekcji
class DetectionHead:
    def __init__(self):
        self.cls_head = Linear(2048, num_classes)    # "samochód? kot? tło?"
        self.bbox_head = Linear(2048, 4)             # Δx, Δy, Δw, Δh

    def forward(self, features):
        cls = softmax(self.cls_head(features))       # P(klasa)
        bbox = self.bbox_head(features)              # przesunięcie bbox
        return cls, bbox

# KROK 4: Zamroź backbone, trenuj głowice na danych detekcyjnych
for image, gt_boxes, gt_labels in coco_dataset:
    features = backbone(image)          # pretrenowane cechy (zamrożone)
    cls, bbox = detection_head(features)
    loss = cls_loss(cls, gt_labels) + bbox_loss(bbox, gt_boxes)
    loss.backward()                     # aktualizuj TYLKO detection_head

# KROK 5 (opcja): Fine-tune — odmroź backbone z MAŁYM learning rate
backbone.unfreeze()
optimizer = SGD(lr=0.0001)    # 10× mniejszy niż dla głowicy!
# trenuj jak w kroku 4, ale teraz backbone też się uczy

Dlaczego to działa? Pretrenowany backbone na ImageNet „wie", jak wyglądają krawędzie, tekstury, kształty. Te cechy są UNIWERSALNE — przydają się zarówno do klasyfikacji „złota rybka vs samolot" jak i do detekcji „samochód na zdjęciu z drona".

Transfer learning w liczbach:
Trenowanie od zera na COCO (330K obrazów):     ~12h na 8×V100 GPU
Fine-tune pretrained ResNet-50:                ~4h na 8×V100 GPU ← 3× szybciej!
Fine-tune osiąga mAP ~42%, od zera ~38%        ← lepsze wyniki!

Pełny przykład w PyTorch (Faster R-CNN z pretrained backbone):

import torchvision
from torchvision.models.detection import fasterrcnn_resnet50_fpn

# Gotowy detektor z pretrained backbone!
model = fasterrcnn_resnet50_fpn(pretrained=True)

# Custom: zmiana na 5 klas (zamiast 91 COCO)
num_classes = 5  # 4 obiekty + tło
in_features = model.roi_heads.box_predictor.cls_score.in_features
model.roi_heads.box_predictor = FastRCNNPredictor(in_features, num_classes)

# Trening:
model.train()
for images, targets in dataloader:
    loss_dict = model(images, targets)  # cls_loss + bbox_loss
    total_loss = sum(loss_dict.values())
    total_loss.backward()
    optimizer.step()

# Inferencja:
model.eval()
predictions = model([test_image])
# predictions = [{'boxes': tensor, 'labels': tensor, 'scores': tensor}]
# boxes = [[x1,y1,x2,y2], ...], labels = [1, 3, ...], scores = [0.95, 0.88, ...]

Podsumowanie — porządek od NAJGORSZEGO do NAJLEPSZEGO:

Podejście          Okien      Czas/obraz    Jakość     Rok     Przykład
──────────────────────────────────────────────────────────────────────────
Sliding Window     ~milion    ~30 min       niska      -       (teoria)
Region Proposals   ~2000     ~20-50 sec     średnia    2014    R-CNN
Fine-tune + RPN    ~300      ~0.2 sec       wysoka     2015    Faster R-CNN
One-stage          1×siatka  ~7-22 ms       wysoka     2016+   YOLO, SSD
Transformer        N queries  ~25 ms        wysoka     2020    DETR

Mnemonik porządku: „SRFTD" = „Sliding → Region → Fine-tune → Transformer → (Done!)"
= „Szukaj Ręcznie, Finalnie Transformer (Detekuje!)"

NMS (Non-Maximum Suppression) — post-processing

NMS — usuwanie duplikatów

Detektor generuje WIELE nakładających się bbox dla jednego obiektu:
[bbox1, 0.95], [bbox2, 0.90], [bbox3, 0.85] — wszystkie na tym samym kocie

Pseudokod NMS:
def nms(detections, iou_threshold=0.5):
    detections.sort(by=confidence, descending=True)
    keep = []
    while detections:
        best = detections.pop(0)        # weź najlepszą
        keep.append(best)               # ZACHOWAJ
        detections = [d for d in detections
                      if iou(best, d) < iou_threshold]  # usuń nakładające
    return keep

Krok po kroku (przykład):
1. Sortuj: [0.95, 0.90, 0.85, 0.40]
2. Weź bbox₁ (0.95) → ZACHOWAJ
3. IoU(bbox₁, bbox₂) = 0.82 > 0.5 → USUŃ (duplikat!)
   IoU(bbox₁, bbox₃) = 0.75 > 0.5 → USUŃ (duplikat!)
   IoU(bbox₁, bbox₄) = 0.10 < 0.5 → ZACHOWAJ (INNY obiekt!)
4. Wynik: [bbox₁, bbox₄] — 2 unikalne obiekty

IoU (Intersection over Union)

Mnemonik NMS: „Najlepszy Ma Się dobrze" — zachowaj najlepszą, resztę wyrzuć
Mnemonik IoU: „Ile pokrycia Ustalono?" — pole(∩) / pole(AB)

Etymologia

CNN — Convolutional Neural Network (sieć z konwolucjami). YOLO — You Only Look Once (Joseph Redmon et al., 2016). R-CNN — Region-based CNN (Ross Girshick, 2014). HOG — Histogram of Oriented Gradients (Dalal & Triggs, 2005). SVM — Support Vector Machine (Vapnik, 1995). Viola-Jones — Paul Viola + Michael Jones (2001). DETR — DEtection TRansformer (Facebook AI, 2020). SSD — Single Shot MultiBox Detector (Liu et al., 2016). NMS — Non-Maximum Suppression; tłumienie nie-maksymalnych detekcji. ROI — Region of Interest (region zainteresowania). RPN — Region Proposal Network (sieć propozycji regionów). FPN — Feature Pyramid Network (piramida cech). IoU — Intersection over Union (przecięcie przez sumę). FC — Fully Connected (w pełni połączona). ReLU — Rectified Linear Unit (wyprostowana jednostka liniowa). mAP — mean Average Precision (średnia precyzja).

Jak zapamiętać

  • CNN = „Czytaj Nie Naraz" — małe filtry 3×3 przesuwane po obrazie, nie cały obraz naraz
  • Hierarchia CNN: „K-R-F-O" = „Każdy Rycerz Znajduje Obiekt" — Krawędzie → Rogi → Fragmenty → Obiekty
  • FC = „Full Connection" — każdy z każdym, warstwa decyzyjna na końcu CNN
  • Backbone = SILNIK samochodu — ten sam silnik (ResNet), różne karoserie (klasyfikacja/detekcja/segmentacja)
  • Backbone'y: A→V→R = „Architektura Bardzo Rezylientna" — AlexNet (2012) → VGG (2014) → ResNet (2015)
  • Transfer learning = „PRZESZCZEP GŁOWY" — nie ucz się od zera, przenieś wiedzę z ImageNet, zmień głowicę
  • HOG kroki: „GOKBN" = „Grasz Ostro, Kumplu? Bądź Naturalny" — Gradienty → Orientacja → Komórki → Bloki → Normalizacja
  • SVM = „LINIA MAKSYMALNEGO ODDECHU" — margines jak most: im szerszy, tym bezpieczniej
  • Viola-Jones: „HIC" = Haar + Integral Image + Cascade
  • Haar = „Hej, A tu jest Różnica?" — porównuje jasne i ciemne prostokąty
  • Integral Image = „4 Odczyty I Gotowe" (4OIG) — suma dowolnego prostokąta O(1)
  • Kaskada = „SITO" — piach odpada wcześnie, złoto (twarz) zostaje na końcu
  • Viola-Jones pipeline: „SIKN" = „Szybko Identyfikuj Kształty Niezwykłe" — Sliding → Integral → Kaskada → NMS
  • AdaBoost = „ADAptacyjnie BOOSTuj" — słabe modele razem = silny
  • Selective Search — inteligentne łączenie regionów zamiast milionów okien
  • ROI Pooling — dowolny rozmiar → stały rozmiar (siatkowanie + max)
  • Bbox regression = „GPS korekta" — popraw przybliżoną pozycję o Δx, Δy, Δw, Δh
  • Ewolucja R-CNN: „CORAZ MNIEJ MARNOWANIA" — R-CNN (50s) → Fast (2s) → Faster (0.2s)
  • YOLO = „You Only Look Once" — jednoetapowy, szybki, siatka S×S
  • Faster R-CNN = CNN + RPN + ROI Pool — dwuetapowy, dokładny
  • NMS = „Najlepszy Ma Się dobrze" — zachowaj najlepszą detekcję, usuń duplikaty
  • IoU = „Ile pokrycia Ustalono?" — pole(∩) / pole(AB)
  • DETR = „Detekcja Eliminująca Trikowe Redundancje" — bez NMS, bez anchorów, transformer
  • Detektor z klasyfikatora: „SRF" = „Szukaj Ręcznie, Finalnie optymalizuj!" — Sliding Window (wolno) → Region Proposals (lepiej) → Fine-tune backbone (najlepiej)