56 KiB
PYTANIE 24: Detekcja obiektów
Problem, metody klasyczne, deep learning. Jak zbudować detektor z klasyfikatora?
Tło pojęciowe — słowniczek
Detekcja obiektów (object detection) — zadanie widzenia komputerowego: zlokalizuj obiekty na obrazie (bounding box) i przypisz im klasy (samochód, pieszo, kot...). Wynik: lista (klasa, prostokąt, pewność). Trudniejsze niż klasyfikacja (→ cały obraz, 1 label), ale łatwiejsze niż segmentacja (→ per piksel).
Klasyfikacja: "To zdjęcie zawiera kota"
Detekcja: "Kot w prostokącie (50,30)-(200,180), pewność 95%"
Segmentacja: Maska pikseli kota
Bounding box (prostokąt ograniczający, bbox) — prostokąt opisujący położenie obiektu. Zwykle: (x_min, y_min, x_max, y_max) lub (x_center, y_center, width, height). Przybliżenie — obiekty rzadko są prostokątne.
Confidence (pewność) — wynik 0-1 mówiący jak pewny jest detektor, że wykrył obiekt danej klasy. Zwykle próg np. 0.5: detekcje poniżej odrzucane.
CNN (Convolutional Neural Network, konwolucyjna sieć neuronowa) — typ sieci neuronowej zaprojektowany specjalnie do przetwarzania OBRAZÓW. Używany w KAŻDYM nowoczesnym detektorze (R-CNN, YOLO, SSD, DETR). Kluczowa idea: zamiast łączyć KAŻDY piksel z KAŻDYM neuronem (→ miliardy parametrów), CNN używa MAŁYCH filtrów (np. 3×3 piksele) przesuwanych po obrazie. Dzięki temu:
-
Mało parametrów (filtr 3×3 = 9 wag, niezależnie od rozmiaru obrazu)
-
Wykrywa lokalne wzorce (krawędzie, rogi, tekstury)
-
Inwariantność na przesunięcie (kot w lewym rogu = kot w prawym rogu)
Dlaczego CNN a nie zwykła sieć neuronowa? Obraz 224×224×3 = 150 528 pikseli. Zwykła sieć (FC): 150 528 × 4096 neuronów = 616 MILIONÓW wag w 1 warstwie! CNN: filtr 3×3×3 = 27 wag, przesuwany po CAŁYM obrazie → 27 wag zamiast 616M!
Mnemonik: CNN = „Czytaj Nie Naraz" — nie bierzesz całego obrazu naraz, tylko małe fragmenty (filtry 3×3), krok po kroku.
Konwolucja (convolution) — podstawowa operacja CNN: mały filtr (macierz np. 3×3) przesuwa się po obrazie, w każdej pozycji mnoży element-po-elemencie z fragmentem obrazu i sumuje → jedna liczba na wyjściu. Wynik = „feature mapa" — mapa pokazująca GDZIE na obrazie dany wzorzec jest obecny.
Przykład liczbowy:
Fragment obrazu 3×3: Filtr 3×3: Wynik (1 piksel feature mapy):
[1 2 3] [-1 0 1]
[4 5 6] × [-1 0 1] = 1(-1)+2(0)+3(1)+4(-1)+5(0)+6(1)+7(-1)+8(0)+9(1)
[7 8 9] [-1 0 1] = (-1+0+3) + (-4+0+6) + (-7+0+9) = 6
Ten filtr wykrywa PIONOWE KRAWĘDZIE (liczy różnicę prawa-lewa strona).
Duży wynik (6) = silna krawędź. Wynik ≈ 0 = brak krawędzi.
Filtr przesuwa się po CAŁYM obrazie → cała mapa cech.
Pseudokod konwolucji:
def convolve(image, filter_3x3):
output = zeros(image.height - 2, image.width - 2)
for y in range(1, image.height - 1):
for x in range(1, image.width - 1):
patch = image[y-1:y+2, x-1:x+2] # wycinek 3×3
output[y-1][x-1] = sum(patch * filter) # iloczyn + suma
return output
Filtr / Kernel — mała macierz wag (np. 3×3, 5×5) uczona AUTOMATYCZNIE podczas treningu. CNN ma WIELE filtrów — każdy uczy się wykrywać INNY wzorzec. 64 filtry w jednej warstwie → 64 map cech.
KLUCZOWA RÓŻNICA: w HOG cechy projektuje CZŁOWIEK.
W CNN filtry uczy się SIEĆ SAMA — to główna przewaga deep learning!
Warstwa conv z 64 filtrami 3×3:
Filtr 1: nauczył się wykrywać pionowe krawędzie
Filtr 2: nauczył się wykrywać poziome krawędzie
Filtr 3: nauczył się wykrywać rogi
...
Filtr 64: jakiś inny wzorzec pomocny w rozpoznawaniu
Feature map (mapa cech) — wynik zastosowania JEDNEGO filtra do obrazu. Jasne piksele = „tu jest ten wzorzec". 64 filtry → 64 map cech → tensor [H × W × 64]. Feature mapy to WEWNĘTRZNA REPREZENTACJA tego, co sieć „widzi" na obrazie.
Hierarchia cech w CNN (każda warstwa coraz bardziej abstrakcyjna):
Warstwa 1: krawędzie, gradienty (jak HOG!)
Warstwa 2: rogi, proste tekstury
Warstwa 3: fragmenty obiektów (oko, koło, ucho)
Warstwa 4+: całe obiekty (twarz = oczy+nos+usta, samochód = koła+okna+dach)
Mnemonik: „K-R-F-O" = „Każdy Rycerz Znajduje Obiekt"
(Krawędzie → Rogi → Fragmenty → Obiekty)
Pooling (łączenie / podpróbkowanie) — warstwa ZMNIEJSZAJĄCA rozmiar feature mapy. Najczęstsza: max pooling 2×2 — z każdego bloku 2×2 pikseli zachowaj MAKSIMUM. Wynik: mapa 2× mniejsza w każdym wymiarze (= 4× mniej pikseli), ale zachowuje najsilniejsze cechy.
Feature map 4×4: Po Max Pool 2×2:
[1 3 | 2 1] [3 2] ← max(1,3,0,3)=3 max(2,1,1,2)=2
[0 3 | 1 2] [4 3] ← max(0,4,1,2)=4 max(1,0,3,1)=3
─────────────
[0 4 | 1 0] Rozmiar: 4×4 → 2×2 (4× mniej danych!)
[1 2 | 3 1] Zachowane: najsilniejsze cechy z każdego bloku
Dlaczego max pooling?
1. Mniej pikseli = mniej obliczeń w następnych warstwach
2. Większe „pole widzenia" (receptive field) — warstwa „widzi" większy fragment
3. Odporność na małe przesunięcia: obiekt ±1px → ten sam max
Stride (krok) — o ile pikseli filtr przesuwa się za jednym krokiem. Stride=1: co 1 piksel (wyjście duże). Stride=2: co 2 piksele (wyjście 2× mniejsze). Max pool 2×2 ze stride 2 = typowy pooling.
FC (Fully Connected layer, warstwa w pełni połączona) — warstwa, w której KAŻDY neuron jest połączony z KAŻDYM wyjściem poprzedniej warstwy. W CNN zwykle na KOŃCU sieci: feature mapy (3D) → spłaszczone do wektora 1D → FC klasyfikuje.
CNN: Conv → Pool → Conv → Pool → [Flatten] → FC(4096) → FC(1000) → "kot"
↑ ↑
spłaszcz 3D→1D 1000 klas (ImageNet)
FC = „warstwa decyzyjna" — łączy cechy z CAŁEGO obrazu w jedną decyzję.
Mnemonik: FC = „Full Connection" — każdy z każdym, jak klasa każdy-z-każdym.
Problem FC: DUŻO parametrów (np. 25088 × 4096 = 102M wag w VGG-16!)
Forward pass (przejście w przód) — JEDNO przetworzenie danych przez sieć od wejścia do wyjścia. Obraz wchodzi → przechodzi przez Conv, Pool, FC → wychodzi predykcja. Nie aktualizuje wag (to backward pass / backpropagation = uczenie).
Forward pass CNN (czasy na GPU):
Jeden obraz przez ResNet-50: ~5ms
R-CNN: 2000 regionów × 5ms = 10 SEKUND (dlatego był wolny!)
Fast R-CNN: 1 forward pass cały obraz + ROI Pool = ~200ms (50× szybciej!)
ReLU (Rectified Linear Unit) — funkcja aktywacji: f(x) = max(0, x). Przepuszcza wartości dodatnie, zeruje ujemne. Standard w CNN — stosowana PO KAŻDEJ warstwie konwolucyjnej.
Wejście: [-3, 5, -1, 2, 0, -7, 4]
ReLU: [ 0, 5, 0, 2, 0, 0, 4]
Dlaczego potrzebna? Bez ReLU sieć = seria mnożeń macierzy = JEDNA liniowa
transformacja → nie potrafi uchwycić złożonych wzorców.
ReLU dodaje NIELINIOWOŚĆ → sieć aproksymuje DOWOLNĄ funkcję.
Softmax — funkcja na WYJŚCIU klasyfikatora: zamienia surowe wyniki (logits) na prawdopodobieństwa sumujące się do 1.
Logits: [2.0, 1.0, 0.1]
Softmax: [0.66, 0.24, 0.10] ← e^2.0 / (e^2.0 + e^1.0 + e^0.1) ≈ 0.66
Klasy: ["kot", "pies", "ryba"]
→ „66% szans, że to kot"
Tensor — wielowymiarowa tablica liczb. Uogólnienie wektora i macierzy.
Skalar = 0D tensor: 5
Wektor = 1D: [1, 2, 3]
Macierz = 2D: [[1,2],[3,4]]
Obraz RGB = 3D: [224 × 224 × 3] ← wysokość × szerokość × kanały
Batch obrazów = 4D: [32 × 224 × 224 × 3] ← 32 obrazy naraz
Wyjście YOLO = 3D: [7 × 7 × 30] ← siatka × predykcje
Architektura CNN — pełny przykład (AlexNet, wygrał ImageNet 2012):
ROZMIARY MALEJĄ: 224 → 55 → 27 → 13 → 6 (kompresja przestrzenna)
KANAŁY ROSNĄ: 3 → 96 → 256 → 384 → 256 (coraz więcej wyuczonych cech)
Backbone (kręgosłup / sieć bazowa) — duża, pretrenowana sieć CNN (np. ResNet-50, VGG-16) używana jako „ekstraktor cech". Backbone przetwarza obraz → feature mapa. Na wierzch dodaje się GŁOWICĘ (head) specyficzną dla zadania.
Analogia: backbone = SILNIK samochodu, head = KAROSERIA.
Ten sam silnik (ResNet) w różnych karoseriach:
Sedan → klasyfikacja: FC head → "kot"
SUV → detekcja: RPN + ROI Pool head → bbox + klasa
Pickup → segmentacja: dekoder head → maska pikseli
Backbone PRETRENOWANY na ImageNet (miliony obrazów).
Head TRENOWANY od zera na konkretnym zadaniu (detekcja, segmentacja).
Detection head (głowa detekcyjna) — warstwy dodane NA WIERZCH backbone'u. Predykują klasy obiektów + pozycje bbox. W Faster R-CNN: RPN + ROI Pool + FC. W YOLO: warstwy conv + wyjście S×S×(B×5+C).
ResNet, VGG, AlexNet — popularne backbone'y:
Sieć Rok Warstw Parametrów Top-5 ImageNet Innowacja
─────────────────────────────────────────────────────────────────────
AlexNet 2012 8 60M 84.7% Pierwsza głęboka CNN
VGG-16 2014 16 138M 92.7% Małe filtry 3×3
ResNet-50 2015 50 25M 96.4% Skip connections
Mnemonik: A → V → R = „Architektura Bardzo Rezylientna" (2012 → 2014 → 2015)
Skip connection (ResNet): y = F(x) + x
Wejście bloku DODAWANE do wyjścia → gradient nie zanika
→ można trenować 50-152 warstw (bez skip: >20 warstw = DEGRADACJA!)
ImageNet — ogromny zbiór danych: 14M obrazów, 1000 klas (pies, samolot, gitara...). Standard pretrenowania w computer vision. ILSVRC (coroczne zawody) — AlexNet wygrał 2012 → rewolucja deep learning.
Transfer learning (uczenie transferowe) — weź sieć pretrenowaną na dużym zbiorze (ImageNet), użyj do INNEGO zadania (detekcja, segmentacja). Backbone „wie" jak wyglądają krawędzie i kształty — trzeba tylko nauczyć nowej głowicy.
Krok po kroku:
1. ResNet-50 pretrenowany na ImageNet (1000 klas, miliony obrazów)
2. Odtnij warstwę FC (klasyfikujse 1000 klas ImageNet) ← WYRZUĆ
3. Dodaj nową głowicę detekcji (bbox + 80 klas COCO) ← NOWA
4. Trenuj głowicę na danych detekcyjnych (COCO/VOC)
5. Opcjonalnie: fine-tune = odmroź backbone, ucz z MAŁYM learning rate
Dlaczego działa? Cechy niskiego poziomu (krawędzie, tekstury) SĄ UNIWERSALNE.
Kot, samochód, twarz — wszystko ma krawędzie i tekstury!
Fine-tuning (dostrajanie) — forma transfer learning: odmrażasz backbone i uczysz CAŁĄ sieć z MAŁYM learning rate, żeby subtelnie dopasować cechy do nowego zadania.
COCO (Common Objects in Context) — benchmark detekcji: 330K obrazów, 80 klas (samochód, osoba, pies...), 1.5M bboxów. Standard oceny detektorów.
Pascal VOC (Visual Object Classes) — starszy benchmark: 20 klas. Używany w oryginalnym YOLO i R-CNN.
mAP (mean Average Precision) — główna metryka jakości detekcji. Łączy trafność klasy z trafnością lokalizacji.
mAP@0.5: detekcja „trafna" jeśli IoU ≥ 0.5 (≥50% pokrycia z prawdą)
mAP@0.5:0.95: średnia po progach 0.5, 0.55, ..., 0.95 (dużo surowsza)
Faster R-CNN (COCO): mAP ≈ 42%
YOLOv8-X (COCO): mAP ≈ 53%
End-to-end (od końca do końca) — cała sieć trenowana jako JEDNOŚĆ, jeden loss, jeden trening. Przeciwieństwo: R-CNN miał ODDZIELNIE Selective Search + CNN + SVM = 3 osobne kroki. Faster R-CNN = end-to-end → komponenty uczą się WSPÓŁPRACOWAĆ → lepsze wyniki.
FPN (Feature Pyramid Network) — technika łączenia feature map z RÓŻNYCH warstw backbone'u. Wczesne warstwy (wysoka rozdzielczość) → małe obiekty. Późne warstwy (niska rozdzielczość) → duże obiekty. FPN łączy obie → wykrywa obiekty WSZYSTKICH rozmiarów.
Klasyfikator (classifier) — model przypisujący etykietę do wejścia. Np. CNN trenowany na ImageNet: obraz → „kot" (+ prawdopodobieństwo). Klasyfikator nie mówi GDZIE jest obiekt — mówi tylko CO jest na obrazie. Pytanie brzmi: jak z takiego modelu zbudować detektor?
Sliding window (okno przesuwane) — najprostsza metoda budowy detektora z klasyfikatora: wytnij prostokątny fragment obrazu (wiele rozmiarów, wiele pozycji), każdy fragment sklasyfikuj. Jeśli „pozytywny" → detekcja. Ekstremalnie wolne: tysiące fragmentów × klasyfikacja per fragment.
[okno 64×64] przesuwa się po obrazie 640×480:
(640-64)×(480-64) ≈ ~240 000 pozycji × wiele skal = MILIONY klasyfikacji!
HOG (Histogram of Oriented Gradients) — klasyczny deskryptor cech wizualnych. Rozbijmy nazwę:
-
Gradient — w kontekście obrazu to „kierunek i siła zmiany jasności" w danym pikselu. Oblicza się go jako różnicę jasności sąsiednich pikseli. Gradient wskazuje KRAWĘDZIE — tam, gdzie jasność zmienia się szybko.
Piksel: [50] [50] [200] ← nagły skok jasności Gradient w x: 0 150 ← duży gradient = KRAWĘDŹ! Gradient w y: obliczany analogicznie (góra/dół) Kierunek krawędzi: arctan(gy/gx) ← np. 0° = pionowa, 90° = pozioma -
Orientacja (Oriented) — kierunek gradientu. Gradient ma KĄTP (0°–180°): krawędź pionowa = ~0°, pozioma = ~90°, ukośna = ~45°.
-
Histogram — zliczenie „ile pikseli ma gradient w danym kierunku". Dla komórki 8×8 pikseli liczymy histogram 9 binów (co 20°: 0°, 20°, 40°, ..., 160°).
-
HOG pipeline krok po kroku:
Krok 1: Oblicz gradient KAŻDEGO piksela (Gx, Gy → magnitude + direction) Gx = pixel[x+1] - pixel[x-1] Gy = pixel[y+1] - pixel[y-1] magnitude = √(Gx² + Gy²) direction = arctan(Gy / Gx) Krok 2: Podziel obraz na komórki (cells) 8×8 pikseli Okno 64×128 → 8×16 komórek Krok 3: Dla każdej komórki stwórz histogram 9 binów (0°-180°, co 20°) Każdy piksel w komórce „głosuje" na bin odpowiadający jego kierunkowi z wagą = magnitude (silniejsze krawędzie głosują mocniej) Krok 4: Normalizuj histogramy w blokach 2×2 komórek (16×16 px) → odporność na zmiany oświetlenia Krok 5: Połącz wszystkie histogramy w jeden wektor cech Okno 64×128: (8-1)×(16-1) = 7×15 = 105 bloków × 4 komórki × 9 binów = 3780 cech Wynik: wektor 3780 liczb = „odcisk palca" kształtu w oknie Sylwetka człowieka → charakterystyczny wzorzec kierunków krawędzi
Pseudokod HOG:
def compute_hog(window_64x128):
gradients = compute_gradients(window) # Gx, Gy per pixel
magnitudes = sqrt(Gx**2 + Gy**2)
directions = arctan2(Gy, Gx) * 180 / pi # kąt w stopniach
hog_vector = []
for block in sliding_blocks_2x2(cells_8x8):
block_hist = []
for cell in block.four_cells():
hist = zeros(9) # 9 binów
for pixel in cell.pixels():
bin_idx = int(directions[pixel] / 20)
hist[bin_idx] += magnitudes[pixel]
block_hist.append(hist)
block_hist = normalize(concatenate(block_hist)) # L2-norm
hog_vector.extend(block_hist)
return hog_vector # 3780-dim vector
SVM (Support Vector Machine) — klasyczny klasyfikator binarny (2 klasy: „tak/nie", „pieszy/nie-pieszy"). Pomysł:
- Dane treningowe to punkty w przestrzeni wielowymiarowej (np. wektory HOG 3780-dim)
- Każdy punkt ma etykietę: +1 (pozytywna klasa) lub -1 (negatywna)
- SVM szuka hiperpłaszczyzny (w 2D to linia, w 3D to płaszczyzna) najlepiej SEPARUJĄCEJ dwie klasy
Czym jest hiperpłaszczyzna? W 2D: linia dzieląca punkty na dwie grupy. W 3D: płaszczyzna. W N wymiarach: (N-1)-wymiarowa „ściana".
Margines (margin) — odległość od hiperpłaszczyzny do najbliższego punktu danych. SVM MAKSYMALIZUJE margines → najlepsza generalizacja.
Support Vectors — punkty danych NAJBLIŻSZE hiperpłaszczyźnie. To one „podpierają" (support) margines i definiują pozycję hiperpłaszczyzny. Reszta punktów jest nieistotna! Nazwa: „wektory nośne" — bo to wektory cech, które „niosą" decyzję.
HOG+SVM — klasyczny pipeline detekcji pieszych:
1. Sliding window (okno 64×128) przesuwa się po obrazie
2. Dla każdej pozycji okna:
a) Oblicz HOG → wektor 3780 cech
b) SVM klasyfikuje: „pieszy" (+1) lub „nie-pieszy" (-1)
3. NMS (Non-Maximum Suppression) → usuń duplikaty
4. Wynik: lista bounding boxów z detekcjami pieszych
Viola-Jones (2001) — przełomowy detektor twarzy w CZASIE RZECZYWISTYM. Trzy kluczowe innowacje wyjasnione szczegółowo:
Haar features (cechy Haarowe) — najprostsze cechy obrazowe: prostokąty podzielone na jasną i ciemną część. Wartość cechy = (suma pikseli jasnych) − (suma pikseli ciemnych). Proste, ale skuteczne — wykrywają kontrasty typowe dla twarzy.
Dlaczego działa na TWARZACH?
- Oczy CIEMNIEJSZE niż czoło → cecha "krawędź pozioma" daje dużą wartość
- Nos JAŚNIEJSZY niż policzki → cecha "linia pionowa" daje dużą wartość
- Twarz = charakterystyczna KOMBINACJA takich kontrastów!
Ile cech? W oknie 24×24 pikseli: ponad 160 000 możliwych cech Haar
(różne rozmiary × różne pozycje). AdaBoost wybiera ~200 NAJLEPSZYCH.
Integral Image (obraz całkowy) — precomputed tabela pozwalająca obliczyć sumę pikseli w DOWOLNYM prostokącie w O(1) — stały czas, niezależnie od rozmiaru! To dlatego Haar features liczą się tak szybko.
Jak? Integral Image[x,y] = suma WSZYSTKICH pikseli od (0,0) do (x,y).
Zawsze 4 odczyty z tabeli → O(1)!
Czy prostokąt ma 4 piksele czy 4 MILIONY — czas TEN SAM!
Bez Integral Image: O(w×h) — suma 1000×1000 = milion operacji.
Z Integral Image: O(1) — 4 operacje. ZAWSZE.
Pseudokod:
def integral_image(img):
II = zeros_like(img)
for y in range(H):
for x in range(W):
II[y][x] = img[y][x] + II[y-1][x] + II[y][x-1] - II[y-1][x-1]
return II
def rect_sum(II, x1, y1, x2, y2): # O(1) zawsze!
return II[y2][x2] - II[y1-1][x2] - II[y2][x1-1] + II[y1-1][x1-1]
AdaBoost (Adaptive Boosting) — algorytm uczenia maszynowego łączący wiele SŁABYCH klasyfikatorów w jeden SILNY. Słaby = niewiele lepszy od losowego (>50% trafień). AdaBoost iteracyjnie:
-
Trenuj słaby klasyfikator (np. 1 cecha Haar + próg: "czy wartość > 1200?")
-
Sprawdź, które przykłady ŹLE sklasyfikował
-
Nadaj źle sklasyfikowanym WIĘKSZĄ wagę → następny klasyfikator SKUPI się na nich
-
Powtórz 200× → suma ważona 200 słabych klasyfikatorów ≈ silny klasyfikator
Intuicja: jak PANEL EKSPERTÓW, z których każdy zna się na JEDNEJ rzeczy. Ekspert 1: "czy okolice oczu ciemne?" (trafność 55%) Ekspert 2: "czy nos jaśniejszy niż policzki?" (trafność 60%) Ekspert 3: "czy brwi ciemne?" (trafność 53%) ... 200 ekspertów razem → trafność >95%! Mnemonik: AdaBoost = "ADAptacyjnie BOOSTuj" słabe modele do silnego.
Cascade (kaskada klasyfikatorów) — genialna optymalizacja szybkości: zamiast sprawdzać WSZYSTKIE 200 cech na każdym oknie, użyj KASKADY etapów. Każdy etap = prosty klasyfikator, który szybko ODRZUCA "na pewno nie-twarz".
Mnemonik: kaskada = "SITO" — coraz drobniejsze oczka,
na początku odpada piach, na końcu zostaje ZŁOTO (twarz).
Pseudokod kaskady:
def cascade_classify(window):
for stage in cascade_stages: # etap 1, 2, ..., 25
score = stage.evaluate(window) # oblicz kilka cech Haar
if score < stage.threshold: # za niski wynik
return "NIE-TWARZ" # SZYBKIE odrzucenie!
return "TWARZ" # przeszło WSZYSTKIE etapy
R-CNN family (two-stage detectors) — dwuetapowe: najpierw generuj propozycje regionów, potem klasyfikuj każdy region. Nazwa: Region-based CNN.
Selective Search (wyszukiwanie selektywne) — klasyczny algorytm (NIE sieć neuronowa!) generowania propozycji regionów. Zamiast MILIONÓW pozycji okna (sliding window), inteligentnie łączy podobne fragmenty obrazu i proponuje ~2000 prostokątów, w których MOGĄ być obiekty.
Algorytm krok po kroku:
1. Over-segmentation: podziel obraz na ~1000 małych regionów (superpixele)
(na podstawie koloru i tekstury — algorytm Felzenszwalb)
2. Powtarzaj aż zostanie 1 region:
a) Znajdź 2 najbardziej PODOBNE sąsiednie regiony:
- podobny kolor? (histogram kolorów)
- podobna tekstura? (histogram gradientów)
- pasujący rozmiar? (preferuj łączenie MAŁYCH regionów)
b) Połącz je w jeden → zapamiętaj bounding box nowego regionu
3. Zebrane bbox-y ze WSZYSTKICH kroków → ~2000 propozycji
Sliding window: ~500 000 okien → 99.9% to "tło" → marnujesz czas
Selective Search: ~2 000 regionów → ~50% zawiera coś → 250× wydajniej
RPN (Faster R-CNN): ~300 propozycji → sieć neuronowa (najszybciej!)
Czym jest "region proposal" (propozycja regionu)? — prostokąt, w którym MOŻE być obiekt. Dużo mniej niż sliding window (2000 zamiast milionów), ale każda propozycja ma WYSOKIE prawdopodobieństwo trafienia obiektu.
R-CNN (2014, Ross Girshick) — pierwszy detektor oparty na CNN. Pipeline:
Krok 1: Selective Search → ~2000 regionów-kandydatów (prostokątów)
Krok 2: Dla KAŻDEGO z 2000 regionów:
a) Wytnij prostokąt z obrazu, przeskaluj do 224×224
b) Przepuść przez CNN (np. AlexNet) → wektor cech 4096-dim
c) SVM klasyfikuje: „samochód? kot? tło?"
Krok 3: Bbox regression — doprecyzuj pozycję prostokąta
Krok 4: NMS — usuń duplikaty
Problem: 2000 × CNN forward pass = 50 SEKUND na obraz! (2000 razy odpalasz CNN)
Dlaczego tak wolno? Bo CNN liczy cechy na KAŻDYM wyciętym regionie OSOBNO,
choć regiony się częściowo nakładają → redundantne obliczenia
Fast R-CNN (2015) — kluczowa optymalizacja: przepuść cały obraz przez CNN RAZ, uzyskaj "mapę cech" (feature map). Potem wytnij cechy regionów z tej mapy (ROI Pooling), zamiast odpalać CNN 2000 razy.
ROI (Region of Interest, region zainteresowania) — prostokątny fragment feature mapy odpowiadający propozycji regionu na oryginalnym obrazie. Np. Selective Search zaproponował bbox (100,50)-(200,150) na obrazie 800×600 → odpowiadający ROI na feature mapie (po redukcji 16× przez pooling) to mniej więcej (6,3)-(12,9).
ROI Pooling (pooling regionu zainteresowania) — operacja zamieniająca ROI o DOWOLNYM rozmiarze na tensor o STAŁYM rozmiarze (np. 7×7). Konieczne, bo warstwa FC wymaga stałego rozmiaru wejścia!
Problem: region 1 = 14×10 na feature mapie, region 2 = 8×6 → RÓŻNE!
Warstwa FC wymaga np. 7×7 → STAŁY rozmiar.
Rozwiązanie — ROI Pooling:
1. Weź ROI (np. 14×10) z feature mapy
2. Podziel go na siatkę 7×7 (= 7 wierszy × 7 kolumn)
Każda komórka obejmuje ok. 2×1.4 pikseli feature mapy
3. W każdej komórce weź MAX (jak max pooling)
4. Wynik: tensor 7×7 — STAŁY rozmiar niezależnie od oryginalnego ROI!
Kluczowa sztuczka Fast R-CNN:
CNN raz na CAŁY obraz → JEDNA feature mapa → ROI Pool 2000 regionów z TEJ SAMEJ mapy
(zamiast 2000× odpalać CNN jak w R-CNN!)
Przyspieszenie: ~2 sec/obraz (vs 50 sec) → 25× szybciej!
Pseudokod ROI Pooling:
def roi_pool(feature_map, roi_bbox, output_size=7):
roi = feature_map[roi_bbox] # wycinek z feature mapy
h, w = roi.shape
cell_h, cell_w = h // output_size, w // output_size
output = zeros(output_size, output_size)
for i in range(output_size):
for j in range(output_size):
cell = roi[i*cell_h:(i+1)*cell_h, j*cell_w:(j+1)*cell_w]
output[i][j] = max(cell) # max pooling w komórce
return output # stały rozmiar 7×7!
CNN raz → feature map → ROI Pool 2000 regionów → FC → klasy + bbox
Bbox regression (regresja prostokąta ograniczającego) — sieć predykuje nie bezpośrednie współrzędne bbox, ale PRZESUNIĘCIA (offsets) od propozycji: Δx, Δy (przesunięcie środka), Δw, Δh (zmiana szerokości/wysokości).
Propozycja (z RPN/Selective Search): (x=100, y=80, w=60, h=90) ← przybliżone
Predykcja regresji: (Δx=+5, Δy=-3, Δw=+10, Δh=+5)
Ostateczny bbox: (x=105, y=77, w=70, h=95) ← dokładniejsze!
Dlaczego offsets a nie współrzędne bezpośrednio?
Łatwiejsze zadanie! Sieć poprawia przybliżony prostokąt O TROCHĘ,
zamiast zgadywać lokalizację od zera.
Mnemonik: bbox regression = "GPS korekta" — masz przybliżoną pozycję,
poprawiasz o parę metrów w prawo i w górę.
Faster R-CNN (2015) — ostatni krok ewolucji: zastąp Selective Search (osobny algorytm) siecią neuronową! RPN (Region Proposal Network) — mała sieć przesuwana po feature mapie, która w KAŻDEJ pozycji predykuje: "czy tu jest obiekt?" + proponuje bbox. Wszystko w jednej sieci, end-to-end.
Pipeline Faster R-CNN:
Obraz → CNN backbone (np. ResNet) → Feature Map → RPN (proposals) → ROI Pool → FC → klasy + bbox
RPN krok po kroku:
Feature mapa [40×60×256] ← z backbone
↓ Filtr 3×3 przesuwa się po feature mapie
↓ W KAŻDEJ pozycji (x,y) rozważ k=9 "anchor boxes":
9 anchorów = 3 rozmiary × 3 proporcje:
┌───┐ ┌─────┐ ┌───────┐ ← 128×128, 256×256, 512×512
│ │ │ │ │ │ × proporcje 1:1, 1:2, 2:1
└───┘ └─────┘ └───────┘
↓ Dla KAŻDEGO z 9 anchorów sieć predykuje:
- P(obiekt) = prawdopodobieństwo, że tu jest obiekt
- (Δx, Δy, Δw, Δh) = przesunięcie bbox względem anchora
40×60 = 2400 pozycji × 9 anchorów = 21 600 potencjalnych propozycji!
→ Weź ~300 z najwyższym P(obiekt) → ROI Pool → FC → klasy + bbox
Faster R-CNN: ~5 fps (~0.2 sec/obraz) — 250× szybciej niż R-CNN!
Mnemonik ewolucji R-CNN: "CORAZ MNIEJ MARNOWANIA"
R-CNN: Selective Search + 2000×CNN = 50s → WOLNE
Fast R-CNN: Selective Search + 1×CNN + ROI Pool = 2s → lepiej
Faster R-CNN: RPN (w sieci!) + 1×CNN + ROI Pool = 0.2s → 250× szybciej!
One-stage detectors — klasyfikacja i lokalizacja w jednym przejściu (bez osobnego etapu propozycji). Szybsze, ale historycznie mniej precyzyjne.
YOLO (You Only Look Once, 2016) — rewolucyjny pomysł: „po co robić 2 etapy, skoro można w JEDNYM?" Obraz dzielony jest na siatkę S×S (np. 13×13 = 169 komórek). Każda komórka odpowiada za wykrycie obiektu, którego ŚRODEK wpada w tę komórkę. Każda komórka predykuje:
- B bounding boxów × (x, y, w, h, confidence) = lokalizacja + „pewność, że tu jest obiekt"
- C prawdopodobieństw klas = „jaki to obiekt?" Jedno przejście przez sieć → WSZYSTKIE detekcje naraz. 45-155 fps!
SSD (Single Shot MultiBox Detector, 2016) — ulepsza YOLO przez multi-scale feature maps: predykcje z WIELU warstw CNN, każda o innej rozdzielczości. Wczesne warstwy (wysoka rozdzielczość) wykrywają MAŁE obiekty; późne warstwy (niska rozdzielczość) wykrywają DUŻE. Anchor boxes predefiniowane na każdej skali.
Anchor box (kotwica) — predefiniowany prostokąt o określonym kształcie/proporcji (np. 1:1, 1:2, 2:1). Sieć NIE predykuje bbox od zera — predykuje PRZESUNIĘCIE (offset) od najbliższego anchora. Łatwiejsze zadanie! Wiele anchorów → pokrycie różnych kształtów obiektów (osoby = wysoki prostokąt, samochód = szeroki).
Anchor-free — nowoczesne podejście (FCOS, YOLOv8): bezpośrednia predykcja środka i wymiarów, bez predefiniowanych anchorów. Prostsza architektura, mniej hyperparametrów.
Transformer — architektura sieci neuronowej pierwotnie z NLP (2017, "Attention is All You Need"), ale skutecznie zaadaptowana do wizji komputerowej (ViT, DETR). Kluczowy mechanizm: self-attention — każdy element wejścia "patrzy" na WSZYSTKIE inne elementy i decyduje, które są dla niego ważne.
W tekście: słowo "bank" patrzy na "rzeka" i "pieniądze" →
attention decyduje: "w tym zdaniu chodzi o brzeg RZEKI, nie bank pieniędzy"
W obrazie (DETR): fragment obrazu "patrzy" na inne fragmenty →
attention: "ta łapa jest częścią TEGO kota, a nie tamtego psa"
Self-attention (samo-uwaga) — mechanizm: dla każdego elementu oblicz "uwagę" do KAŻDEGO innego elementu. Matematycznie: Query × Key → wagi attention → ważona suma Values.
Uproszczony pseudokod:
def self_attention(features): # features = N elementów
Q = features × W_query # Query: "czego szukam?"
K = features × W_key # Key: "co oferuję?"
V = features × W_value # Value: "jaką informację niosę?"
attention = softmax(Q × K^T / sqrt(d)) # macierz N×N: "kto ważny dla kogo"
output = attention × V # ważona kombinacja wartości
return output
Złożoność: O(n^2) — każdy element z każdym → wolne dla dużych obrazów.
Dlatego DETR wolniej się TRENUJE niż YOLO (ale architektura jest PROSTSZA).
DETR (DEtection TRansformer, 2020) — model Facebooka stosujący Transformer do detekcji. Radykalnie prostszy pipeline: BRAK anchorów, BRAK NMS! Sieć predykuje bezpośrednio ZESTAW N obiektów (np. N=100).
"Object queries" = 100 wyuczonych wektorów, każdy "szuka" jednego obiektu.
Obraz z 5 obiektami → 5 queries dopasuje się do obiektów,
95 queries zwróci klasę "brak obiektu" (empty set).
Pseudokod DETR:
def detr_forward(image):
features = backbone(image) # ResNet → feature mapa
encoded = transformer_encoder(features) # self-attention na feat. mapie
queries = learnable_queries(100) # 100 wyuczonych zapytań
decoded = transformer_decoder(queries, encoded) # cross-attention
predictions = []
for q in decoded:
cls = classify(q) # "samochód" / "pies" / "brak"
box = regress(q) # (x, y, w, h)
predictions.append((cls, box))
return predictions # 100 predykcji (większość = brak)
Mnemonik DETR: "Detekcja Eliminująca Trikowe Redundancje"
→ bez NMS, bez anchorów, prosty pipeline.
Hungarian matching (dopasowanie węgierskie) — algorytm używany podczas TRENINGU DETR. Problem: sieć daje 100 predykcji, na obrazie jest 5 obiektów — która predykcja odpowiada któremu obiektowi? Algorytm węgierski znajduje OPTYMALNE dopasowanie 1:1 minimalizując łączny koszt (błąd klasy + błąd bbox).
Predykcje DETR: Ground truth:
pred_1: "samochód" gt_1: "samochód" (bbox A)
pred_2: "pies" gt_2: "pies" (bbox B)
pred_3: "brak"
... Hungarian matching:
pred_100: "brak" pred_1 ↔ gt_1 (najlepsze dopasowanie!)
pred_2 ↔ gt_2
reszta ↔ "brak obiektu"
Efekt: BRAK DUPLIKATÓW → BRAK NMS!
(Każdy obiekt dopasowany do DOKŁADNIE jednej predykcji)
NMS (Non-Maximum Suppression, tłumienie nie-maksymalnych) — algorytm post-processingu usuwający ZDUPLIKOWANE detekcje. Problem: detektor generuje WIELE nakładających się bbox dla tego samego obiektu. NMS zachowuje NAJLEPSZĄ i usuwa resztę. Jedyny detektor BEZ NMS = DETR.
Algorytm NMS krok po kroku:
Wejście: detekcje posortowane malejąco po confidence
[bbox_1 conf=0.95], [bbox_2 conf=0.90], [bbox_3 conf=0.85], [bbox_4 conf=0.40]
Pseudokod NMS:
def nms(detections, iou_threshold=0.5):
detections.sort(by=confidence, descending=True)
keep = []
while detections:
best = detections.pop(0) # weź najlepszą
keep.append(best) # ZACHOWAJ ją
detections = [d for d in detections
if iou(best, d) < iou_threshold] # usuń nakładające
return keep
Krok 1: Weź bbox_1 (0.95) → ZACHOWAJ
Krok 2: IoU(bbox_1, bbox_2) = 0.82 > 0.5 → USUŃ (duplikat tego samego kota!)
IoU(bbox_1, bbox_3) = 0.75 > 0.5 → USUŃ (duplikat!)
IoU(bbox_1, bbox_4) = 0.10 < 0.5 → ZACHOWAJ (INNY obiekt!)
Krok 3: Wynik: [bbox_1, bbox_4] — 2 unikalne obiekty
Mnemonik: NMS = "Najlepszy Ma Się dobrze" — zachowaj najlepszą, usuń resztę.
IoU (Intersection over Union) — miara nakładania dwóch prostokątów. IoU = pole przecięcia / pole sumy. Wartości: 0.0 (nie nakładają się) do 1.0 (identyczne).
IoU = pole(∩) / pole(A ∪ B)
= pole(∩) / (pole(A) + pole(B) − pole(∩))
Przykład liczbowy:
A = [0, 0, 100, 100] → pole = 10 000
B = [50, 50, 150, 150] → pole = 10 000
∩ = [50, 50, 100, 100] → pole = 2 500
IoU = 2500 / (10000 + 10000 − 2500) = 2500 / 17500 ≈ 0.14
IoU > 0.5 w NMS → "to TEN SAM obiekt" → usuń słabszą detekcję
IoU > 0.5 w mAP → "detekcja TRAFNA" → poprawna lokalizacja
Jak zbudować detektor z klasyfikatora? Trzy podejścia (+ bonus):
- Sliding window — wytnij, sklasyfikuj, NMS. Bardzo wolne (miliony klasyfikacji).
- Region proposals + klasyfikator — Selective Search → ~2000 regionów → klasyfikuj + NMS. Wolne ale działa (= R-CNN).
- Fine-tune backbone — weź pretrained classifier (ResNet z ImageNet), dodaj detection head (bbox regression + cls), dotrenuj na danych detekcyjnych. Najlepsza jakość (= Faster R-CNN, YOLO, SSD).
- Transformer (DETR) — bez anchorów, bez NMS, predykcja zestawu obiektów end-to-end.
Problem: czym jest detekcja obiektów?
Detekcja obiektów to lokalizacja (gdzie?) i klasyfikacja (co?) obiektów na obrazie. Wynik: lista krotek (klasa, bounding box, confidence).
Wejście: zdjęcie ulicy
Wynik: [("samochód", [50,30,200,180], 0.95),
("pieszy", [300,100,350,250], 0.88),
("rower", [400,150,480,300], 0.72)]
Porównanie z innymi zadaniami:
Metody klasyczne
Metody sprzed deep learningu — ręcznie projektowane cechy (features) + klasyczny klasyfikator.
| Metoda | Rok | Cechy | Klasyfikator | Szybkość | Use case |
|---|---|---|---|---|---|
| HOG + SVM | 2005 | Histogram of Oriented Gradients | SVM | wolna (~1 fps) | detekcja pieszych |
| Viola-Jones | 2001 | Haar features + Integral Image | AdaBoost cascade | real-time (30+ fps) | detekcja twarzy |
HOG + SVM (Dalal & Triggs, 2005) — krok po kroku
Mnemonik kroków HOG: „GÓRA KOCHA BOGATYCH NARCIARZY" → Gradienty → Orientacja → Komórki → Bloki → Normalizacja
Krok 1 — Gradienty (G jak GÓRA): Oblicz gradient KAŻDEGO piksela. Gradient = „siła i kierunek zmiany jasności". Tam, gdzie jasność skacze (np. 50→200), jest krawędź.
Przykład liczbowy:
Piksele w wierszu: [50, 50, 200]
Gx = pixel[x+1] − pixel[x−1] = 200 − 50 = 150 ← silna krawędź pionowa!
Gy = analogicznie w pionie
Siła: magnitude = √(Gx² + Gy²) = √(150² + 0²) = 150
Kierunek: direction = arctan(Gy/Gx) = arctan(0/150) = 0° (krawędź pionowa)
Krok 2 — Orientacja (O jak KOCHA): Każdy piksel głosuje na kierunek swojej krawędzi. 9 „koszyków" (binów) co 20°: 0°, 20°, 40°, …, 160°. Głos ważony SIŁĄ gradientu (silniejsza krawędź = mocniejszy głos).
Piksel z magnitude=150, direction=10°:
Głosuje na bin 0° (z wagą proporcjonalną do bliskości) i bin 20°
Piksel z magnitude=30, direction=85°:
Głosuje na bin 80° i bin 100° (słabsza krawędź = słabszy głos)
Krok 3 — Komórki (K jak BOGATYCH): Podziel okno (64×128 px) na komórki 8×8 pikseli = 8×16 = 128 komórek. Dla KAŻDEJ komórki stwórz histogram 9 binów — to jej „odcisk palca kierunkowości krawędzi".
Krok 4 — Bloki (B jak NARCIARZY): Grupuj komórki w bloki 2×2 (= 16×16 px). Przesuwaj blok z krokiem 1 komórki. Okno 64×128 → (8−1)×(16−1) = 7×15 = 105 bloków.
Krok 5 — Normalizacja (N): Dla KAŻDEGO bloku (4 komórki × 9 binów = 36 wartości) wykonaj normalizację L2 → odporność na zmiany oświetlenia. 105 bloków × 36 = 3780 cech → wektor HOG.
Pseudokod:
def compute_hog(window_64x128):
Gx = pixel[x+1] - pixel[x-1] # gradient poziomy
Gy = pixel[y+1] - pixel[y-1] # gradient pionowy
mag = sqrt(Gx**2 + Gy**2) # siła
dir = arctan2(Gy, Gx) * 180 / pi # kierunek 0°-180°
hog = []
for block_2x2 in sliding_blocks(cells_8x8):
block_hist = []
for cell in block_2x2: # 4 komórki
hist = [0]*9 # 9 binów
for px in cell.pixels: # 64 piksele
bin = int(dir[px] / 20) # który bin?
hist[bin] += mag[px] # ważone głosowanie
block_hist += hist
block_hist = L2_normalize(block_hist) # normalizacja!
hog += block_hist
return hog # wektor 3780 cech → do SVM
Krok 6 — SVM klasyfikuje: Wektor 3780 cech → SVM odpowiada: „pieszy" (+1) lub „tło" (−1).
Mnemonik SVM: „LINIA MAKSYMALNEGO ODDECHU"
SVM = linia (hiperpłaszczyzna) z MAKSYMALNYM marginesem.
Jak MOST nad rzeką — im szerszy, tym bezpieczniejszy (lepiej generalizuje).
Krok 7 — NMS: Usuń duplikaty (wiele okien wykryło tego samego pieszego → zachowaj najlepsze).
Mnemonik PEŁNEGO pipeline'u HOG+SVM: „GOKBN-SN"
→ Gradienty → Orientacja → Komórki → Bloki → Normalizacja → SVM → NMS
= „Grasz Ostro, Kumplu? Bądź Naturalny, Szybko Nabierz (wprawy)!"
Viola-Jones (2001) — krok po kroku
Mnemonik 3 innowacji: „HIC" → Haar + Integral Image + Cascade
Innowacja 1 — Haar features (H): Prostokąty dzielone na jasną i ciemną część. Wartość = Σ(jasna) − Σ(ciemna). Proste, ale wykrywają kontrasty typowe dla twarzy.
Pseudokod cechy Haar:
def haar_edge_vertical(img, x, y, w, h):
left_sum = sum_pixels(img, x, y, x+w//2, y+h) # jasna połówka
right_sum = sum_pixels(img, x+w//2, y, x+w, y+h) # ciemna połówka
return left_sum - right_sum # duża wartość = silna krawędź
Mnemonik: Haar = „Hej, A tu jest Różnica?"
Cechy Haar pytają: „Czy lewa strona JAŚNIEJSZA niż prawa?"
Innowacja 2 — Integral Image (I): Precomputed tabela: suma DOWOLNEGO prostokąta w O(1) — 4 odczyty z tabeli, niezależnie od rozmiaru!
Pseudokod:
def build_integral_image(img):
II = zeros(H, W)
for y in range(H):
for x in range(W):
II[y][x] = img[y][x] + II[y-1][x] + II[y][x-1] - II[y-1][x-1]
return II
def rect_sum(II, x1, y1, x2, y2): # ZAWSZE O(1)!
return II[y2][x2] - II[y1-1][x2] - II[y2][x1-1] + II[y1-1][x1-1]
Mnemonik: Integral Image = „4 Odczyty I Gotowe!" = 4OIG
Jak czytanie z gotowej tabeli: nie liczymy, tylko odczytujemy!
Innowacja 3 — Cascade (C): Kaskada etapów — szybkie odrzucanie „na pewno nie-twarz".
Pseudokod:
def cascade_classify(window):
for stage in [stage_1, stage_2, ..., stage_25]:
score = sum(stage.weights[i] * haar_feature[i](window)
for i in stage.features)
if score < stage.threshold:
return "NIE-TWARZ" # szybkie odrzucenie!
return "TWARZ" # przeszło WSZYSTKIE etapy
Mnemonik: Cascade = „SITO z coraz drobniejszymi oczkami"
Etap 1: sito o dużych oczkach → odpada piach (oczywiste nie-twarze)
Etap 25: sito najdrobniejsze → zostaje ZŁOTO (twarz)
99% okien odpada w pierwszych 3 etapach → REAL-TIME!
Pełny pipeline Viola-Jones:
1. Sliding window (24×24) po obrazie w wielu skalach
2. Integral Image (preprocessing, O(n) — raz)
3. Dla każdego okna: kaskada (Haar + AdaBoost, najczęściej odrzuci w 1-3 etapie)
4. NMS na detekcjach → wynik
Mnemonik pipeline'u: „SIKN" = Sliding → Integral → Kaskada → NMS
= „Szybko Identyfikuj Kształty Niezwykłe!"
Deep learning
Two-stage detectors (dwuetapowe) — najpierw generuj propozycje regionów, potem klasyfikuj.
| Model | Rok | Propozycje | Szybkość | Innowacja |
|---|---|---|---|---|
| R-CNN | 2014 | Selective Search (~2000) | 50 sec/img (!) | CNN per region |
| Fast R-CNN | 2015 | Selective Search | ~2 sec/img | CNN raz + ROI Pooling |
| Faster R-CNN | 2015 | RPN (w sieci!) | ~5 fps | Region Proposal Network |
Ewolucja R-CNN:
R-CNN: [Selective Search] → 2000 × [CNN] → 2000 × [SVM] = 50s WOLNE!
Fast R-CNN: [CNN raz] → [ROI Pool 2000 regionów] → [FC] = 2s lepiej
Faster R-CNN:[CNN] → [RPN generuje propozycje] → [ROI Pool] → [FC] = 0.2s!
One-stage detectors (jednoetapowe) — klasyfikacja i lokalizacja w JEDNYM przejściu.
| Model | Rok | Szybkość | Innowacja |
|---|---|---|---|
| YOLO | 2016 | 45-155 fps | siatka S×S, jedno przejście |
| SSD | 2016 | 46-59 fps | multi-scale feature maps |
| YOLOv8 | 2023 | 100+ fps | anchor-free, SOTA |
| DETR | 2020 | ~40 fps | transformer, bez NMS |
YOLO:
Obraz [416×416] → siatka 13×13 → każda komórka predykuje:
- B bounding boxów (pozycja + rozmiar + confidence)
- C klas (prawdopodobieństwa)
Jedno forward pass → WSZYSTKIE detekcje naraz → NMS → wynik
Two-stage vs One-stage:
Jak zbudować detektor z klasyfikatora?
Masz wytrenowany klasyfikator (np. ResNet na ImageNet: obraz → „kot"). Jak go użyć do lokalizacji obiektów?
Mnemonik 3 podejść: „SRF" = „Sliding → Region → Fine-tune" = „Szukaj Ręcznie, Finalnie optymalizuj!"
Podejście 1 — Sliding Window (najprostsze, NAJWOLNIEJSZE)
Idea: Wycinaj prostokątne fragmenty obrazu, KAŻDY pokaż klasyfikatorowi, zbierz pozytywne.
Mnemonik: „WYCINAJ i PYTAJ" — jak wycinanie ciasteczek: koło po kole, aż cały obraz pokryty.
Pseudokod:
def sliding_window_detect(image, classifier, window_size=64, step=8):
detections = []
for scale in [0.5, 0.75, 1.0, 1.5, 2.0]: # 5 skal
resized = resize(image, scale)
for y in range(0, resized.height - window_size, step):
for x in range(0, resized.width - window_size, step):
window = resized[y:y+window_size, x:x+window_size]
label, confidence = classifier.predict(window)
if label != "tło" and confidence > 0.5:
# przelicz współrzędne na oryginał
bbox = (x/scale, y/scale,
(x+window_size)/scale, (y+window_size)/scale)
detections.append((label, bbox, confidence))
return nms(detections) # usuń duplikaty
Dlaczego wiele skal? Obiekty mają różne rozmiary — kot blisko = duży, kot daleko = mały. Okno 64×64 nie złapie kota 200×200.
Obliczenia dla obrazu 640×480:
Pozycje na skali 1.0: (640-64)/8 × (480-64)/8 = 72 × 52 = 3 744
× 5 skal = 18 720 okien
× klasyfikacja ResNet (~10ms/obraz na GPU) = ~3 minuty
× na CPU (~100ms/obraz) = ~30 minut na 1 obraz!
⚠ NIEPRAKTYCZNE dla zastosowań real-time
Wady: (1) Ekstremalnie wolne. (2) Stały kształt okna — obiekty nie są kwadratowe. (3) ~99.9% okien to „tło" → marnowanie czasu.
Podejście 2 — Region Proposals + Klasyfikator (= R-CNN)
Idea: Zamiast milionów okien, inteligentnie zaproponuj ~2000 regionów, w których MOGĄ być obiekty, i tylko te sklasyfikuj.
Mnemonik: „INTELIGENTNE CIĘCIE" — zamiast kroić cały tort na milion kawałków, wytnij tylko tam, gdzie widzisz wiśnie (obiekty).
Pseudokod (= R-CNN):
def region_proposal_detect(image, classifier):
# Krok 1: Selective Search — inteligentnie generuj regiony
proposals = selective_search(image) # ~2000 prostokątów
detections = []
# Krok 2: Dla KAŻDEGO regionu — clasificuj
for bbox in proposals: # ~2000 iteracji (nie milion!)
crop = image[bbox] # wytnij region
crop = resize(crop, 224, 224) # rozmiar wymagany przez CNN
features = cnn_backbone(crop) # ResNet → wektor 2048 cech
label, conf = svm_classify(features) # SVM: "samochód? kot? tło?"
if label != "tło" and conf > 0.5:
detections.append((label, bbox, conf))
# Krok 3: bbox regression — doprecyzuj pozycje
for det in detections:
det.bbox += bbox_regressor(det.features) # Δx, Δy, Δw, Δh
return nms(detections) # Krok 4: usuń duplikaty
Dlaczego 2000 a nie milion? Selective Search łączy podobne fragmenty obrazu (kolor, tekstura) bottom-up. Wynik: ~2000 „mądrych" propozycji, z których ~50% zawiera coś (vs 0.1% w sliding window).
Porównanie z sliding window:
Sliding Window: ~18 000 okien × 10ms = ~3 min
Proposals: ~2 000 regionów × 10ms = ~20 sec ← 9× szybciej
ALE wciąż 2000 × forward pass CNN → dlatego powstał Fast R-CNN!
Wady: (1) Selective Search jest osobnym algorytmem (nie end-to-end). (2) 2000 × forward pass CNN = wciąż wolno. (3) SVM trenowany OSOBNO od CNN.
Podejście 3 — Fine-tune backbone + detection head (NAJLEPSZE)
Idea: Weź pretrenowany klasyfikator, ODETNIJ głowicę klasyfikacyjną (FC 1000 klas), zastąp ją DWOMA nowymi głowicami: (1) głowica klasyfikacji → klasa obiektu, (2) głowica regresji → pozycja bbox.
Mnemonik: „PRZESZCZEP GŁOWY" — ten sam silnik (backbone), nowa głowa (detection head).
Pseudokod (= Faster R-CNN / YOLO w uproszczeniu):
# KROK 1: Weź pretrenowany klasyfikator
resnet = load_pretrained("resnet50_imagenet") # 1000 klas ImageNet
# KROK 2: Odetnij starą głowicę klasyfikacji
backbone = resnet.layers[:-2] # ZACHOWAJ: Conv1...Conv5 (ekstraktor cech)
# WYRZUĆ: FC(1000) + Softmax
# KROK 3: Dodaj nowe głowice detekcji
class DetectionHead:
def __init__(self):
self.cls_head = Linear(2048, num_classes) # "samochód? kot? tło?"
self.bbox_head = Linear(2048, 4) # Δx, Δy, Δw, Δh
def forward(self, features):
cls = softmax(self.cls_head(features)) # P(klasa)
bbox = self.bbox_head(features) # przesunięcie bbox
return cls, bbox
# KROK 4: Zamroź backbone, trenuj głowice na danych detekcyjnych
for image, gt_boxes, gt_labels in coco_dataset:
features = backbone(image) # pretrenowane cechy (zamrożone)
cls, bbox = detection_head(features)
loss = cls_loss(cls, gt_labels) + bbox_loss(bbox, gt_boxes)
loss.backward() # aktualizuj TYLKO detection_head
# KROK 5 (opcja): Fine-tune — odmroź backbone z MAŁYM learning rate
backbone.unfreeze()
optimizer = SGD(lr=0.0001) # 10× mniejszy niż dla głowicy!
# trenuj jak w kroku 4, ale teraz backbone też się uczy
Dlaczego to działa? Pretrenowany backbone na ImageNet „wie", jak wyglądają krawędzie, tekstury, kształty. Te cechy są UNIWERSALNE — przydają się zarówno do klasyfikacji „złota rybka vs samolot" jak i do detekcji „samochód na zdjęciu z drona".
Transfer learning w liczbach:
Trenowanie od zera na COCO (330K obrazów): ~12h na 8×V100 GPU
Fine-tune pretrained ResNet-50: ~4h na 8×V100 GPU ← 3× szybciej!
Fine-tune osiąga mAP ~42%, od zera ~38% ← lepsze wyniki!
Pełny przykład w PyTorch (Faster R-CNN z pretrained backbone):
import torchvision
from torchvision.models.detection import fasterrcnn_resnet50_fpn
# Gotowy detektor z pretrained backbone!
model = fasterrcnn_resnet50_fpn(pretrained=True)
# Custom: zmiana na 5 klas (zamiast 91 COCO)
num_classes = 5 # 4 obiekty + tło
in_features = model.roi_heads.box_predictor.cls_score.in_features
model.roi_heads.box_predictor = FastRCNNPredictor(in_features, num_classes)
# Trening:
model.train()
for images, targets in dataloader:
loss_dict = model(images, targets) # cls_loss + bbox_loss
total_loss = sum(loss_dict.values())
total_loss.backward()
optimizer.step()
# Inferencja:
model.eval()
predictions = model([test_image])
# predictions = [{'boxes': tensor, 'labels': tensor, 'scores': tensor}]
# boxes = [[x1,y1,x2,y2], ...], labels = [1, 3, ...], scores = [0.95, 0.88, ...]
Podsumowanie — porządek od NAJGORSZEGO do NAJLEPSZEGO:
Podejście Okien Czas/obraz Jakość Rok Przykład
──────────────────────────────────────────────────────────────────────────
Sliding Window ~milion ~30 min niska - (teoria)
Region Proposals ~2000 ~20-50 sec średnia 2014 R-CNN
Fine-tune + RPN ~300 ~0.2 sec wysoka 2015 Faster R-CNN
One-stage 1×siatka ~7-22 ms wysoka 2016+ YOLO, SSD
Transformer N queries ~25 ms wysoka 2020 DETR
Mnemonik porządku: „SRFTD" = „Sliding → Region → Fine-tune → Transformer → (Done!)"
= „Szukaj Ręcznie, Finalnie Transformer (Detekuje!)"
NMS (Non-Maximum Suppression) — post-processing
Detektor generuje WIELE nakładających się bbox dla jednego obiektu:
[bbox1, 0.95], [bbox2, 0.90], [bbox3, 0.85] — wszystkie na tym samym kocie
Pseudokod NMS:
def nms(detections, iou_threshold=0.5):
detections.sort(by=confidence, descending=True)
keep = []
while detections:
best = detections.pop(0) # weź najlepszą
keep.append(best) # ZACHOWAJ
detections = [d for d in detections
if iou(best, d) < iou_threshold] # usuń nakładające
return keep
Krok po kroku (przykład):
1. Sortuj: [0.95, 0.90, 0.85, 0.40]
2. Weź bbox₁ (0.95) → ZACHOWAJ
3. IoU(bbox₁, bbox₂) = 0.82 > 0.5 → USUŃ (duplikat!)
IoU(bbox₁, bbox₃) = 0.75 > 0.5 → USUŃ (duplikat!)
IoU(bbox₁, bbox₄) = 0.10 < 0.5 → ZACHOWAJ (INNY obiekt!)
4. Wynik: [bbox₁, bbox₄] — 2 unikalne obiekty
Mnemonik NMS: „Najlepszy Ma Się dobrze" — zachowaj najlepszą, resztę wyrzuć
Mnemonik IoU: „Ile pokrycia Ustalono?" — pole(∩) / pole(A∪B)
Etymologia
CNN — Convolutional Neural Network (sieć z konwolucjami). YOLO — You Only Look Once (Joseph Redmon et al., 2016). R-CNN — Region-based CNN (Ross Girshick, 2014). HOG — Histogram of Oriented Gradients (Dalal & Triggs, 2005). SVM — Support Vector Machine (Vapnik, 1995). Viola-Jones — Paul Viola + Michael Jones (2001). DETR — DEtection TRansformer (Facebook AI, 2020). SSD — Single Shot MultiBox Detector (Liu et al., 2016). NMS — Non-Maximum Suppression; tłumienie nie-maksymalnych detekcji. ROI — Region of Interest (region zainteresowania). RPN — Region Proposal Network (sieć propozycji regionów). FPN — Feature Pyramid Network (piramida cech). IoU — Intersection over Union (przecięcie przez sumę). FC — Fully Connected (w pełni połączona). ReLU — Rectified Linear Unit (wyprostowana jednostka liniowa). mAP — mean Average Precision (średnia precyzja).
Jak zapamiętać
- CNN = „Czytaj Nie Naraz" — małe filtry 3×3 przesuwane po obrazie, nie cały obraz naraz
- Hierarchia CNN: „K-R-F-O" = „Każdy Rycerz Znajduje Obiekt" — Krawędzie → Rogi → Fragmenty → Obiekty
- FC = „Full Connection" — każdy z każdym, warstwa decyzyjna na końcu CNN
- Backbone = SILNIK samochodu — ten sam silnik (ResNet), różne karoserie (klasyfikacja/detekcja/segmentacja)
- Backbone'y: A→V→R = „Architektura Bardzo Rezylientna" — AlexNet (2012) → VGG (2014) → ResNet (2015)
- Transfer learning = „PRZESZCZEP GŁOWY" — nie ucz się od zera, przenieś wiedzę z ImageNet, zmień głowicę
- HOG kroki: „GOKBN" = „Grasz Ostro, Kumplu? Bądź Naturalny" — Gradienty → Orientacja → Komórki → Bloki → Normalizacja
- SVM = „LINIA MAKSYMALNEGO ODDECHU" — margines jak most: im szerszy, tym bezpieczniej
- Viola-Jones: „HIC" = Haar + Integral Image + Cascade
- Haar = „Hej, A tu jest Różnica?" — porównuje jasne i ciemne prostokąty
- Integral Image = „4 Odczyty I Gotowe" (4OIG) — suma dowolnego prostokąta O(1)
- Kaskada = „SITO" — piach odpada wcześnie, złoto (twarz) zostaje na końcu
- Viola-Jones pipeline: „SIKN" = „Szybko Identyfikuj Kształty Niezwykłe" — Sliding → Integral → Kaskada → NMS
- AdaBoost = „ADAptacyjnie BOOSTuj" — słabe modele razem = silny
- Selective Search — inteligentne łączenie regionów zamiast milionów okien
- ROI Pooling — dowolny rozmiar → stały rozmiar (siatkowanie + max)
- Bbox regression = „GPS korekta" — popraw przybliżoną pozycję o Δx, Δy, Δw, Δh
- Ewolucja R-CNN: „CORAZ MNIEJ MARNOWANIA" — R-CNN (50s) → Fast (2s) → Faster (0.2s)
- YOLO = „You Only Look Once" — jednoetapowy, szybki, siatka S×S
- Faster R-CNN = CNN + RPN + ROI Pool — dwuetapowy, dokładny
- NMS = „Najlepszy Ma Się dobrze" — zachowaj najlepszą detekcję, usuń duplikaty
- IoU = „Ile pokrycia Ustalono?" — pole(∩) / pole(A∪B)
- DETR = „Detekcja Eliminująca Trikowe Redundancje" — bez NMS, bez anchorów, transformer
- Detektor z klasyfikatora: „SRF" = „Szukaj Ręcznie, Finalnie optymalizuj!" — Sliding Window (wolno) → Region Proposals (lepiej) → Fine-tune backbone (najlepiej)



















