Object Detection은 물체를 검출 또는 인식하는 문제이다.
Computer Vision에서 처리해야하는 Task는 Classification, Object Localization, Object Detection, Instance Detection으로 나눌 수 있다.
1) Classification
- image가 주여졌을 때, 이미지가 어떤 카테고리에 속하는지 분류하는 문제
- 입력 image에 분류해야할 Object는 하나
- Classification에 주로 사용되는 CNN이 Object Detection이나 Segmentation의 backborn이 된다.
2) Classification + Localization
- 어떤 Object의 위치를 찾아내고(Bounding Box), 그 Object가 어떤 카테고리에 속하는지 분류하는 문제
- 입력 image에 분류해야할 Object는 하나
3) Object Detection
- 어떤 위치에 어떤 Object 들이 있는지 찾아내서(Bounding Box) 분류하는 것
- 입력 image에 분류해야할 Object는 하나 이상
4) Instance Detection
- 어떤 위치에 어떤 Object 들이 있는지 찾아내고 거기에 해당하는 Pixel 단위의 Boundary를 정확히 찾아낸 것
- 입력 image에 분류해야할 Object는 하나 이상
- Segmentation
Object Detection
Object Detection은 어떤 위치에 어떤 Object들이 있는지 찾아내서(Bounding Box) 분류하는 문제
1) Bounding Box
Object Detection에서는 Object의 위치를 Bounding Box 단위로 찾아내는데, Bounding Box는 위 이미지에서 보는 것처럼 Object를 감싸고 있는 사각형 형태를 의미한다.
Bounding Box는 (x_min, y_min, x_max, y_max) 또는 (x_center, y_center, width, height)형태로 값을 저장한다.
2) IoU(Intersection Over Union)
Object의 위치로 예측한 Bounding Box와 실제 Label(Ground Truth)가 얼마나 겹치는지 나타내는 지표로,
Bounding Box와 Ground Truth의 교집합과 합집합을 이용한다.
loU가 가 클수록 모델이 Object의 위치를 잘 찾아냈다고 판단할 수 있다.
\( IoU = \frac{Area of Union}{Area of Overlap}\)
3) Confidence Score
Bounding Box에 Object가 존재할 확률을 의미한다.
아래의 이미지에서 빨간색 Bounding Box의 Confidence Score는 1이고, 노란색 Bounding Box의 Score는 0이 된다.
Object Detection 알고리즘에 따라 Confidence Score는 물체가 있을 확률, 물체가 있을 확률 * IoU, 어떤 물체의 클래스인 확률 * 물체가 있을 확률 *IoU이 될 수 있다.
4) NMS(Non-Maximum Suppression)
동일한 Object를 여러 Bounding Box가 Detection하는 것을 막기위해 수행하는 것으로, Object 별로 가장 높은 Score의 Bounding Box만 두고 전부 제거하는 역할을 한다.
성능 평가 지표
- Object Detect에서는 성능 평가 지표로 AP(Average Precision)와 mAP(mean Average Precision)를 사용한다.
TP(True Positive)
- Object가 있다고 판단된 위치에 실제 Object가 있는 경우
FP(False Positive)
- Object 있다고 판단했지만 실제 Object가 없는 경우
FN(False Negative)
- Object를 검출하지 못했는데 실제 Object가 있는 경우
TN(True Negative)
- Object를 검출하지 못했는데 실제 Object가 없는 경우
Precision
- 모든 검출 결과(Object가 있다고 판단) 중 실제 정답의 비율
- \(precision = \frac{TP + FP}{TP}\)
Recall
- 검출해야하는 물체 중 정답의 비율
- \(recall = \frac{TP + FN}{TP}\)
예를 들어 어떤 Object Detect 모델이 15개의 Object 중 A~J(10개)의 Object를 검출하고 Confidence Score는 아래와 같다고 하면,
Confidence Score에 따른 TP와 FP는 아래 표와 같다.
Precision과 Recall의 관계 그래프를 그렸을 때, 파란 선 아래 면적을 AP(Average Precision)이라 하며, AP가 클수록 좋은 모델이라 판단할 수 있다(RoC Curve와 유사)
mAP(mean Average Precision)은 Class 별로 AP(Average Precision)을 계산하고 평균한 값이다.
'Artificial Intelligence > Deep Learning' 카테고리의 다른 글
FCN(Fully Convolutional Network) (0) | 2023.03.28 |
---|---|
CAE (Convolutional Autoencoder) (0) | 2023.03.27 |
Autoencoder (0) | 2023.03.05 |
Fourier Transform (3) (0) | 2022.01.20 |
Fourier Transform (2) (0) | 2022.01.18 |
댓글