본문 바로가기

Ai/Notion8

IoU, GIoU, DIoU 개념 ! DETR을 공부하다보니 Bounding Box를 갱신하는 과정에서 처음 듣는 용어가 나와서 정리해둔다. ! IoU : 교집합 / 합집합 GIoU : 두 박스의 합집합 / 두 박스를 포함하는 큰 박스 넓이 DIoU : IoU, 두 박스 중심 거리 이용 - IoU ( Intersection over Union ) 두 상자의 교집합 영역을 합집합의 영역으로 나눠서 0~1 점을 메기는 것이다. 이 점수를 마치 Loss처럼 이용하는 것이다. 여기서 예측 상자를 Bounding Box라고 하고, 정답 상자를 Ground Truth(GT)라고 표현하는 것을 기억하자.! IoU가 유리하다는 것은 기존 L1 loss와 L2 loss의 문제점을 통해 살펴보자. L1 loss의 경우, 위 그림을 보자. Bounding Bo.. 2023. 11. 9.
DETR(Detection with Transformers) DETR 이전에는 YOLO, 와 Faster R-CNN이 대표적인 Image Detector였다. 각자의 특징은 따로 포스팅으로 언급하도록 하겠다. DETR이 앞선 연구와 차별점이 있다면, 이미지 분석에 transformer를 적용했다는 점이다. (이번 포스팅을 준비하면서 알게된 점이지만, DETR는 2020년 3월 26일에 공개된 것으로, VIT보다 앞선 연구였다.! ) 0. Bipartite Mathching DETR에서 중요한 개념을 고르자면 Bipartite matching(이분 매칭)과 Transformer,,가 될 것 같고, 생소할 수 있는 개념을 고르자면 IoU와 GIoU이다. 하나씩 짚고 본론으로 가자. Bipartite matching은 두 집단 간의 사다리를 가장 많이 연결하는 방법을 .. 2023. 11. 8.
Transformer 에서 cos, sin 함수를 사용한 이유(position encoding) Transformer를 공부하면서 무시무시한 수식이 나오는데, 이 함수가 왜 사용되는지, 어떻게 유도되었는지, 무슨 의미인지 살펴보도록 하자. 오늘 포스팅은 순차적으로 진행되는 것이 아니라 내용이 왔다갔다 할 것이라, 흐름 잘 잡아야할 것 같다. 오늘의 최종 목표로 position embedding을 완벽히 뜯어보자. 오늘 다룰 부분은 Positional Encoding을 하는 영역이다. First step 이를 이해하기 위해서는 embedding과 position embedding을 알고있어야한다. 말 그대로 embedding은 문자에 ID를 부여하는 것. position embedding은 문자의 위치를 부여하는 것이다. Encoder input은 embedding과 position embedding.. 2023. 10. 17.
VIT (Vision Transformer) VIT는 이미지 분석에서 CNN에 사망선고 내릴 뻔 한 모델이라고 생각된다. Attention으로 문장의 맥락파악에 이어 이미지의 맥락 파악에서 큰 힘을 발휘한 것이다. 오늘 이해할 내용은 VIT 과정 전체를 담은 이미지 하나와 수식 하나가 전부이다. VIT와 관련된 사족은 모두 제쳐두고 내용의 이해와 논문 찍먹을 해보자. 1. Inductive bias의 이해 귀납 편향?? 이라고 해야할까.. 어떤 정보를 분석할 때 해당 정보가 어떤 정보의 특성을 띠는지 선입견을 가지고 처리하는 것이다. ! 예를 들어 CNN은 kernel로 이미지를 위치별로 찍어 연산하기 때문에 locality와 transitional invanriance를 띤다. RNN은 데이터가 시간적 특성을 띠고 있다고 가정하기 때문에 sequ.. 2023. 10. 12.
Transformer 개인적으로 transformer를 공부하면서 이해했다싶으면 또 갸우뚱하는 지점이 생기고, 다른 블로그나 유튜브 영상을 보면 예시가 내가 이해한 거랑 좀 다른 것 같았다. 지식을 공유하는 목적이기보단, 나의 공부 기록이자 앞으로 더 좋은 해석 혹은 오류가 있다면 계속 갱신할 자료이므로 잘못된 해석이 있다면 조언 댓글로 부탁드리며 포스팅을 시작한다. 전체 구조는 다음과 같다. 왼쪽은 Encoder, 오른쪽은 Decoder다. - Encoder는 두 개 층으로 이루어져있고, 각 층은 다시 2개 층으로 구성된다. - Decoder는 세 개의 묶음으로 이루어져 있고 Encoder와 차이점은, 시작 부분에 Masked Multi-Head Attention 층이 추가된 것과, Multi-Head Attention 층.. 2023. 10. 12.
VggNet 1 INTRODUCTION VggNet은 AelxNet에서 또 한번의 진보를 이끌어낸 모델이다. VggNet의 주된 시도는 최대한 많은 층을 쌓고 비선형 활성화함수를 사용하여 다양한 데이터에 유연하게 반응하는 것을 목표로 했다. [ VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION ] 를 해석해보며 어떤 방법론을 사용했는지 확인해보자. AlexNet에서는 11x11, 5x5, 3x3 kernel을 이용하여 8층으로 구성했지만 VggNet은 그것보다 깊은 다양한 층을 쌓고 다양한 파라미터 개수에 실험을 수행하면서 오차를 구했다. 내용에 본격적으로 들어가는 [2-3]의 tanle-1 을 보기 전에 [2]장에 설명된 세팅값을 정리하고 들어가.. 2023. 10. 12.
AlexNet architecture AlecNet의 특징점을 먼저 짚고 가자. 1. Training on multi-GPU 2. ReLU 3. Local Response Normalization 4. Overlapped Pooling 5. Reducing Overfitting 5-1 Data Augmentation 5-2 Dropout 1. Training on multi-GPU AlexNet의 Architecture이다. 두 개의 GPU를 사용해 병렬학습으로 처리하는 것을 알 수 있다. // 처음 제공한 이미지는 224x224가 아닌 227x227이 옳다. 5개의 convolution layer와 3개의 fully connected layer를 갖춰, 총 8층으로 이뤄져있다. Conv-1에서 사용한 커널은 11x11x3이고 96개의 fe.. 2023. 10. 10.
LeNet-5 - A Classic CNN Architecture LeNet - 5는 6개의 층으로 이루어져있다. 각 층의 연산법과 파라미터 개수를 알아보자. First Layer - C1, convolution layer 32×32×1 의 이미지를 6개(6채널)의 5×5 필터로 컨볼루션 연산을 거쳐 28×28×6 으로 바꾼다 num Feature map = 6 Filter size = 5 Padding = 0 Stride = 1 $$\frac{32-5+2 × 0}{1}+1 = 28$$ 파라미터는 5x5 필터가 6채널 있기 때문에 bias도 6개 이다 파라미터 개수는 (가중치 × 입력맵 개수 × +바이어스 ) × 특성맵 개수 이다. $$param : (5×5+1)×6 = 156$$ ∴ param : 156 Connections : 28×28×56 = 122304 가 된.. 2023. 10. 5.
728x90
반응형