level 2 Data-Centric 대회 정리

지난 대회는 12/13등으로 마무리 했기에..절치부심하여 전집중호흡으로 이번 대회 박살내보길 기대했다. 하지만 마의 0.9점의 벽을 넘지 못하고 11/13등으로 마무리 했다.

순위로 따지자면 형편없는 듯 하지만 이번 대회는 physical 순서로 순위가 메겨지는 게 아니라는 체감이 있었기 때문에 변경거리가 아주 많아서 멘탈 케어는 지난 대회보다 덜 필요한 것 같다. 껄껄껄

변경거리룰 퓰어놓기 전에 overview를 보자

( 매번 새로운 강의가 열릴 때마다 편지처럼 overview를 적어주시는데 이걸 읽으면 마음이 따듯해진다)

이번 대회의 핵심은 기존 train 데이터에서 잘못 라벨링된 anntation을 수정하고 외부 데이터로 학습을 시켜 일반화 성능과 높은 추론력을 키워내는 것이 핵심이라고 생각했다.

그런데 대회가 끝난 뒤 다른 팀의 캠퍼들의 이야기를 들어보고 1,2등 발표팀의 전략을 들어보면 외부데이터를 사용했더니 f1 score가 떨어져서 결국 기존에 제공한 100개의 데이터만 사용했다고 한다 ㅎㅎ ㅜㅜㅜㅜ

1등 팀의 전략은 salt & pepper noise로 91점까지 올렸고 앙상블을 통한 추론으로 96점까지 올렸다.

2등 팀의 전략은 super resolution으로 이미지를 4배하여 4등분, 8배하여 8등분으로 나눈 후 추론을 했더니 무려 94점까지 올랐고, 앙상블을 통해 마지막에 점수를 끌어올렸다고 한다.

우리 조는 앙상블을 안 했다. 하는 법을 몰랐고

( 인터넷 검색하면 금방 나오긴 했지만 왠지 사용 안 해도 높은 점수를 낼 수 있을 것 같은 고리타분한 자신감.. )

데이터가 주는 학습력에 대한 강한 신뢰가 있었기 때문에 sr도 사용하지 않았다.

물론 detection에서는 sr을 하면 높은 확률로 많은 피사체를 탐지해낸다. 해당 데이터는 작은 글씨가 많았고 노이즈와 글자가 구분이 힘든 경우도 왕왕있었기 때문에 분명 효과적일 것이다. 하지만 우리 조는 아~주 고리타분했었기에 실무에서 sr을 사용하기엔 resource가 너무 많이 소요되기 때문에 효과적인 외부데이터를 사용하거나 augmentation을 효과적으로 활용해보자는 것에 초점을 맞췄고 그 결과 90점을 못 넘겼다ㅋㅋㅋㅜ

(train set 중에서 선별하여 test set와 유사한 valid set을 만들 수 없는 dataset이었다.

valid set을 만들기 위해서는 train set을 조작하여 test set와 유사한 이미지=더러운 이미지로 직접 그려서 저장을 하든, valid set에도 augmentation을 입혀서 훈련을 하든 해야 했는데 그러지 못한 건 있다. valid set에 augmentation을 입혔으면 좀 달랐을까? 이제 와서야 궁금해지긴 하다.)

하지만 우리는 test set에 있는 다양한 noise를 최대한 비슷하게 흉내내기 위해 augmentation을 직접 구현했고

다른 조보다 다양하게 외부데이터를 활용했다. ( 자기 병원 영수증을 직접 찍어서 dataset에 추가하자는 의견까지 나왔을 정도..1등 2등조 보다 우리조가 발표를 했다면 더 재미있었을 것 같다.)

어떤 방식으로 augmentation을 적용하고 train.py, dataset.py를 수정했는지는 다음 포스팅에서 정리해야겠다.

이때 augmentation을 직접 만든 이유는 salt and pepper noise는 test set에서 보이는 noise의 양상과 상당히 달랐기 때문인데 어쨌거나 성능은 salt and pepper가 더 좋았다니 갸우뚱하면서도 inference를 내서 제출 안 해본 건 아주 아쉽다.

728x90

저작자표시 비영리 변경금지

'Lectures > BoostCamp -Naver' 카테고리의 다른 글

level 2 Data-Centric, 2. makeing validset (2)	2024.02.05
level 2 Data-Centric, 0. img위에 annotations 시각화 (1)	2024.02.05
2-2. mmdetection ConvNext 사용법 (mask rcnn, fp16 error) (0)	2024.01.20
2.1 mmdetection cascade rcnn config 사용법 (0)	2024.01.20
1-2. mmdetection faster rcnn의 scheduler 잡지식 (0)	2024.01.20

sundry story

level 2 Data-Centric 대회 정리

'Lectures > BoostCamp -Naver' 카테고리의 다른 글

댓글

티스토리툴바

level 2 Data-Centric 대회 정리

'Lectures > BoostCamp -Naver' 카테고리의 다른 글

관련글

댓글

티스토리툴바