'ViT' 태그의 글 목록

안녕하세요!!오늘은 지금 데이콘에서 진행중인 공모전에 대해서 제 주관적인 생각을 아주 많이 넣은(?) 연구용 블로그를 작성해보겠습니다. 이미 상위 랭킹에 속하긴 했지만 순위를 더 좁히고 싶어서 영상 데이터부터 시각화 검증까지 다 뜯어보면서 분석해보는 중입니다.오늘 진행한 내용들에 대해서 정리해보도록 하겠습니다. 진행 상황 메모 블로그 참고: [DACON 공모전] 구조물 안정성 예측 대회: EVA-Giant Dual-View 모델과 Center Crop 추론 스터디 (2)Dacon 구조물 안정성 예측 대회에 참가하면서 겪은 시행착오, 모델 선택의 근거, 그리고 단순한 추론 전처리 변경 하나로 LogLoss 0.02117 → 0.01756을 달성한 과정을 기록합니다.1. 대회 개요와 문제 정pak1010pa..

안녕하세요!오늘은 컴퓨터 비전 분야의 패러다임을 바꾼 Vision Transformer(ViT)의 핵심 개념과 이를 응용하여 여러 개의 레이블을 한 번에 예측하는 Multi-Branch Classifier를 구현한 과정을 정리해 보겠습니다.Vision Transformer(ViT)ViT는 "An Image is Worth 16x16 Words"라는 논문 제목처럼, 이미지를 마치 문장(Sequence)처럼 처리하는 모델입니다. 기존의 CNN이 이미지의 국소적인 특징(Local Feature)을 추출하는 데 집중했다면, ViT는 이미지 전체의 관계를 한 번에 파악하는 Global Context 학습에 강점이 있습니다.핵심 구조 및 작동 원리Patch Partition & Embedding: 이미지를 고정된 ..

티스토리툴바