[논문 구현] 멀티모달 병목 트랜스포머(MBT) PyTorch 구현 및 RAVDESS 감정 인식 테스트
·
1. AI 논문 + 모델 분석/AI 논문 분석
1. 프로젝트 개요이번 프로젝트는 비디오(시각)와 오디오(청각) 데이터를 효율적으로 융합하는 아키텍처를 제안한 논문, Attention Bottlenecks for Multimodal Fusion (NeurIPS 2021)의 아이디어를 직접 PyTorch로 구현해 본 기록입니다.논문의 핵심인 멀티모달 병목(Bottleneck) 구조가 실제로 어떻게 작동하는지 확인하기 위해, Kaggle의 RAVDESS (배우 감정 인식 비디오/오디오) 데이터셋을 활용하여 화자의 감정을 8가지로 분류하는 모델을 구축하고 테스트를 진행했습니다. 논문 링크:https://arxiv.org/abs/2107.00135 Attention Bottlenecks for Multimodal FusionHumans perceive the..
[Deep Learning] Vision Transformer(ViT) Multi-Branch 구현 실습
·
개념 정리 step2/멀티모달(Multi-modal)
안녕하세요!오늘은 컴퓨터 비전 분야의 패러다임을 바꾼 Vision Transformer(ViT)의 핵심 개념과 이를 응용하여 여러 개의 레이블을 한 번에 예측하는 Multi-Branch Classifier를 구현한 과정을 정리해 보겠습니다.Vision Transformer(ViT)ViT는 "An Image is Worth 16x16 Words"라는 논문 제목처럼, 이미지를 마치 문장(Sequence)처럼 처리하는 모델입니다. 기존의 CNN이 이미지의 국소적인 특징(Local Feature)을 추출하는 데 집중했다면, ViT는 이미지 전체의 관계를 한 번에 파악하는 Global Context 학습에 강점이 있습니다.핵심 구조 및 작동 원리Patch Partition & Embedding: 이미지를 고정된 ..
Transformer - "Attention Is All You Need" 논문 리뷰
·
1. AI 논문 + 모델 분석/AI 논문 분석
논문 "Attention Is All You Need"는 현대 생성형 AI와 대규모 언어 모델(LLM)의 근간이 되는 Transformer(트랜스포머) 아키텍처를 처음으로 제안한 기념비적인 연구입니다. 이 논문은 기존의 복잡한 순환 신경망(RNN)이나 컨볼루션 신경망(CNN)을 완전히 배제하고, 오로지 Attention(주의 집중) 메커니즘만으로 모델을 구축할 수 있음을 증명했습니다. 시작하기 전https://pak1010pak.tistory.com/102 [용어 정리] Transformer 논문 분석 전 기본 용어 정리안녕하세요! 실무자분들 강사님, 주변 지인들이 논문이 좋다. 읽어보아라 해서 무작정 해보려고 했지만...나는 용어들조차도 아직 헷갈리는게 많아서 자주 쓰이는 용어들을 정리해보는 블로그(p..