'bottleneck' 태그의 글 목록

1. 프로젝트 개요이번 프로젝트는 비디오(시각)와 오디오(청각) 데이터를 효율적으로 융합하는 아키텍처를 제안한 논문, Attention Bottlenecks for Multimodal Fusion (NeurIPS 2021)의 아이디어를 직접 PyTorch로 구현해 본 기록입니다.논문의 핵심인 멀티모달 병목(Bottleneck) 구조가 실제로 어떻게 작동하는지 확인하기 위해, Kaggle의 RAVDESS (배우 감정 인식 비디오/오디오) 데이터셋을 활용하여 화자의 감정을 8가지로 분류하는 모델을 구축하고 테스트를 진행했습니다. 논문 링크:https://arxiv.org/abs/2107.00135 Attention Bottlenecks for Multimodal FusionHumans perceive the..

안녕하세요!오늘 리뷰할 논문은 인간의 인지 방식에서 영감을 받아 비디오 분류(Video Classification)를 위한 새로운 멀티모달 융합 방식을 제안한 Multimodal Bottleneck Transformer (MBT) 입니다.처음 멀티모달 논문을 접할 때 가장 헷갈리는 부분 중 하나가 바로 "그래서 이미지랑 소리를 언제, 어떻게 합친다는 거지?"라는 점입니다. 이 논문은 그 질문에 대해 'Bottleneck(병목)'이라는 아주 직관적이고 효율적인 해답을 제시합니다.https://arxiv.org/abs/2107.00135 Attention Bottlenecks for Multimodal FusionHumans perceive the world by concurrently processing ..

티스토리툴바