[멀티모달] Multimodal Learning 정리

안녕하세요!

최근 AI 트렌드에서 가장 주목받는 키워드 중 하나는 바로 '멀티모달(Multimodal)'입니다. 텍스트만 다루거나 이미지만 다루던 과거를 넘어, 이제 AI는 인간처럼 시각, 청각, 텍스트 등 다양한 감각 정보를 동시에 받아들이고 종합적으로 사고하고 있습니다.

오늘은 멀티모달 러닝의 기본 개념부터 데이터 결합 방식(Fusion), 그리고 대표적인 사전학습 모델(VLM)까지 자세히 정리해 보겠습니다.

1. 멀티모달 러닝(Multimodal Learning)

Multimodal Learning은 서로 다른 여러 모달리티(Modality, 데이터의 형태)를 함께 학습하는 AI 학습 방식입니다.

예를 들어, 이미지와 텍스트를 동시에 입력받아 상황을 설명하거나, 영상과 음성을 결합해 사람의 감정을 인식하는 식입니다. 각 데이터가 가진 상호보완적인 정보를 결합하기 때문에, 단일 모달리티를 사용할 때보다 훨씬 풍부한 표현력과 높은 성능을 기대할 수 있습니다.

멀티모달을 이해하기 위해 기존의 학습 방식들과 비교해 보겠습니다.

1-1 Unimodal Model (단일 모달 모델)

예시: 텍스트 감성 분류 모델, 이미지 분류 모델(CNN), 음성 인식 모델(STT)
특징: 입력과 출력이 고정되어 있어 구조가 단순하고 해석이 용이합니다. 특정 데이터 유형에 최적화된 성능을 내지만, 현실 세계의 복잡한 맥락을 파악하는 데는 한계가 있습니다.

오직 하나의 데이터 형태(모달리티)만 입력으로 사용하는 모델입니다.

1-2 Multitask Learning (다중 작업 학습)

예시: 문장을 보고 '감성 분류'와 '주제 분류'를 동시에 수행하거나, 이미지에서 '객체 탐지'와 '분류'를 함께 하는 경우
특징: 여러 작업이 공통의 표현(Representation)을 공유하므로 일반화 성능이 좋아지고, 데이터가 부족한 작업에서도 안정적인 학습이 가능합니다.

하나의 모델이 여러 개의 서로 다른 작업(Task)을 동시에 학습하는 방법입니다.

2. 멀티모달 모델의 종류

어떤 데이터를 결합하느냐에 따라 다양한 형태의 모델이 존재합니다.

Vision–Language 모델 (이미지 + 텍스트)
- 현재 가장 활발히 연구되고 쓰이는 형태입니다. 이미지 캡셔닝(Image Captioning), 시각적 질의응답(VQA), 텍스트 기반 이미지 검색/생성 등에 활용됩니다.
Audio–Visual 모델 (음성 + 영상)
- 입 모양과 음성을 함께 분석하는 음성 인식, 얼굴 표정과 목소리 톤을 결합한 감정 인식 등에 쓰입니다. 소음이 심한 환경에서도 인식률을 높일 수 있습니다.
Audio–Language 모델 (음성 + 텍스트)
- STT(Speech-to-Text), 대화형 AI, 음성 비서 시스템의 핵심 구성 요소입니다.
Vision–Audio–Language 모델 (이미지/영상 + 음성 + 텍스트)
- 영상 요약, 상황 추론 등 복잡한 작업이 가능하며, 최근 대규모 파운데이션 모델(Foundation Model)들이 지향하는 궁극적인 형태입니다.
Sensor Fusion 기반 모델 (비전 + 센서)⭐
- 카메라, 라이다(LiDAR), 레이더, GPS 등 센서 데이터를 결합합니다. 자율주행, 로보틱스 분야에서 환경 인식의 정확도를 높이는 데 필수적입니다.
Document Multimodal 모델 (텍스트 + 이미지 + 표 + 레이아웃)
- 문서 내의 다양한 요소들을 종합적으로 이해합니다. 향상된 OCR, 문서 요약, 계약서 분석 등에 쓰입니다.

3. Multimodal Fusion (결합 전략)

텍스트(단어 시퀀스)와 이미지(픽셀 배열)는 차원과 형태가 완전히 다릅니다. 이들을 하나의 의미로 엮어내는 과정을 **Fusion(결합)**이라고 하며, 어느 시점에 결합하느냐에 따라 전략이 나뉩니다.

Early Fusion (초기 결합)

입력 단계에서 바로 특징을 합치는(Concatenation) 방식. 단순하고 모달 간 상호작용을 초반부터 학습할 수 있지만, 노이즈가 섞이거나 특정 모달이 다른 모달을 방해할 수 있습니다.

Late Fusion (후기 결합)

각각의 독립적인 모델(예: 이미지 모델, 텍스트 모델)이 결괏값을 낸 뒤, 그 결과(확률값 등)를 앙상블(평균, 가중합)하는 방식. 안정성이 높지만 모달리티 간의 깊은 상호작용을 학습하긴 어렵습니다.

Intermediate / Feature-level Fusion (중간 결합)

가장 널리 쓰이는 방식입니다. CNN이나 Transformer로 각각의 특징(Feature)을 추출한 중간 단계에서 결합합니다.

Attention-based Fusion (어텐션 기반 결합)

중요한 정보에 가중치를 두는 방식입니다. 예를 들어 텍스트 질문에 맞춰 이미지의 '특정 영역'에만 집중하도록 하는 Cross-Attention이 대표적입니다.

Hybrid Fusion (혼합 결합)

위의 방식들을 복합적으로 사용하는 구조로, 최신 대규모 모델에서 성능을 극대화하기 위해 자주 채택됩니다.

4. Pretrained Vision Language Models (VLMs)

VLM은 대규모의 '이미지-텍스트 쌍' 데이터로 미리 학습된 모델을 말합니다. 시각적 특징과 텍스트의 의미를 같은 임베딩 공간에 정렬(Alignment)해 두었기 때문에, 적은 양의 추가 학습만으로도 다양한 태스크에 활용할 수 있습니다.

CLIP 계열 (Contrastive Learning): 이미지와 텍스트를 각각 인코딩한 뒤, 서로 맞는 쌍은 가깝게, 틀린 쌍은 멀게 배치하는 대조 학습을 수행합니다. Zero-shot 분류와 검색에 매우 강력합니다.
ALIGN 계열: CLIP과 유사하지만 노이즈가 있는 웹 데이터를 극단적으로 큰 스케일로 학습하여 성능을 끌어올린 모델입니다.
ViLBERT / LXMERT 계열: 이미지와 텍스트를 각각 처리한 뒤 Cross-Attention으로 상호작용시키는 교과서적인 구조로, VQA 등에 강합니다.
BLIP / BLIP-2 계열: 이미지 이해(검색, QA)와 생성(캡셔닝)을 하나의 프레임워크로 통합한 실용적인 모델입니다.
Flamingo 계열: 거대 언어 모델(LLM)에 비전 인코더를 붙여, 단 몇 개의 예시(Few-shot)만으로도 이미지 관련 질문에 답할 수 있게 만든 혁신적인 모델입니다.

💡 Zero-shot vs Few-shot Learning

Zero-shot Learning: 학습 때 본 적 없는 새로운 작업/클래스에 대해 추가 예시 없이 바로 추론하는 방식. (예: "얼룩말 사진 찾아줘"라는 텍스트만으로 이미지를 찾는 CLIP)

Few-shot Learning: 1~10개 내외의 아주 적은 예시(Context)를 제공하여, 모델이 빠르게 패턴을 파악하고 정답을 내도록 유도하는 방식.

5. 실무 & 연구를 위한 Task별 추천 모델 요약

어떤 목적을 가지고 있느냐에 따라 적합한 모델이 다릅니다. 상황에 맞게 골라 쓰는 것이 핵심입니다.

Task (작업)	추천 모델	추천 이유
Text-to-Image / Image-to-Text 검색	CLIP, ALIGN	공통 임베딩 공간 기반으로 빠르고 정확한 검색 가능
Zero-shot 이미지 분류	CLIP	이미지 라벨을 텍스트 프롬프트로 처리하여 분류 수행
VQA (시각적 질의응답)	LXMERT, BLIP	Cross-Attention을 통한 명시적 상호작용과 추론 능력
Image Captioning (이미지 설명 생성)	BLIP, BLIP-2	텍스트 생성 태스크에 특화된 디코더 구조 보유
Few-shot 기반 멀티모달 QA	Flamingo	단 몇 개의 예시 프롬프트만으로도 뛰어난 성능 발휘
연구 목적의 아키텍처 분석	ViLBERT	멀티모달 어텐션 구조가 명확히 분리되어 있어 학습용으로 적합
빠른 실무 서비스 적용	CLIP, BLIP-2	범용성이 높고 안정적이며, 오픈소스로 활용하기 용이함

'개념 정리 step2 > 멀티모달(Multi-modal)' 카테고리의 다른 글

[머신러닝] 차원 축소 PCA, t-SNE, UMAP부터 CLIP 시각화까지 (0)	2026.02.13
[Vision-Language] CLIP 모델 핵심 정리 및 유사도 히트맵 실습 (0)	2026.02.11
[생성형 AI] GAN와 DCGAN 개념 정리와 실습 (0)	2026.01.31
[멀티 모달] 오토인코더(Autoencoder): 비지도 학습과 생성 모델의 기초 (0)	2026.01.30
[Deep Learning] 동영상 데이터 분석: 3D CNN과 수화 인식 실습 (0)	2026.01.29

1. 멀티모달 러닝(Multimodal Learning)

1-1 Unimodal Model (단일 모달 모델)

1-2 Multitask Learning (다중 작업 학습)

2. 멀티모달 모델의 종류

3. Multimodal Fusion (결합 전략)

Early Fusion (초기 결합)

Late Fusion (후기 결합)

Intermediate / Feature-level Fusion (중간 결합)

Attention-based Fusion (어텐션 기반 결합)

Hybrid Fusion (혼합 결합)

4. Pretrained Vision Language Models (VLMs)

5. 실무 & 연구를 위한 Task별 추천 모델 요약

'개념 정리 step2 > 멀티모달(Multi-modal)' 카테고리의 다른 글

티스토리툴바