[멀티 모달] InstructGPT부터 LLaVA까지 정리본

안녕하세요! 최근 대형 언어모델(LLM)과 비전 모델을 결합하는 멀티모달 연구가 활발합니다.

모델이 단순히 이미지를 인식하는 것을 넘어, 사용자의 복잡한 '지시(Instruction)'를 이해하고 수행하게 된 배경에는 어떤 기술적 발전이 있었을까요? 텍스트 기반의 InstructGPT부터 시작하여, 이를 비전 영역으로 확장한 Vision Instruction Tuning, 그리고 대표적인 오픈소스 멀티모달 모델인 LLaVA까지의 흐름을 정리해 봅니다.

1. InstructGPT

과거의 GPT 모델들은 방대한 텍스트를 바탕으로 '다음 단어를 예측'하는 데에는 뛰어났지만, 사용자가 원하는 특정한 지시(요약, 번역, 논리적 설명 등)를 정확히 따르는 데에는 한계가 있었습니다. 이를 해결하기 위해 OpenAI가 도입한 방법론이 적용된 모델이 바로 InstructGPT입니다.

InstructGPT의 핵심은 기존 GPT 계열 언어모델을 사람의 의도(Alignment)에 더 잘 맞추도록 개선한 것입니다. 이를 위해 RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습) 기법이 적용되었습니다.

1단계: 지도학습 (SFT - Supervised Fine-Tuning)
- 먼저 사람이 직접 고품질의 질문과 답변 쌍을 작성하여 모델이 기본적인 지시 수행 능력을 갖추도록 미세조정합니다.
2단계: 보상 모델 학습 (Reward Model)
- 모델이 생성한 여러 답변에 대해 인간 평가자가 순위를 매깁니다. 이 데이터를 바탕으로 어떤 답변이 더 좋은 답변인지 점수를 매기는 보상 모델을 학습시킵니다.
3단계: 강화학습 (PPO - Proximal Policy Optimization)
- 보상 모델을 환경으로 삼아, 언어모델이 더 높은 보상을 받는 방향(사람이 선호하는 방향)으로 답변을 생성하도록 최적화합니다.

이 과정을 거치며 언어모델은 단순한 텍스트 생성기를 넘어, 사용자의 요청 맥락을 파악하고 정확하게 응답하는 대화형 어시스턴트로 진화하게 되었습니다.

2. Vision Instruction Tuning

InstructGPT가 텍스트 도메인에서의 지시 수행 능력을 증명했다면, Vision Instruction Tuning은 이 능력을 이미지 영역으로 확장한 개념입니다. 대형 언어모델(LLM)에 이미지 입력을 결합한 뒤, "이 이미지에서 위험한 상황을 설명해 줘"와 같은 다중 모달리티 지시에 맞춰 응답하도록 추가로 미세조정(Fine-tuning)하는 학습 방식입니다.

단순히 이미지와 텍스트를 매칭하는 캡셔닝(Captioning)을 넘어, 이미지를 단서로 삼아 추론, 비교, 감정 해석 등 고차원적인 자연어 지시를 수행하게 만드는 것이 목적입니다.

2.1 데이터셋의 구조 및 진화

효과적인 학습을 위해서는 이미지, 지시문, 정답으로 구성된 양질의 데이터셋이 필요합니다.

<Image>
Instruction: 이 사진에서 위험한 상황을 설명해줘.
Answer: 도로 한가운데 사람이 서 있어 교통사고 위험이 있습니다.

과거 (Human Annotation 방식):
- VQA나 COCO Captions처럼 사람이 직접 이미지를 보고 질문과 답을 작성했습니다. 이는 비용과 시간이 많이 듭니다.
현재 (LLM 기반 자동 생성):
- 기존의 짧은 이미지 캡션 데이터를 텍스트 기반 LLM에 입력합니다. LLM에게 "이 캡션 상황을 바탕으로 다양한 질문을 만들어봐", "그 질문에 대한 논리적인 답을 작성해 봐"라고 요청하여 대규모 멀티모달 지시 데이터를 자동으로 생성하고 필터링합니다.

2.2 모델 아키텍처 흐름

일반적인 Vision Instruction Tuning 모델은 다음의 파이프라인을 거칩니다.

Vision Encoder (예: CLIP ViT):
입력된 이미지에서 시각적 특징을 추출하여 고차원 Feature Vector로 만듭니다.
		⇓
Projection Layer:
시각적 특징 벡터의 차원을 언어모델이 이해할 수 있는 
임베딩 차원(Token Space)으로 변환하고 정렬(Alignment)합니다.
		⇓
LLM (Instruction Tuned):
이미 텍스트 지시 수행 능력이 학습된(SFT 완료된) 거대 언어모델에 
텍스트 프롬프트 토큰과 변환된 이미지 토큰을 함께 입력하여 최종 텍스트를 생성합니다.

3. LLaVA (Large Language-and-Vision Assistant)

LLaVA는 앞서 설명한 Vision Instruction Tuning의 구조를 가장 모범적이고 효율적으로 구현한 대표적인 오픈소스 모델입니다.

구조적 특징:
- 사전학습된 강력한 비전 인코더인 CLIP ViT와 메타(Meta)의 대형 언어모델인 LLaMA 계열을 단순한 선형 프로젝션 레이어로 연결했습니다. 복잡한 구조 없이 이 두 거대 모델을 연결하는 것만으로도 강력한 성능을 냅니다.
데이터의 혁신:
- 이미지 자체가 아닌, 이미지의 텍스트 설명(캡션, 바운딩 박스 정보 등)만을 GPT-4에 텍스트로 입력하여, 마치 GPT-4가 이미지를 보고 있는 것처럼 행동하게 만들어 대규모의 고품질 합성 지시 데이터를 생성해 냈습니다.
결과:
- 이를 통해 LLaVA는 이미지를 보고 단순한 설명을 넘어서 복잡한 추론, 비교, 대화 등 고차원적인 응답 능력을 확보했습니다. 구조적 단순함과 데이터 생성의 효율성을 모두 잡은 모델로 평가받습니다.

Memo: LLaVA의 경우 기반이 되는 LLM 로직과 전체 학습 코드가 GitHub에 오픈소스로 공개되어 있습니다. 멀티모달 모델의 데이터 전처리와 프로젝션 레이어 연동 방식을 코드로 직접 분석하며 공부하기에 아주 좋은 레퍼런스입니다. 하단 링크 참고.

1. LLaVA (Large Language-and-Vision Assistant)

공식 GitHub 저장소: https://github.com/haotian-liu/LLaVA
공식 프로젝트 및 데모 페이지: https://llava-vl.github.io/
관련 논문 (Visual Instruction Tuning): https://arxiv.org/abs/2304.08485

GitHub - haotian-liu/LLaVA: [NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyo

[NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond. - haotian-liu/LLaVA

github.com

2. Meta LLaMA (LLaVA의 기반이 되는 언어모델)

LLaVA가 텍스트 추론을 위해 뼈대로 사용하는 메타(Meta)의 오픈소스 LLM 아키텍처입니다. 순수 언어모델의 구조를 확인하고 싶을 때 참고할 수 있습니다.

공식 GitHub 저장소: https://github.com/meta-llama/llama

GitHub - meta-llama/llama: Inference code for Llama models

Inference code for Llama models. Contribute to meta-llama/llama development by creating an account on GitHub.

github.com

3. InstructGPT

단순 언어 예측 모델을 '지시를 따르는' 어시스턴트로 발전시킨 RLHF(인간 피드백 기반 강화학습) 관련 OpenAI의 핵심 논문입니다.

관련 논문 (Training language models to follow instructions with human feedback): https://arxiv.org/abs/2203.02155

Training language models to follow instructions with human feedback

Making language models bigger does not inherently make them better at following a user's intent. For example, large language models can generate outputs that are untruthful, toxic, or simply not helpful to the user. In other words, these models are not ali

arxiv.org

'개념 정리 step2 > 멀티모달(Multi-modal)' 카테고리의 다른 글

[멀티 모달] DeepMind Flamingo: 언어 모델에 시각 능력을 부여하는 멀티모달 모델 (0)	2026.02.19
[멀티모달] BLIP & BLIP-2 핵심 구조 및 실습 코드 정리 (0)	2026.02.17
[비전 AI] 텍스트로 객체를 찾는 Zero-Shot Detection부터 GroundingDINO까지 (0)	2026.02.14
[머신러닝] 차원 축소 PCA, t-SNE, UMAP부터 CLIP 시각화까지 (0)	2026.02.13
[Vision-Language] CLIP 모델 핵심 정리 및 유사도 히트맵 실습 (0)	2026.02.11

1. InstructGPT

2. Vision Instruction Tuning

2.1 데이터셋의 구조 및 진화

2.2 모델 아키텍처 흐름

3. LLaVA (Large Language-and-Vision Assistant)

1. LLaVA (Large Language-and-Vision Assistant)

2. Meta LLaMA (LLaVA의 기반이 되는 언어모델)

3. InstructGPT

'개념 정리 step2 > 멀티모달(Multi-modal)' 카테고리의 다른 글

티스토리툴바