[모델 분석] 오픈 소스 모델 Gemma 4 설치 및 사용하기

안녕하세요!

이번에 새로 구글(Google DeepMind)에서 새롭게 공개한 최신 오픈 모델인 Gemma 4가 나왔습니다.

밴치마크 성능이 좋다고 해서 로컬로도 실제 돌려보고 싶다는 생각이 들더라고요!

모델에 대한 핵심 요약을 정리하고 설치부터 테스트까지 진행하도록 하겠습니다!

Gemma 4 모델 카드 | Google AI for Developers

텍스트, 오디오, 이미지 입력과 최대 256K의 긴 컨텍스트 창을 지원하는 Gemma 4 가 출시되었습니다. 자세히 알아보기 의견 보내기 Gemma 4 모델 카드 Hugging Face | GitHub | 출시 블로그 | 문서 라이선스: A

ai.google.dev

1. Gemma 4 성능 및 특징 핵심 요약

Gemma 4는 단순한 텍스트 생성 모델을 넘어, '에이전트 기반 자동화(Agentic workflows)'와 '멀티모달'에 초점을 맞춘 획기적인 모델입니다.

사고 모드(Thinking Mode) 탑재: 모델이 즉각적으로 답을 내뱉는 대신, 내부적으로 단계별 추론(Step-by-step reasoning) 과정을 먼저 거친 후 답변을 생성하는 기능이 추가되었습니다. 복잡한 논리 문제나 코딩 작업에서 압도적인 성능 향상을 보여줍니다.
강력한 멀티모달 지원: 텍스트뿐만 아니라 이미지, 영상(최대 60초/1fps), 그리고 일부 경량 모델(E2B, E4B)에서는 오디오 입력까지 기본적으로 처리할 수 있습니다.
256K의 방대한 컨텍스트 윈도우: 기존 버전에 비해 두 배 늘어난 256,000 토큰을 한 번에 처리할 수 있어, 방대한 분량의 문서나 PDF 전체를 읽고 분석하는 작업이 가능해졌습니다.
에이전트 최적화: 네이티브 함수 호출(Function calling)과 시스템 프롬프트(System Prompt)를 기본으로 지원하여, 자율적으로 도구를 사용하거나 코드를 실행하는 AI 비서(Agent)를 만들기 매우 좋아졌습니다.

2. 환경 분석 및 모델 추천

대형 언어 모델(LLM)을 로컬에서 구동할 때는 그래픽 카드의 VRAM 크기가 가장 중요합니다. 모델 사이즈별 구동 가능 여부는 다음과 같습니다.

Gemma 4 모델 라인업	파라미터 수	4-bit 양자화 시 필요 VRAM
31B-it	330억 개 (Dense)	약 18GB ~ 20GB
26B-A4B-it	270억 개 (MoE)	약 14GB ~ 16GB
E4B-it	80억 개 (MoE)	약 5GB ~ 6GB
E2B-it	50억 개 (MoE)	약 3GB ~ 4GB

3-1. Gemma 4 로컬 설치 가이드 (빠른 실행)

내 컴퓨터(로컬)에서 AI를 구동하면 개인정보 유출 걱정 없이 무료로 강력한 AI를 사용할 수 있습니다. 복잡한 코딩 없이 Ollama(올라마)라는 프로그램을 사용하면 클릭 몇 번만으로 설치가 끝납니다.

1단계: Ollama 설치

다운로드:
- Ollama 공식 홈페이지(ollama.com)에 접속하여 사용 중인 운영체제(Windows, Mac, Linux)에 맞는 버전을 다운로드하고 설치합니다.

Ollama

Ollama is the easiest way to automate your work using open models, while keeping your data safe.

ollama.com

명령어 입력:
- 설치가 완료되면 터미널(Windows는 cmd 또는 PowerShell, Mac은 Terminal)을 열고 본인 사양에 맞는 명령어를 입력 후 엔터를 칩니다.

# VRAM 8GB 이하 추천
ollama run gemma4:e2b

# VRAM 12GB 추천 (일반적인 게이밍 PC)
ollama run gemma4:e4b

# VRAM 16GB 이상 추천
ollama run gemma4:26b

2단계: 나만의 AI와 대화하기

모델 다운로드가 완료되면 터미널에 >>> 표시가 나타납니다. 이제 ChatGPT를 쓰듯 자유롭게 질문해 보세요!
프롬프트 창에 이미지 파일(jpg, png 등)을 마우스로 드래그 앤 드롭해서 넣고 "이 사진에 대해 설명해 줘"라고 질문하면 시각 인식 기능(멀티모달)도 경험할 수 있습니다.

3-2 구글 공식 홈페이지에서 제공하는 사용하기 방법

시작하기: 파이썬(Python) 환경에서 Gemma 4 사용법

최신 버전의 트랜스포머(Transformers) 라이브러리를 사용하면 모든 Gemma 4 모델을 손쉽게 로드하고 사용할 수 있습니다.

1. 필수 종속성 설치

시작하려면 환경에 필요한 라이브러리를 먼저 설치해야 합니다. 터미널에 아래 명령어를 입력해 주세요.

pip install -U transformers torch accelerate

2. 모델 로드하기

모든 항목을 설치한 후, 아래의 파이썬 코드를 사용하여 모델을 로드할 수 있습니다.

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E2B-it"

# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

3. 모델 출력 생성하기

모델이 성공적으로 로드되었다면, 다음 코드를 통해 질문을 던지고 답변(출력)을 생성할 수 있습니다.

# Prompt
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

# Process input
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# Parse thinking
processor.parse_response(response)

💡 참고: 추론(Thinking) 기능을 사용 설정하려면 apply_chat_template 내에서 enable_thinking=True로 설정하세요. 그러면 parse_response 함수가 사고 출력 파싱을 자동으로 처리합니다.

최상의 성능을 위한 권장사항 (Best Practices)

Gemma 4 모델의 성능을 100% 끌어내기 위해 아래의 구성과 권장사항을 따르는 것을 추천합니다.

1. 샘플링 파라미터

모든 사용 사례에서 다음의 표준화된 샘플링 구성을 사용하세요.

temperature = 1.0
top_p = 0.95
top_k = 64

2. 사고 모드 (Thinking Mode) 구성

Gemma 3와 비교할 때, 모델은 표준 system, assistant, user 역할을 사용합니다. 사고 과정을 적절하게 관리하려면 다음 제어 토큰을 사용하세요.

사고 트리거: 시스템 프롬프트 시작 부분에 <|think|> 토큰을 포함하면 사고가 사용 설정됩니다. 생각을 사용 중지하려면 토큰을 삭제하세요.
표준 생성: 사고가 사용 설정된 경우, 모델은 이 구조를 사용하여 내부 추론과 최종 답변을 출력합니다.
```
<|channel>thought\n[내부 추론]<channel|>
```
사고 행동 사용 중지: E2B 및 E4B 변형을 제외한 모든 모델의 경우, 사고가 사용 중지되면 모델은 여전히 태그를 생성하지만 사고 블록은 비어 있습니다.
```
<|channel>thought\n<channel|>[최종 답변]
```

(참고: 트랜스포머 및 llama.cpp와 같은 많은 라이브러리에서 채팅 템플릿의 복잡성을 알아서 처리해 줍니다.)

3. 멀티턴 대화 시 주의사항

기록에 사고 콘텐츠 없음: 멀티턴 대화에서 기록 모델 출력에는 최종 대답만 포함되어야 합니다. 이전 모델의 턴에서 나온 생각(추론 과정)은 다음 사용자 턴이 시작되기 전에 추가되지 않아야 합니다.

4. 입력 형식 순서 (멀티모달)

멀티모달 입력을 최적의 성능으로 사용하려면, 프롬프트에서 이미지 또는 오디오 콘텐츠를 텍스트 앞에 배치하세요.

5. 가변 이미지 해상도 활용

다양한 가로세로 비율 외에도 Gemma 4는 구성 가능한 시각적 토큰 예산을 통해 다양한 이미지 해상도를 지원합니다. 이 예산은 이미지를 나타내는 데 사용되는 토큰 수를 제어합니다.

특징: 토큰 예산이 높을수록 추가 컴퓨팅 비용이 발생하지만 시각적 세부정보가 더 많이 보존되고, 예산이 낮을수록 세부적인 이해가 필요하지 않은 작업의 추론 속도가 빨라집니다.
지원되는 토큰 예산: 70, 140, 280, 560, 1120
낮은 예산 추천: 빠른 추론과 많은 프레임 처리가 세부적인 디테일보다 중요한 분류, 자막, 동영상 이해 작업.
높은 예산 추천: OCR, 문서 파싱, 작은 텍스트 읽기와 같이 세밀함이 필요한 작업.

6. 오디오 처리 프롬프트 구조

오디오 처리에는 다음 프롬프트 구조를 사용하는 것이 좋습니다.

[자동 음성 인식 (ASR)]

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:

Only output the transcription, with no newlines.

When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

[자동 음성 번역 (AST)]

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}. When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. 오디오 및 동영상 길이 제한

모든 모델은 이미지 입력을 지원하고 동영상을 프레임으로 처리할 수 있지만, E2B 및 E4B 모델은 오디오 입력도 추가로 지원합니다.

오디오: 최대 30초 지원
동영상: 이미지가 초당 1프레임(1fps)으로 처리된다고 가정할 때 최대 60초 지원

모델 데이터 및 학습 배경

Gemma 4 모델의 학습에 사용된 데이터와 데이터 처리 방식은 다음과 같습니다.

[학습 데이터 세트] Google의 사전 학습 데이터 세트는 2025년 1월 컷오프 날짜를 기준으로 웹 문서, 코드, 이미지, 오디오 등 다양한 도메인과 모달리티를 포괄하는 대규모의 다양한 데이터 모음입니다. 주요 구성요소는 다음과 같습니다.

🌐 웹 문서: 다양한 웹 텍스트를 통해 모델이 광범위한 언어 스타일, 주제, 어휘에 노출됩니다. 학습 데이터 세트에는 140개 이상의 언어로 된 콘텐츠가 포함되어 있습니다.
💻 코드: 모델에 코드를 노출하면 프로그래밍 언어의 문법과 패턴을 학습하여 코드를 생성하고 코드 관련 질문을 이해하는 능력이 향상됩니다.
📐 수학: 수학 텍스트에 대한 학습을 통해 모델이 논리적 추론, 기호 표현을 학습하고 수학적 질문에 대답할 수 있습니다.
🖼️ 이미지: 다양한 이미지를 통해 모델이 이미지 분석 및 시각적 데이터 추출 작업을 실행할 수 있습니다.

이러한 다양한 데이터 소스를 결합하는 것은 여러 작업과 데이터 형식을 처리할 수 있는 강력한 멀티모달 모델을 학습하는 데 매우 중요한 역할을 합니다.

4. 실제 간단한 테스트 해보기

1) 다운로드 완료 화면

2) 질문 해보기

알아서 마크다운 형식으로 말해주네요! 일단 제 컴퓨터랑 노트북 환경에 설치하고 내일부터 본격 성능 테스트를 해볼 예정입니다!

블로그 2탄으로 정리해볼게욥!!

3) E4B GPU 사용량

4) 긴 글 블로그 던져서 3줄 요약 시키기

제가 최근에 모델 분석한 블로그 내용을 통채로 줬더니 속도도 굉장히 빠르고 분석 및 요약도 괜찮게 나왔습니다. 일부러 "위 내용 3줄 요약해봐" 라는 단순한 프롬프팅에도 괜찮은 성능이 나왔습니다!! 세상이 너무 빨리 발전해요!!

5. 개발자 모드: Python 환경에서 프로젝트 시 할 수 있는 일

단순히 Ollama로 채팅하는 것을 넘어, Python 환경(transformers 라이브러리 등)을 구축하면 Gemma 4를 마치 찰흙처럼 내 프로젝트 입맛에 맞게 빚어낼 수 있습니다.

파이썬 환경(Hugging Face transformers 라이브러리)에서 개발용으로 세밀하게 컨트롤하고 싶으시다면 다음 코드를 활용해 보세요.

# 필수 라이브러리 설치: pip install torch accelerate transformers
from transformers import AutoProcessor, AutoModelForMultimodalLM

# 사용할 모델 지정 (4070 추천 모델)
MODEL_ID = "google/gemma-4-E4B-it"

# 모델 로드 (디바이스 맵을 auto로 주면 자동으로 GPU VRAM에 할당됨)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto"
)
processor = AutoProcessor.from_pretrained(MODEL_ID)

print("Gemma 4 모델이 GPU에 성공적으로 로드되었습니다!")
# 이후 processor를 통해 텍스트/이미지를 입력하고 model.generate()로 결과를 뽑습니다.

5-1 파인튜닝 (Fine-Tuning): 내 비즈니스에 맞는 AI로 재학습

가장 강력한 기능입니다. Gemma 4의 기본 지식에 내가 가진 '특정 도메인의 데이터'를 주입하여 전문가로 만드는 과정입니다.

무엇을 할 수 있나?
- 특정 말투 학습: 고객센터 챗봇을 만들 때, 회사의 공식 톤앤매너(친절함, 특정 존릿말 사용 등)를 학습시킬 수 있습니다.
- 전문 지식 습득: 법률 판례, 의료 기록, 특정 게임의 세계관 등 모델이 원래 몰랐던 딥한 지식을 문답 형식으로 학습시킵니다.
어떻게 하나요? (LoRA / QLoRA 활용)
- 방대한 모델 전체를 학습시키는 것은 개인 PC에서 불가능에 가깝습니다. 따라서 PEFT(Parameter-Efficient Fine-Tuning) 기법인 LoRA나 QLoRA를 사용합니다.
- 이는 모델의 핵심 뼈대는 유지한 채, 겉에 얇은 '지식의 층(Adapter)'만 덧대어 학습시키는 방식으로, RTX 4070 같은 일반적인 GPU에서도 충분히 파인튜닝이 가능하게 해줍니다. (Unsloth 같은 라이브러리를 사용하면 속도와 메모리 효율이 극대화됩니다.)

5-2 RAG (검색 증강 생성): 환각(Hallucination) 없는 정보 제공

파인튜닝은 '지식'을 학습시키는 것이라면, RAG는 AI에게 '참고서'를 쥐여주는 것입니다.

무엇을 할 수 있나?
- 수백 페이지의 사내 규정집 PDF, 제품 매뉴얼, 혹은 최신 뉴스 기사를 데이터베이스(Vector DB)에 넣어둡니다.
- 사용자가 질문하면, AI가 먼저 데이터베이스에서 관련 내용을 검색한 뒤, 그 내용을 바탕으로 답변을 생성합니다.
- 거짓말(환각)을 현저히 줄이고, 출처를 명확히 밝히는 신뢰성 있는 사내 챗봇이나 문서 분석 도구를 만들 때 필수적입니다.

5-3 Function Calling 및 Agent 개발: 행동하는 AI 만들기

Gemma 4는 외부 도구를 자율적으로 사용할 수 있는 추론 능력이 뛰어납니다.

무엇을 할 수 있나?
- 단순히 텍스트만 뱉는 게 아니라, 날씨 API를 호출해서 현재 날씨를 알려주거나, 사내 DB 시스템에 접근해 특정 사용자의 구매 내역을 조회하여 답변에 활용하도록 만들 수 있습니다.
- LangChain이나 LlamaIndex 같은 프레임워크와 결합하여 자율적으로 목표를 달성하는 AI 에이전트(Agent)를 구축할 수 있습니다.

5-4 나만의 API 서버 구축

개발자 모드로 모델을 로드하면 FastAPI나 Flask 같은 웹 프레임워크를 이용해 나만의 AI 서버를 띄울 수 있습니다. 이를 통해 웹 사이트, 모바일 앱, 카카오톡/디스코드 봇 등에 Gemma 4의 지능을 이식할 수 있습니다.

'1. AI 논문 + 모델 분석 > AI 모델 분석' 카테고리의 다른 글

[개인 공부] MDER-MA: 멀티모달 "개인 성능 연구 블로그" - 97.3% (0)	2026.04.03
[LLaVA] 학습 스크립트로 보는 멀티모달 모델의 구현 원리 (0)	2026.02.20
[OCR] PaddleOCR 축산물 이력번호 인식 모델 학습 성공 과정 (0)	2026.02.07
[Meat-A-Eye] 파인튜닝을 통한 정확도 70% → 90% 개선 정리 (0)	2026.02.05
[OCR] PaddleOCR Rec 학습 원리 및 소량 데이터 분석 (0)	2026.02.04

1. Gemma 4 성능 및 특징 핵심 요약

2. 환경 분석 및 모델 추천

3-1. Gemma 4 로컬 설치 가이드 (빠른 실행)

1단계: Ollama 설치

2단계: 나만의 AI와 대화하기

3-2 구글 공식 홈페이지에서 제공하는 사용하기 방법

시작하기: 파이썬(Python) 환경에서 Gemma 4 사용법

1. 필수 종속성 설치

2. 모델 로드하기

3. 모델 출력 생성하기

최상의 성능을 위한 권장사항 (Best Practices)

1. 샘플링 파라미터

2. 사고 모드 (Thinking Mode) 구성

3. 멀티턴 대화 시 주의사항

4. 입력 형식 순서 (멀티모달)

5. 가변 이미지 해상도 활용

6. 오디오 처리 프롬프트 구조

7. 오디오 및 동영상 길이 제한

모델 데이터 및 학습 배경

4. 실제 간단한 테스트 해보기

5. 개발자 모드: Python 환경에서 프로젝트 시 할 수 있는 일

5-1 파인튜닝 (Fine-Tuning): 내 비즈니스에 맞는 AI로 재학습

5-2 RAG (검색 증강 생성): 환각(Hallucination) 없는 정보 제공

5-3 Function Calling 및 Agent 개발: 행동하는 AI 만들기

5-4 나만의 API 서버 구축

'1. AI 논문 + 모델 분석 > AI 모델 분석' 카테고리의 다른 글

티스토리툴바