[나만의 LLM 환경 구축] Qwen3.6-35B-A3B 모델 개요 및 Ollama 실행 가이드 (2)

2026. 4. 19. 11:51·5. [개인] 프로젝트 및 공모전/4-5 나만의 로컬 LLM 멀티 에이전트 구축

안녕하세요! 요즘 맥북을 사고 LLM 모델에 대해서 연구하는게 너무 재밌네요! 최신 모델들에 대해서 탐구하고, 계속 공부하고 찾아보고 적용해보는 재미가 너무 행복한 것 같습니다! 이번엔 Qwen 팀이 공개한 최신 오픈소스 모델인 Qwen3.6-35B-A3B에 대한 개념적 정리와 Ollama 환경에서의 실행 방법을 정리해 드립니다!

 

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF

 

unsloth/Qwen3.6-35B-A3B-GGUF · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co


1. Qwen3.6-35B-A3B 모델 개요

Qwen3.6-35B-A3B는 Qwen3.5 시리즈 이후 공개된 첫 번째 오픈 가중치 모델로, 커뮤니티 피드백을 반영하여 안정성과 실제 개발 도구로서의 유용성을 중점적으로 개선했습니다. 이 모델은 단순한 텍스트 생성을 넘어, 복잡한 코딩 작업과 에이전트(Agent) 역할을 수행하는 데 최적화되어 있습니다.


 핵심 아키텍처 및 특징

  • 혼합 전문가(MoE) 구조
    • 총 350억 개의 파라미터를 보유하고 있으나, 입력마다 약 30억 개의 파라미터만 활성화됩니다. 이를 통해 높은 추론 속도와 메모리 효율성을 달성했습니다.
  • 하이브리드 어텐션 메커니즘
    • Gated DeltaNet과 Gated Attention을 결합한 독특한 레이어 구조를 채용하여, 긴 컨텍스트 처리 능력과 계산 효율성을 동시에 개선했습니다.
  • 초장문 컨텍스트 지원
    • 기본 컨텍스트 길이는 262,144 토큰이며, RoPE 스케일링 기법을 활용하면 최대 1,010,000 토큰까지 확장 가능합니다. 이는 방대한 코드베이스나 긴 문서를 한 번에 분석하는 데 유리합니다.
  • Think-Preserve 기능
    • 이전 대화의 추론(Thinking) 과정을 유지하여, 복잡한 다단계 개발 작업에서 일관된 의사결정을 돕습니다.

주요 성능 및 기능

알리바바에서 체크해서 나온 벤치마크에선 최근에 나온 gemma4 보다 좋다고 합니다. 물론 실제 사용해 봐야 알 거 같습니다!
  • Agentic Coding
    • 프론트엔드 워크플로우 및 리포지토리 수준의 추론에서 기존 모델 대비 향상된 정밀도를 보입니다.
    • SWE-bench Verified 벤치마크에서 73.4점을 기록하며 강력한 코딩 에이전트 능력을 입증했습니다.
  • 도구 호출(Tool Calling)
    • 중첩된 객체 파싱을 개선하여 외부 도구 사용의 안정성을 높였습니다.
  • 멀티모달 지원
    • 텍스트뿐만 아니라 이미지 및 비디오 이해 능력도 갖추고 있습니다.

2. Ollama를 통한 로컬 실행 방법

Ollama는 로컬 환경에서 LLM을 쉽게 실행할 수 있는 도구입니다. 현재 Qwen3.6-35B-A3B 모델은 GGUF 포맷으로 제공되며, Ollama의 라이브러리 기능이나 Hugging Face에서 다운로드한 GGUF 파일을 직접 불러와서 실행할 수 있습니다.

2-1 준비 사항

  • Ollama 설치 환경: Linux, macOS, Windows 지원
  • VRAM 사양: GPU 권장 24GB 이상 (양자화 버전 사용 시 16GB에서도 가능)

2-2 실행 방법

1) Ollama 설치

먼저 공식 웹사이트(ollama.com)에서 운영체제에 맞는 설치 파일을 다운로드하여 설치합니다. 설치 후 터미널에서 다음 명령어로 설치를 확인합니다.

ollama --version

2) 모델 실행 (추천: 라이브러리 사용)

Ollama 공식 라이브러리에 모델이 등록되어 있다면 다음 명령어로 즉시 실행 가능합니다.

ollama run qwen3.6:35b-a3b

 

3) Hugging Face GGUF 모델을 Ollama에서 실행하는 방법

GGUF 파일을 직접 다운로드하여 실행하려면 다음 과정을 따릅니다.

① GGUF 파일 다운로드 Hugging Face의 Qwen/Qwen3.6-35B-A3B 저장소 'Files and versions' 탭에서 GGUF 파일을 다운로드합니다. 메모리가 제한적이라면 4비트 양자화 버전(Q4_K_M 등)을 권장합니다.

 

unsloth/Qwen3.6-35B-A3B-GGUF · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

 

② Modelfile 생성 다운로드한 파일과 같은 디렉토리에 Modelfile을 생성하고 아래 내용을 입력합니다.

FROM ./Qwen3.6-35B-A3B-Q4_K_M.gguf

# 필요시 컨텍스트 길이 조정 (기본 128K, 최대 256K 등)
PARAMETER num_ctx 131072

# 시스템 프롬프트 설정 (선택사항)
SYSTEM """You are a helpful coding assistant."""

 

③ Ollama 모델 생성 터미널에서 다음 명령어를 실행합니다.

ollama create my-qwen3.6 -f Modelfile

 

④ 모델 실행

ollama run my-qwen3.6

최적화 팁

  • 양자화 선택: 16비트(FP16)는 가장 정확하지만 메모리를 많이 사용합니다. 4비트(Q4_K_M)는 성능 저하가 미미하면서도 메모리 효율이 높아 로컬 실행에 적합합니다.
  • 컨텍스트 길이: 긴 코드를 분석하려면 num_ctx 파라미터를 늘리되, GPU 메모리 부족(OOM)이 발생하면 줄여야 합니다.
  • 추론 모드: Qwen3.6은 기본적으로 'Thinking Mode'로 동작합니다. 빠른 응답이 필요하면 API 호출 시 enable_thinking: False 옵션을 사용하거나, 시스템 프롬프트에서 명시적으로 지시할 수 있습니다.
  • 공식 사이트나 허깅 페이스에 올린 글 꼭 참고하기!
    • 모델별로 최적화된 권장하는 파라미터 설정이 있습니다. 꼭 확인해주세요!
     


이 가이드를 통해 Qwen3.6-35B-A3B의 강력한 에이전트 코딩 능력을 로컬 환경에서 효과적으로 활용하시길 바랍니다!

'5. [개인] 프로젝트 및 공모전 > 4-5 나만의 로컬 LLM 멀티 에이전트 구축' 카테고리의 다른 글

[나만의 LLM 환경 구축] 현재 바이브 코딩 세팅 변경점 공유 및 정리  (0) 2026.04.25
[나만의 LLM 환경 구축] Ollama + Continue로 로컬 LLM 개발 환경 구축하기 (바이브 코딩 적용 정리)  (0) 2026.04.20
[개인 LLM 구축] 나만의 개인 로컬 LLM 구축하기(1)  (0) 2026.04.17
'5. [개인] 프로젝트 및 공모전/4-5 나만의 로컬 LLM 멀티 에이전트 구축' 카테고리의 다른 글
  • [나만의 LLM 환경 구축] 현재 바이브 코딩 세팅 변경점 공유 및 정리
  • [나만의 LLM 환경 구축] Ollama + Continue로 로컬 LLM 개발 환경 구축하기 (바이브 코딩 적용 정리)
  • [개인 LLM 구축] 나만의 개인 로컬 LLM 구축하기(1)
고니3000원
고니3000원
프로젝트의 구현 과정과 기술적 노하우를 담았습니다. AI 모델 연구와 매일의 학습 기록을 차곡차곡 공유하고 있습니다. [ 매너 & 태도 ] * 항상 겸손해라.
늘 자신을 낮추고 겸손함을 잃지 마라.
 * 나이 불문 예의를 지켜라.
나이와 지위를 막론하고, 누구에게나 변함없는 예의를 갖추어라.
 * 행복하겠다는 생각을 버려야 행복하다.
행복에 대한 강박과 집착을 내려놓을 때, 비로소 진정한 행복이 찾아온다.
 [ 리더십 & 실행 ] * 통찰력, 결단력,
  • 고니3000원
    곤이의 공부 블로그
    고니3000원
  • 전체
    오늘
    어제
    • 분류 전체보기 (212) N
      • 1. AI 논문 + 모델 분석 (21)
        • AI 논문 분석 (13)
        • AI 모델 분석 (8)
      • 2. 자료구조와 알고리즘 (16)
        • 2-1 자료구조와 알고리즘 (13)
        • 2-2 강화학습 알고리즘 (3)
      • 3. 자습 & 메모(실전, 실습, 프로젝트) (27)
        • 3-1 문제 해석 (4)
        • 3-2 메모(실전, 프로젝트) (14)
        • 3-3 배포 실전 공부 (7)
        • 3-4 최신 기술 분석 (2)
      • 4. [팀] 프로젝트 및 공모전 (31)
        • 4-1 팀 프로젝트(메모, 공부) (1)
        • 4-2 Meat-A-Eye (6)
        • 4-3 RL-Tycoon-Agent (3)
        • 4-4 구조물 안정성 물리 추론 AI 경진대회(D.. (4)
        • 4-5 AgentShield(보안 플랫폼) (17)
      • 5. [개인] 프로젝트 및 공모전 (21) N
        • 4-1 귀멸의칼날디펜스(자바스크립트 활용) (5)
        • 4-2 바탕화면 AI 펫 프로그램 (4)
        • 4-3 개인 프로젝트(기타) (3)
        • 4-4 공모전 (5) N
        • 4-5 나만의 로컬 LLM 멀티 에이전트 구축 (4)
      • 개념 정리 step1 (32)
        • Python 기초 (7)
        • DBMS (1)
        • HTML | CSS (3)
        • Git | GitHub (1)
        • JavaScript (5)
        • Node.js (5)
        • React (1)
        • 데이터 분석 (6)
        • Python Engineering (3)
      • 개념 정리 step2 (60)
        • Machine | Deep Learning (15)
        • 멀티모달(Multi-modal) (23)
        • 강화 학습 (10)
        • AI Agent (9)
        • 메디컬 이미지 (3)
      • 개인 공부 - 내가 공부하고 싶은 모든 것 (2)
        • 1. 인프라 (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

    • Notion-포트폴리오
    • Github
  • 공지사항

    • ‘박영곤’ 나의 핵심 가치
  • 인기 글

  • 태그

    인공지능
    구현
    Python
    강화학습
    공모전
    Vision
    ViT
    RAG
    프로젝트
    알고리즘
    전처리
    자료구조
    Lora
    paddleocr
    github
    파인튜닝
    Ai
    보안
    데이터분석
    Agent
    Ollama
    논문 리뷰
    OCR
    transformer
    pandas
    자바스크립트
    학습
    API
    llm
    파이썬
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.5
고니3000원
[나만의 LLM 환경 구축] Qwen3.6-35B-A3B 모델 개요 및 Ollama 실행 가이드 (2)
상단으로

티스토리툴바