안녕하세요! 요즘 맥북을 사고 LLM 모델에 대해서 연구하는게 너무 재밌네요! 최신 모델들에 대해서 탐구하고, 계속 공부하고 찾아보고 적용해보는 재미가 너무 행복한 것 같습니다! 이번엔 Qwen 팀이 공개한 최신 오픈소스 모델인 Qwen3.6-35B-A3B에 대한 개념적 정리와 Ollama 환경에서의 실행 방법을 정리해 드립니다!
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF
unsloth/Qwen3.6-35B-A3B-GGUF · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
huggingface.co
1. Qwen3.6-35B-A3B 모델 개요
Qwen3.6-35B-A3B는 Qwen3.5 시리즈 이후 공개된 첫 번째 오픈 가중치 모델로, 커뮤니티 피드백을 반영하여 안정성과 실제 개발 도구로서의 유용성을 중점적으로 개선했습니다. 이 모델은 단순한 텍스트 생성을 넘어, 복잡한 코딩 작업과 에이전트(Agent) 역할을 수행하는 데 최적화되어 있습니다.
핵심 아키텍처 및 특징
- 혼합 전문가(MoE) 구조
- 총 350억 개의 파라미터를 보유하고 있으나, 입력마다 약 30억 개의 파라미터만 활성화됩니다. 이를 통해 높은 추론 속도와 메모리 효율성을 달성했습니다.
- 하이브리드 어텐션 메커니즘
- Gated DeltaNet과 Gated Attention을 결합한 독특한 레이어 구조를 채용하여, 긴 컨텍스트 처리 능력과 계산 효율성을 동시에 개선했습니다.
- 초장문 컨텍스트 지원
- 기본 컨텍스트 길이는 262,144 토큰이며, RoPE 스케일링 기법을 활용하면 최대 1,010,000 토큰까지 확장 가능합니다. 이는 방대한 코드베이스나 긴 문서를 한 번에 분석하는 데 유리합니다.
- Think-Preserve 기능
- 이전 대화의 추론(Thinking) 과정을 유지하여, 복잡한 다단계 개발 작업에서 일관된 의사결정을 돕습니다.
주요 성능 및 기능

알리바바에서 체크해서 나온 벤치마크에선 최근에 나온 gemma4 보다 좋다고 합니다. 물론 실제 사용해 봐야 알 거 같습니다!
- Agentic Coding
- 프론트엔드 워크플로우 및 리포지토리 수준의 추론에서 기존 모델 대비 향상된 정밀도를 보입니다.
- SWE-bench Verified 벤치마크에서 73.4점을 기록하며 강력한 코딩 에이전트 능력을 입증했습니다.
- 도구 호출(Tool Calling)
- 중첩된 객체 파싱을 개선하여 외부 도구 사용의 안정성을 높였습니다.
- 멀티모달 지원
- 텍스트뿐만 아니라 이미지 및 비디오 이해 능력도 갖추고 있습니다.
2. Ollama를 통한 로컬 실행 방법
Ollama는 로컬 환경에서 LLM을 쉽게 실행할 수 있는 도구입니다. 현재 Qwen3.6-35B-A3B 모델은 GGUF 포맷으로 제공되며, Ollama의 라이브러리 기능이나 Hugging Face에서 다운로드한 GGUF 파일을 직접 불러와서 실행할 수 있습니다.
2-1 준비 사항
- Ollama 설치 환경: Linux, macOS, Windows 지원
- VRAM 사양: GPU 권장 24GB 이상 (양자화 버전 사용 시 16GB에서도 가능)
2-2 실행 방법
1) Ollama 설치
먼저 공식 웹사이트(ollama.com)에서 운영체제에 맞는 설치 파일을 다운로드하여 설치합니다. 설치 후 터미널에서 다음 명령어로 설치를 확인합니다.
ollama --version
2) 모델 실행 (추천: 라이브러리 사용)
Ollama 공식 라이브러리에 모델이 등록되어 있다면 다음 명령어로 즉시 실행 가능합니다.
ollama run qwen3.6:35b-a3b
3) Hugging Face GGUF 모델을 Ollama에서 실행하는 방법
GGUF 파일을 직접 다운로드하여 실행하려면 다음 과정을 따릅니다.
① GGUF 파일 다운로드 Hugging Face의 Qwen/Qwen3.6-35B-A3B 저장소 'Files and versions' 탭에서 GGUF 파일을 다운로드합니다. 메모리가 제한적이라면 4비트 양자화 버전(Q4_K_M 등)을 권장합니다.
unsloth/Qwen3.6-35B-A3B-GGUF · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
huggingface.co
② Modelfile 생성 다운로드한 파일과 같은 디렉토리에 Modelfile을 생성하고 아래 내용을 입력합니다.
FROM ./Qwen3.6-35B-A3B-Q4_K_M.gguf
# 필요시 컨텍스트 길이 조정 (기본 128K, 최대 256K 등)
PARAMETER num_ctx 131072
# 시스템 프롬프트 설정 (선택사항)
SYSTEM """You are a helpful coding assistant."""
③ Ollama 모델 생성 터미널에서 다음 명령어를 실행합니다.
ollama create my-qwen3.6 -f Modelfile
④ 모델 실행
ollama run my-qwen3.6
최적화 팁
- 양자화 선택: 16비트(FP16)는 가장 정확하지만 메모리를 많이 사용합니다. 4비트(Q4_K_M)는 성능 저하가 미미하면서도 메모리 효율이 높아 로컬 실행에 적합합니다.
- 컨텍스트 길이: 긴 코드를 분석하려면 num_ctx 파라미터를 늘리되, GPU 메모리 부족(OOM)이 발생하면 줄여야 합니다.
- 추론 모드: Qwen3.6은 기본적으로 'Thinking Mode'로 동작합니다. 빠른 응답이 필요하면 API 호출 시 enable_thinking: False 옵션을 사용하거나, 시스템 프롬프트에서 명시적으로 지시할 수 있습니다.
- 공식 사이트나 허깅 페이스에 올린 글 꼭 참고하기!
- 모델별로 최적화된 권장하는 파라미터 설정이 있습니다. 꼭 확인해주세요!

이 가이드를 통해 Qwen3.6-35B-A3B의 강력한 에이전트 코딩 능력을 로컬 환경에서 효과적으로 활용하시길 바랍니다!
'5. [개인] 프로젝트 및 공모전 > 4-5 나만의 로컬 LLM 멀티 에이전트 구축' 카테고리의 다른 글
| [나만의 LLM 환경 구축] 현재 바이브 코딩 세팅 변경점 공유 및 정리 (0) | 2026.04.25 |
|---|---|
| [나만의 LLM 환경 구축] Ollama + Continue로 로컬 LLM 개발 환경 구축하기 (바이브 코딩 적용 정리) (0) | 2026.04.20 |
| [개인 LLM 구축] 나만의 개인 로컬 LLM 구축하기(1) (0) | 2026.04.17 |