[나만의 LLM 환경 구축] Ollama + Continue로 로컬 LLM 개발 환경 구축하기 (바이브 코딩 적용 정리)

안녕하세요!

기존에는 Ollama를 이용해 터미널에서 Modelfile을 기반으로 모델을 생성하고, ollama run 명령어로 단순 질의응답을 수행하는 방식으로 로컬 LLM을 활용했습니다. 근데 갑자기 떠올랐습니다. 바이브 코딩에도 사용할 수 있지 않나? 결국은 에이전트가 툴이 연결 된 형태일테니깐요! 그리고 평소 코파일럿을 애용했는데, 정책이 바뀌면서 이 참에 더 확고해졌습니다.

"내 로컬 AI (LLM) 환경을 구축해버리자!"

돈도 이제 안듭니다! 그리고 제 최종 목표인 각각의 프로젝트마다 특화된 파인튜닝 된 멀티 에이전트 구조에 더 가까이 다가가게 됩니다! 제 꿈은 크니깐요!

터미널 방식은 가볍고 직관적이지만, 코드 작성이나 프로젝트 단위 작업에는 한계가 있습니다.이 글에서는 기존 방식에서 한 단계 확장하여, VSCode 확장 도구인 Continue를 활용해 “바이브 코딩(Vibe Coding)” 환경을 구축하는 과정을 정리합니다.

1. 목표

로컬 LLM을 IDE에 연결
코드 기반 문맥(Context) 활용
자동완성, 분석, 에이전트 기반 작업 수행
커스텀 모델(Modelfile 기반)까지 통합

2. 기존 방식: Ollama 단독 사용

2.1 기본 개념

Ollama는 로컬에서 LLM을 실행할 수 있도록 해주는 런타임입니다. 사용자는 모델을 다운로드하고, 직접 실행하여 질의응답을 수행합니다.

ollama pull llama3.1:8b
ollama run llama3.1:8b

또는 커스텀 모델을 생성할 수도 있습니다.

ollama create my-model -f Modelfile

이 방식의 특징은 다음과 같습니다.

CLI 기반 사용
단일 프롬프트 중심
코드 문맥 이해 부족
자동화 기능 제한

3. 문제점과 한계

터미널 기반 사용은 다음과 같은 한계를 가집니다.

코드 전체 문맥을 반영하기 어렵습니다.
반복적인 프롬프트 입력이 필요합니다.
자동완성 기능이 없습니다.
여러 작업을 동시에 처리하기 어렵습니다.

이러한 문제를 해결하기 위해 IDE와의 통합이 필요합니다.

4. Continue란 무엇인가

Continue는 VSCode에서 동작하는 LLM 통합 확장 도구입니다. 로컬 모델(Ollama), 클라우드 모델(OpenAI 등)을 IDE에 연결하여 사용할 수 있습니다. 주요 기능은 다음과 같습니다.

Quality control for your software factory. | Continue

Source-controlled AI checks on every pull request. Standards as checks, enforced by AI, decided by humans.

www.continue.dev

Chat: 코드 기반 질의응답
Autocomplete: 코드 자동완성
Plan: 작업 계획 생성
Agent: 도구 기반 자동 작업 수행

5. Ollama와 Continue의 관계

VSCode (Continue)
        ↓
   Ollama API (localhost:11434)
        ↓
   Local LLM (llama, qwen 등)

구조는 위와 같습니다. Continue는 모델을 직접 실행하지 않습니다. 단지 Ollama 서버에 요청을 보내는 역할을 합니다.

6. 환경 구성 과정

6.1 모델 다운로드

ollama pull llama3.1:8b
ollama pull qwen2.5-coder:1.5b-base
ollama pull nomic-embed-text

커스텀 모델이 있다면 이미 ollama list에서 확인 가능합니다. -> 저는 이전에 create 한 modelfile을 사용합니다 😎

6.2 모델 동작 확인

ollama run llama3.1:8b

정상적으로 응답이 나오면 준비가 완료된 상태입니다.

7. Continue 설정 파일 구성

Continue는 ~/.continue/config.yaml 파일을 통해 모델을 관리합니다.

7.1 핵심 설정 구조

name: Local Config
version: 1.0.0
schema: v1

models:
  - name: Llama 3.1
    provider: ollama
    model: llama3.1:8b
    roles:
      - chat
      - edit
      - apply

  - name: Qwen Coder
    provider: ollama
    model: qwen2.5-coder:1.5b-base
    roles:
      - autocomplete

  - name: Goni Qwen
    provider: ollama
    model: goni-qwen:latest
    roles:
      - chat
      - edit
      - apply

  - name: Hauhau Qwen
    provider: ollama
    model: hauhau-qwen:latest
    roles:
      - chat
      - edit
      - apply

contextProviders:
  - provider: code
  - provider: terminal

embeddingsProvider:
  provider: ollama
  model: nomic-embed-text:latest

8. 중요한 개념 정리

8.1 schema: v1

이 설정이 없으면 Continue가 config 파일을 무시할 수 있습니다. 반드시 포함해야 합니다.

8.2 model vs name

model: Ollama에서 사용하는 실제 모델 이름
name: Continue UI에서 표시되는 이름

8.3 roles의 의미

roles는 모델의 역할을 정의합니다.

chat	일반 대화
edit	코드 수정
apply	코드 적용
autocomplete	자동완성

9. 커스텀 모델(Modelfile) 연결

Ollama에서 생성한 커스텀 모델은 별도의 설정 없이도 연결 가능합니다.

ollama list

출력에 포함되어 있다면 Continue에서도 사용할 수 있습니다. 단, config에 반드시 추가해야 합니다.

- name: Custom Model
  provider: ollama
  model: custom-model:latest
  roles:
    - chat

10. 바이브 코딩(Vibe Coding)이란

바이브 코딩은 단순한 코드 작성이 아니라, LLM과 협업하여 개발 흐름을 자연스럽게 이어가는 방식입니다. 특징은 다음과 같습니다.

코드 작성 중 자연스럽게 질문
문맥 기반 코드 생성
반복 작업 자동화
계획 → 실행 흐름 연결

11. Continue 모드별 특징

11.1 Chat

기본 질의응답, 대부분의 모델에서 동작

11.2 Plan

작업 단계 설계, 긴 컨텍스트 필요

11.3 Agent

코드 수정 및 실행 자동화, 고성능 모델 필요

12. 왜 Chat만 동작하는가

소형 모델의 한계 때문입니다. 예를 들어, llama3.1:8b, qwen coder 1.5b -> 이 모델들은 긴 문맥 처리, 복잡한 추론, 도구 사용

이 제한됩니다. 따라서 Plan, Agent 기능이 비활성화될 수 있습니다.

13. 해결 방법

13.1 고성능 모델 사용

단순 예시 입니다. 전 허깅페이스에서 저에게 맞는 모델을 찾아봐요!
모델 찾고 적용해 보는 재미가 있으니, 꼭 찾아보세요!

ollama pull qwen3:32b

또는

ollama pull llama3.1:70b

13.2 모델 역할 분리

용도모델

채팅	llama3.1
자동완성	qwen coder
분석	hauhau-qwen
실험	goni-qwen

14. Modelfile 최적화

커스텀 모델을 사용할 경우 다음 설정이 중요합니다.

PARAMETER num_ctx 8192
PARAMETER temperature 0.2

설명:

num_ctx: 처리 가능한 문맥 길이
temperature: 응답의 창의성 (낮을수록 안정적)

보안 분석이나 코드 작업에서는 낮은 temperature가 유리합니다.

15. 전체 흐름 정리

Ollama 모델 다운로드
모델 실행 확인
Continue config 설정
VSCode 리로드
모델 선택
Chat → Plan → Agent 순으로 활용

16. 결론

Ollama 단독 사용은 단순한 LLM 실행 환경입니다. Continue를 결합하면 IDE 기반 협업 환경으로 확장됩니다.

이 구조를 통해 다음이 가능해집니다.

코드 이해 기반 질의응답
자동완성
프로젝트 단위 분석
에이전트 기반 자동화

즉, 단순한 “모델 실행”에서 “개발 파트너”로의 전환이 이루어집니다.

'5. [개인] 프로젝트 및 공모전 > 4-5 나만의 로컬 LLM 멀티 에이전트 구축' 카테고리의 다른 글

[나만의 LLM 환경 구축] 현재 바이브 코딩 세팅 변경점 공유 및 정리 (0)	2026.04.25
[나만의 LLM 환경 구축] Qwen3.6-35B-A3B 모델 개요 및 Ollama 실행 가이드 (2) (0)	2026.04.19
[개인 LLM 구축] 나만의 개인 로컬 LLM 구축하기(1) (0)	2026.04.17

1. 목표

2. 기존 방식: Ollama 단독 사용

2.1 기본 개념

3. 문제점과 한계

4. Continue란 무엇인가

5. Ollama와 Continue의 관계

6. 환경 구성 과정

6.1 모델 다운로드

6.2 모델 동작 확인

7. Continue 설정 파일 구성

7.1 핵심 설정 구조

8. 중요한 개념 정리

8.1 schema: v1

8.2 model vs name

8.3 roles의 의미

9. 커스텀 모델(Modelfile) 연결

10. 바이브 코딩(Vibe Coding)이란

11. Continue 모드별 특징

11.1 Chat

11.2 Plan

11.3 Agent

12. 왜 Chat만 동작하는가

13. 해결 방법

13.1 고성능 모델 사용

13.2 모델 역할 분리

14. Modelfile 최적화

15. 전체 흐름 정리

16. 결론

'5. [개인] 프로젝트 및 공모전 > 4-5 나만의 로컬 LLM 멀티 에이전트 구축' 카테고리의 다른 글

티스토리툴바