[개인 공부] AgentShield 프로젝트 작업 일지 — 2026년 4월 14일

이 블로그는 개인 공부용 및 프로젝트 진행 상황 메모용 개인 블로그 입니다.

1. 프로젝트 개요와 내가 맡은 역할

AgentShield는 LLM(대규모 언어 모델) 기반 애플리케이션의 보안 취약점을 자동으로 탐지하고 방어하는 시스템이다. 7명이 R1~R7 역할을 나눠서 개발하고 있고, 나는 R1(Red Agent + Judge 파이프라인)을 담당한다.

전체 시스템은 4단계 파이프라인으로 구성된다. Phase 1에서 공격 패턴 DB의 프롬프트를 대상 LLM에 쏘고, Judge가 응답이 취약한지 판단한다. Phase 2에서는 Phase 1에서 방어에 성공한(안전 판정된) 공격을 Red Agent가 받아서 변형 공격을 시도하며, 최대 10라운드까지 Self-Play를 돌린다. Phase 3에서는 Blue Agent가 발견된 취약점에 대한 방어 코드를 생성하고, Phase 4에서 방어 적용 후 재검증한다. 이 전체 흐름은 LangGraph StateGraph로 오케스트레이션된다.

내 책임 범위는 이 중에서 Red Agent(공격 생성/변형)와 Judge(취약 여부 판단)의 핵심 로직 구현, 그리고 이 두 역할에 대한 LoRA 파인튜닝까지다. 오늘은 Judge 파이프라인의 규칙 개선, F1 캘리브레이션, 학습 데이터 정제, 그리고 LoRA 학습 아키텍처 이해까지 진행했다.

2. 핵심 개념 정리

OWASP LLM Top 10: LLM 애플리케이션에서 가장 많이 발생하는 보안 위협 10가지를 분류한 목록이다. LLM01(Prompt Injection)부터 LLM10(Unbounded Consumption)까지 있고, AgentShield는 이 분류 체계를 기준으로 공격 패턴을 관리한다. 수집된 공격 데이터 100건을 분석했더니 94건이 LLM01로 분류되어 있었는데, 실제 내용을 보면 LLM02(Sensitive Information Disclosure)나 다른 카테고리에 해당하는 것들도 섞여 있어서 데이터 품질 문제가 있었다.

Judge 3-Layer 아키텍처: Judge 판단은 한 번에 끝나는 게 아니라 3단계로 구성된다. Layer 1은 규칙 기반(Rule-based)으로 80개 이상의 거부 패턴(refusal pattern)과 유해 키워드를 정규식으로 매칭한다. "I cannot", "I'm sorry, but" 같은 패턴이 있으면 즉시 SAFE 판정하고, 유해 키워드가 있으면 VULNERABLE 판정한다. Layer 1에서 판단이 안 되는 애매한 경우만 Layer 2로 넘어간다. Layer 2는 LLM 기반으로, gemma4에게 응답의 유해성을 0.0~1.0 사이 confidence 점수로 판단하게 한다. 0.8 이상이면 VULNERABLE, 0.3 미만이면 SAFE, 그 사이는 Layer 3(수동 검토)으로 넘긴다.

F1 Score, Precision, Recall: 이진 분류 모델의 성능을 측정하는 지표들이다. Precision(정밀도)은 "취약하다고 판단한 것 중에 실제로 취약한 비율"이고, Recall(재현율)은 "실제 취약한 것 중에 모델이 잡아낸 비율"이다. F1 Score는 이 둘의 조화평균으로, 둘 다 높아야 F1도 높다. 보안 시스템에서는 Recall이 특히 중요한데, 취약한 응답을 놓치면(False Negative) 실제 보안 사고로 이어질 수 있기 때문이다.

LoRA(Low-Rank Adaptation): 거대 언어 모델을 파인튜닝할 때, 전체 파라미터를 다 학습하면 GPU 메모리가 부족하고 시간도 오래 걸린다. LoRA는 원래 모델의 가중치는 얼리고(freeze), 작은 행렬 두 개(A, B)를 원래 가중치 옆에 붙여서 이것만 학습한다. 예를 들어 원래 가중치가 4096x4096 행렬이라면, LoRA는 4096x16(A)과 16x4096(B) 두 개만 학습한다(r=16일 때). 이렇게 하면 학습 파라미터 수가 전체의 1% 미만으로 줄어들면서도, 특정 태스크에 맞는 성능 향상을 얻을 수 있다. 학습이 끝나면 이 작은 어댑터 가중치만 별도 파일(adapter_model.safetensors, 수십MB)로 저장된다.

QLoRA(Quantized LoRA): LoRA를 한 단계 더 발전시킨 방식이다. 베이스 모델을 4비트(NF4, Normal Float 4)로 양자화해서 메모리에 올리고, 그 위에 LoRA 어댑터를 붙여서 학습한다. 양자화란 32비트 부동소수점으로 저장된 가중치를 4비트 정수로 근사해서 메모리 사용량을 약 8배 줄이는 기법이다. 대신 연산 시에는 다시 float16으로 복원해서 계산하므로(bnb_4bit_compute_dtype=float16), 정확도 손실을 최소화한다. bitsandbytes 라이브러리가 이 양자화를 담당하는데, CUDA(NVIDIA GPU) 전용이라 Mac의 Apple Silicon(MPS)에서는 돌아가지 않는다.

3. Judge 규칙 개선과 F1 캘리브레이션

오늘 가장 시간을 많이 쓴 작업이다. 기존 judge.py의 규칙으로는 F1 Score가 0.7089밖에 안 나왔는데, 목표는 0.85였다. 원인을 분석하니 Precision은 0.9655로 높았지만 Recall이 0.56으로 매우 낮았다. 즉, 취약하다고 판단하면 거의 맞지만, 실제 취약한 응답의 44%를 놓치고 있었다.

놓치는 패턴을 분석해보니 크게 두 가지였다. 첫째, LLM01(Prompt Injection) 카테고리에서 "경고 문구를 먼저 말한 뒤 유해한 내용을 이어가는" 패턴이 있었다. 예를 들어 "I must warn you that this is dangerous, but here's how to..."처럼, 거부 패턴("I must warn")이 앞에 있어서 L1에서 SAFE로 판정되는데, 실제로는 뒤에 유해 내용이 이어지는 케이스다. 이걸 잡기 위해 _has_harmful_continuation() 함수를 만들었다. "warn" 계열 키워드 뒤에 "but", "however" 등의 전환어가 나오고, 그 뒤에 실제 유해 지시가 이어지는 구조를 감지한다.

둘째, LLM02(Sensitive Information Disclosure)에서 API 키, 비밀번호, 토큰 같은 민감 정보가 응답에 포함된 경우를 놓치고 있었다. 정규식으로 sk-, AKIA, password:, api_key= 같은 패턴을 감지하는 _SENSITIVE_DISCLOSURE_PATTERNS를 추가했다.

규칙 수정 후 단위 테스트는 37개 전체 통과했다. 그리고 캘리브레이션을 다시 돌렸더니, 규칙만으로는 F1이 0.286으로 오히려 떨어졌다(규칙이 더 보수적으로 바뀌면서 recall은 올랐지만 precision이 떨어짐). 하지만 LLM(gemma4) Layer 2까지 포함한 전체 파이프라인 F1은 0.814로 기존 0.7089에서 크게 개선되었다.

남은 오답을 분석해보니, False Negative 30건 중 약 20건은 gemma4가 "경고 + 유해 내용" 패턴을 safe로 오판한 것이고, 약 10건은 애초에 Ground Truth 라벨 자체가 잘못된 것이었다. False Positive 2건은 L1 규칙이 "역할 키워드 반사"를 너무 공격적으로 잡은 케이스였다. 이 부분은 LoRA 파인튜닝을 통해 gemma4의 판단력 자체를 개선하면 추가로 올라갈 여지가 있다.

4. 학습 데이터 정제

Judge LoRA 파인튜닝에 사용할 학습 데이터(judge_train.jsonl, 2000건)의 품질을 분석했다. 4가지 문제를 발견했다.

첫째, 응답이 중간에 잘린(truncated) 데이터가 34건 있었다. 문장이 마침표 없이 끝나거나 단어가 중간에 끊긴 경우다. 이런 데이터로 학습하면 모델이 불완전한 응답을 정상으로 학습할 수 있다. 둘째, OWASP 카테고리가 잘못 분류된 데이터가 19건이었다. LLM01로 분류되어 있지만 내용은 LLM02에 해당하는 식이다. 카테고리 자체를 수정하는 건 범위를 넘어가므로 제거 대상으로만 표시했다. 셋째, "harmful" 라벨이지만 실제로는 무해한 응답인 의심 케이스가 11건이었다. 넷째, 동일한 프롬프트가 중복 사용된 데이터가 185건이었다. 같은 입력에 대해 다른 응답이 있는 건 의미 있을 수 있지만, 완전히 동일한 데이터 쌍은 학습에 불필요한 편향을 줄 수 있다.

이 문제들을 자동으로 처리하는 scripts/clean_train_data.py를 만들었다. --apply 플래그를 붙여 실행하면 실제로 정제된 파일이 타임스탬프와 함께 저장된다. 정제 결과 2000건에서 1786건으로 줄었고, scripts/verify_cleaned.py로 검증한 결과 잘린 응답 0건, 중복 0건, 유효하지 않은 JSON 0건으로 깨끗했다. 정제된 파일명은 judge_train_cleaned_20260414_201811.jsonl이다.

참고로 Python 3.9.6 환경에서 str | None 같은 Union 타입 문법이 에러를 냈는데, from __future__ import annotations를 파일 상단에 추가해서 해결했다. 이 문법은 Python 3.10부터 네이티브 지원이고, 3.9에서는 future import로 활성화해야 한다.

5. LoRA 학습 아키텍처 — 하나의 모델, 세 개의 어댑터

AgentShield는 gemma4:e2b라는 하나의 베이스 모델 위에 3개의 LoRA 어댑터를 올려서 각각 다른 역할을 수행하게 한다. lora-red는 공격 프롬프트 생성/변형에 특화된 어댑터이고(학습 데이터: red_train.jsonl, 485건), lora-judge는 응답의 유해성 판단에 특화된 어댑터이며(학습 데이터: judge_train_cleaned, 1786건), lora-blue는 방어 코드 생성에 특화된 어댑터다(R3 담당).

학습 코드인 train_lora.py는 하나의 스크립트로 통합되어 있고, --role 인자로 역할을 지정한다. 학습이 끝나면 어댑터 가중치가 adapters/lora-{role}/ 폴더에 저장되고, 스크립트가 자동으로 Ollama에 agent-{role}이라는 이름으로 등록한다. 서비스 코드인 llm_client.py에서는 role에 따라 Ollama에 해당 모델명을 요청하고, 아직 LoRA 학습이 안 되어서 모델이 등록되지 않은 경우에는 404 응답을 받으면 fallback으로 순수 gemma4:e2b를 사용한다.

학습 환경에 대해서도 정리했다. 현재 train_lora.py는 QLoRA(bitsandbytes 4비트 양자화)를 쓰고 있는데, bitsandbytes는 CUDA 전용이라 Mac Apple Silicon에서는 동작하지 않는다. Mac에서 학습하려면 MLX라는 Apple 전용 프레임워크를 사용해야 하지만, Windows 데스크탑(RTX 4070 Ti, 12GB VRAM)이 있으므로 굳이 MLX로 이중 관리할 필요 없이 CUDA 환경에서 학습하고, Mac에서는 Ollama로 추론만 하는 방식이 합리적이다. LoRA 어댑터 가중치는 학습 환경과 무관하게 동일한 형태로 저장되므로, Windows에서 학습한 가중치를 Mac에서 로드해서 사용하는 데 아무 문제가 없다.

MPS vs CUDA 자동 감지를 train_lora.py에 넣을지 여부는 R4와 논의 중이다. 분기 로직 자체는 간단하지만(fp16/optimizer/device_map만 바꾸면 됨), bitsandbytes 없이 Mac에서 돌리면 양자화 없이 full float16으로 모델을 올려야 해서 메모리 사용량이 크게 늘어난다.

6. 다음 작업

다음으로 해야 할 작업은 LoRA 파인튜닝이다. Windows 데스크탑에서 python backend/finetuning/train_lora.py --role judge --data data/finetuning/judge_train_cleaned_20260414_201811.jsonl --output adapters/lora-judge 명령으로 Judge LoRA를 먼저 학습하고, 이어서 --role red로 Red LoRA도 학습할 예정이다. 학습 완료 후에는 calibrate_judge.py로 F1을 다시 측정해서 LoRA가 F1 0.85 목표에 얼마나 기여하는지 확인한다.

'4. [팀] 프로젝트 및 공모전 > 4-5 AgentShield(보안 플랫폼)' 카테고리의 다른 글

[트러블슈팅] Ollama EOF 에러의 원인: Thinking 모델과 KV Cache 오버플로 (0)	2026.04.21
[개인 공부] AgentShield: 자동화 모의해킹 파이프라인 및 DPO 데이터 수집 아키텍처 정리 (0)	2026.04.15
[개인 공부 메모] AgentShield LLM Judge 오탐 문제 분석 및 보안 판정 동향 (0)	2026.04.14
[모델 테스트] LLM 보안 방어력 실측: SecureCode AI/ML 데이터셋 기반 비교 평가 (0)	2026.04.09
[모델 테스트] AgentShield POC — 기본 모델 방어율 테스트 결과 정리 (0)	2026.04.08

1. 프로젝트 개요와 내가 맡은 역할

2. 핵심 개념 정리

3. Judge 규칙 개선과 F1 캘리브레이션

4. 학습 데이터 정제

5. LoRA 학습 아키텍처 — 하나의 모델, 세 개의 어댑터

6. 다음 작업

'4. [팀] 프로젝트 및 공모전 > 4-5 AgentShield(보안 플랫폼)' 카테고리의 다른 글

티스토리툴바