[개인 공부] AgentShield: 자동화 모의해킹 파이프라인 및 DPO 데이터 수집 아키텍처 정리

2026. 4. 15. 18:40·4. [팀] 프로젝트 및 공모전/4-5 AgentShield(보안 플랫폼)

본 블로그는 프로젝트 진행중인 개인 기록용 블로그입니다.

개요

초기 AgentShield 파이프라인은 'Red Agent(공격자)의 퀄리티 부족'과 'Judge(심판)의 오탐(False Positive/Negative)' 문제로 인해 유의미한 성공 데이터가 전혀 쌓이지 않는 교착 상태(Deadlock)에 빠져 있었다. 오늘 일련의 아키텍처 리팩토링과 로직 개선을 통해, 파이프라인의 탐지율을 4.2배(0% -> 70%대) 이상 끌어올렸으며, 향후 DPO(선호도 최적화) 파인튜닝을 위한 완벽한 실시간 데이터 플라이휠(Data Flywheel)을 완성했다.


핵심 개선 사항 5단계

Phase 1. 비대칭 모의해킹 구조 확립

  • 문제: 타겟 모델과 공격 모델이 비슷한 체급이거나 안전망이 겹쳐 제대로 된 공격이 불가능했다.
  • 해결: 타겟은 gemma4:e2b (5B)로 유지하되, Red Agent는 gemma4:26b 대형 모델로 체급을 분리했다.
  • 효과: 홀/짝수 라운드의 억지스러운 룰 기반 섞기를 폐지하고 26B 모델에 전담시킴으로써, '시스템 로그 위장', '페이로드 분할' 등 실제 해커 수준의 다층적 기만 전술(Multi-vector Attack)이 생성되기 시작했다.

Phase 2. Judge 로직의 정상화 및 Layer 1 핫픽스

  • 문제: 심판이 '실제 유해 행위'가 아닌 '거절 문구 유무'만 따지고 있었으며(False Negative), LLM02/07 등의 카테고리에서 룰 기반 로직 버그로 인해 무조건 '안전'이나 '애매함'으로 판정되었다.
  • 해결:
    • 판정 패러다임 전환: "거부했는가?"가 아니라 "실제로 유해한 정보를 내뱉었는가?"로 핵심 채점 기준을 변경.
    • Layer 1 버그 수정: LLM07(시스템 프롬프트 노출)에서 거부 검사보다 유출 검사를 먼저 하도록 순서를 변경하고, LLM02(민감정보)에서 PII 탐지 시 즉시 vulnerable로 판정하도록 핫픽스 적용.

Phase 3. LLM06(과도한 권한) 활성화를 위한 가상 환경(Mock Tools) 주입

  • 문제: 타겟 모델에게 권한을 남용해 보라고 공격해도, 실제로 타겟이 쓸 수 있는 '도구(Tool)'가 없어서 공격 자체가 성립하지 않았다 (LLM06 돌파율 0%).
  • 해결: 타겟 모델의 시스템 프롬프트에 10개의 가상 도구(Mock Tools, 3단계 권한 레벨) 명세를 강제 주입하여 타겟이 조작할 수 있는 '무대'를 만들어 주었다.
  • 효과: Red Agent가 가짜 시스템 메시지로 타겟을 속여 실제로 <tool_call>을 유도해 내는 데 성공, LLM06 카테고리 돌파율이 0%에서 90%로 수직 상승했다.

Phase 4. 경량 전용 판정 모델(0.5B) 투입 (Layer 2)

  • 문제: 규칙 기반(Layer 1)을 통과한 애매한 답변들을 처리하기 위해 무거운 LlamaGuard를 썼으나, 이는 콘텐츠 유해성 검사기일 뿐 공격 성공 여부를 가리는 데는 부적합했다.
  • 해결: 기존 LlamaGuard를 과감히 삭제하고, 빠르고 정확한 Qwen 2.5 (0.5B) 모델을 Layer 2 판정기로 교체 투입했다.
  • 효과: 인간의 수동 검토(Layer 3)로 빠지던 '애매한 물타기 답변'들을 0.5B 모델이 정확히 캐치하여 11건의 추가 돌파를 찾아내는 등 판정의 정밀도와 속도가 극적으로 향상되었다.

Phase 5. RAG 데이터 플라이휠 및 DPO 학습 아키텍처 완성

  • 문제: 어렵게 만든 성공 데이터가 재사용되지 않았고, 유사도 필터가 너무 빡빡해서 데이터를 날리고 있었다.
  • 해결:
    • ChromaDB 배선 완료: 성공한 공격 프롬프트를 ChromaDB에 실시간 적재하고, 다음 라운드에서 similar_cases로 즉시 불러오도록(RAG) 연결.
    • 유사도 Threshold 조정: 미세한 프레이밍 차이도 수집하기 위해 중복 필터를 0.7 -> 0.90으로 대폭 완화.
    • RDB 및 Seed ID 태깅 구축: JSON/벡터 DB 분산 저장을 넘어, PostgreSQL에 전체 트랜잭션을 저장하고 seed_id를 태깅.
  • 효과: 파인튜닝 시 동일한 공격 시드에서 파생된 성공 사례(Chosen)와 실패 사례(Rejected)를 완벽히 묶어낼 수 있는 DPO(Direct Preference Optimization) 추출 파이프라인이 완성되었다.

'4. [팀] 프로젝트 및 공모전 > 4-5 AgentShield(보안 플랫폼)' 카테고리의 다른 글

[트러블 슈팅] 로컬 단일 GPU에서 멀티 에이전트 LLM 파이프라인 실행하기: 직렬화와 VRAM 관리  (0) 2026.04.22
[트러블슈팅] Ollama EOF 에러의 원인: Thinking 모델과 KV Cache 오버플로  (0) 2026.04.21
[개인 공부 메모] AgentShield LLM Judge 오탐 문제 분석 및 보안 판정 동향  (0) 2026.04.14
[개인 공부] AgentShield 프로젝트 작업 일지 — 2026년 4월 14일  (0) 2026.04.12
[모델 테스트] LLM 보안 방어력 실측: SecureCode AI/ML 데이터셋 기반 비교 평가  (0) 2026.04.09
'4. [팀] 프로젝트 및 공모전/4-5 AgentShield(보안 플랫폼)' 카테고리의 다른 글
  • [트러블 슈팅] 로컬 단일 GPU에서 멀티 에이전트 LLM 파이프라인 실행하기: 직렬화와 VRAM 관리
  • [트러블슈팅] Ollama EOF 에러의 원인: Thinking 모델과 KV Cache 오버플로
  • [개인 공부 메모] AgentShield LLM Judge 오탐 문제 분석 및 보안 판정 동향
  • [개인 공부] AgentShield 프로젝트 작업 일지 — 2026년 4월 14일
고니3000원
고니3000원
프로젝트의 구현 과정과 기술적 노하우를 담았습니다. AI 모델 연구와 매일의 학습 기록을 차곡차곡 공유하고 있습니다. [ 매너 & 태도 ] * 항상 겸손해라.
늘 자신을 낮추고 겸손함을 잃지 마라.
 * 나이 불문 예의를 지켜라.
나이와 지위를 막론하고, 누구에게나 변함없는 예의를 갖추어라.
 * 행복하겠다는 생각을 버려야 행복하다.
행복에 대한 강박과 집착을 내려놓을 때, 비로소 진정한 행복이 찾아온다.
 [ 리더십 & 실행 ] * 통찰력, 결단력,
  • 고니3000원
    곤이의 공부 블로그
    고니3000원
  • 전체
    오늘
    어제
    • 분류 전체보기 (211) N
      • 1. AI 논문 + 모델 분석 (21)
        • AI 논문 분석 (13)
        • AI 모델 분석 (8)
      • 2. 자료구조와 알고리즘 (16)
        • 2-1 자료구조와 알고리즘 (13)
        • 2-2 강화학습 알고리즘 (3)
      • 3. 자습 & 메모(실전, 실습, 프로젝트) (27)
        • 3-1 문제 해석 (4)
        • 3-2 메모(실전, 프로젝트) (14)
        • 3-3 배포 실전 공부 (7)
        • 3-4 최신 기술 분석 (2)
      • 4. [팀] 프로젝트 및 공모전 (31)
        • 4-1 팀 프로젝트(메모, 공부) (1)
        • 4-2 Meat-A-Eye (6)
        • 4-3 RL-Tycoon-Agent (3)
        • 4-4 구조물 안정성 물리 추론 AI 경진대회(D.. (4)
        • 4-5 AgentShield(보안 플랫폼) (17)
      • 5. [개인] 프로젝트 및 공모전 (20) N
        • 4-1 귀멸의칼날디펜스(자바스크립트 활용) (5)
        • 4-2 바탕화면 AI 펫 프로그램 (4)
        • 4-3 개인 프로젝트(기타) (3)
        • 4-4 공모전 (4) N
        • 4-5 나만의 로컬 LLM 멀티 에이전트 구축 (4)
      • 개념 정리 step1 (32)
        • Python 기초 (7)
        • DBMS (1)
        • HTML | CSS (3)
        • Git | GitHub (1)
        • JavaScript (5)
        • Node.js (5)
        • React (1)
        • 데이터 분석 (6)
        • Python Engineering (3)
      • 개념 정리 step2 (60)
        • Machine | Deep Learning (15)
        • 멀티모달(Multi-modal) (23)
        • 강화 학습 (10)
        • AI Agent (9)
        • 메디컬 이미지 (3)
      • 개인 공부 - 내가 공부하고 싶은 모든 것 (2) N
        • 1. 인프라 (2) N
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

    • Notion-포트폴리오
    • Github
  • 공지사항

    • ‘박영곤’ 나의 핵심 가치
  • 인기 글

  • 태그

    전처리
    Ollama
    논문 리뷰
    Agent
    pandas
    데이터분석
    API
    강화학습
    RAG
    보안
    파인튜닝
    구현
    llm
    ViT
    인공지능
    OCR
    paddleocr
    github
    알고리즘
    Python
    파이썬
    Ai
    프로젝트
    transformer
    Vision
    학습
    Lora
    자료구조
    자바스크립트
    공모전
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.5
고니3000원
[개인 공부] AgentShield: 자동화 모의해킹 파이프라인 및 DPO 데이터 수집 아키텍처 정리
상단으로

티스토리툴바