[AgentShield] 프로젝트 후 코드 분석 및 연구 (3): 판정 에이전트 아키텍처 변화 과정
·
4. [팀] 프로젝트 및 공모전/4-5 AgentShield(보안 플랫폼)
안녕하세요! 오늘은 판정 에이전트(Judge Agent)의 아키텍처가 어떻게 변해왔는지를 기록하는 블로그 입니다. 단순 if-else 구조에서 시작해서, 3레이어 규칙 기반 구조를 거쳐, 최종적으로 LangGraph 기반 멀티 에이전트 합의 구조에 도달하기까지의 과정과 그 이유들에 대해서 정리해보겠습니다.1. 개요 및 판정에이전트에 대해서 정리아키텍쳐를 알아보기 위해서 판정에이전트에 대해서 살짝 알아볼 필요가 있다. 판정이 중요한 이유는 레드 에이전트가 아무리 강한 공격을 생성해도, 그 결과를 "취약이냐, 방어했냐"로 판정하는 것은 판정 에이전트의 몫이다. 판정이 틀리면 모든 게 틀어진다. 특히 파인튜닝과 맞물리면 문제가 심각해진다. 판정 에이전트가 오판을 내려 잘못된 공격문에 성공 판정이 붙으면, 그 ..
[AgentShield] 프로젝트 후 코드 분석 및 연구 (2): 레드 에이전트 강화 일지
·
4. [팀] 프로젝트 및 공모전/4-5 AgentShield(보안 플랫폼)
안녕하세요! 이번 글은 레드 에이전트의 공격 능력을 강화해온 과정을 기록한 글을 작성해보겠습니다. 파인튜닝 이전에 레드 에이전트 자체의 공격 전략, 프롬프트 구조, 판정 로직을 어떻게 바꿔왔는지를 중심으로 정리합니다.이전 글(연구 1편)이 "어떻게 학습시켰는가"에 집중했다면, 이번 글은 "학습시키기 전에 레드 에이전트를 어떻게 만들어왔는가"에 집중된 블로그 입니다.1. 개요 및 기존 방법처음 레드에이전트(공격 에이전트)는 단순했다. 시스템 프롬프트 공격 기법을 약 20개 나열, 규칙을 7개정도 줬다. 총 약 1,200자의 정도의 긴 지시문을 작성했다. 파인튜닝을 하기 전 낮은 모델로 테스트 및 연구를 하는 건 너무 무모하다. 일단 시스템 프롬프트 및 규칙을 안정화 시키고 넘어가는 방법을 택했다. 공격 프..
[AgentShield] 프로젝트 후 코드 분석 및 연구 (1): 모델 학습
·
4. [팀] 프로젝트 및 공모전/4-5 AgentShield(보안 플랫폼)
안녕하세요! 이 글은 프로젝트 후 제가 시험해보고 싶은 연구들이 아직 남아서 작성 기록을 남기려고 합니다!일단 코랩에서 진행 했던 red_agent의 학습 기록을 블로깅해보겠습니다! 하단에 상세 분석이 있습니다!1. 데이터셋 준비폴더 위치: data/finetuning/... 학습에 필요한 데이터셋은 변형 공격이 아닌 공격 그대로의 원본 형태의 공격프롬프트가 필요합니다.공격을 단순 성공한 강한 공격을 넣는다고 LLM은 더 강한 공격을 생성하지 않습니다. 오히려 특정 도메인에 취우치게 됩니다.그래서 저는 도메인을 큰 틀로 두고 원본 그대로의 공격프롬프트를 생성해봤습니다. 로컬 LLM으로 연결해서 강한 역할 프롬프트를 먼저 작성하고 후에 아래 모델을 사용해서 공격프롬프트를 뽑았습니다. https://hugg..