곤이의 공부 블로그

GitHub - gonida1010/CartPole-ACER-OffPolicy: OpenAI Gym의 CartPole 환경에 적용한 ACER (Actor-Critic with Experience ReplaOpenAI Gym의 CartPole 환경에 적용한 ACER (Actor-Critic with Experience Replay) 알고리즘의 PyTorch 구현체입니다. 이 저장소는 교육 목적으로 작성되었으며, Actor-Critic 기법의 학습 안정성과 경험 재생(Experience Rgithub.com1. ACER의 등장 배경: 기존 알고리즘의 한계ACER를 이해하려면 기존 Actor-Critic 계열 알고리즘(A2C, A3C)의 한계를 먼저 알아야 합니다.Actor-Critic / A2C / A3C의..

1. AI 에이전트(AI Agent)AI 에이전트는 환경으로부터 정보를 지각(Perception)하고, 주어진 목표를 달성하기 위해 의사결정(Decision Making)을 거쳐 적절한 행동(Action)을 수행하는 지능형 주체입니다. 단순히 입력된 명령어에 반응하는 일반적인 프로그램과 달리, 데이터와 경험을 바탕으로 학습하며 상황에 맞게 유연하게 적응할 수 있는 것이 가장 큰 특징입니다.최근의 AI 에이전트는 텍스트, 이미지, 음성 등을 동시에 이해하는 멀티모달(Multimodal) 모델을 기반으로 하며, 아래와 같은 핵심 기술들과 결합하여 그 실행 능력을 비약적으로 확장하고 있습니다.1-1. RAG (Retrieval-Augmented Generation)생성형 AI가 답변을 할 때 모델 내부 파라미..

PPO(Proximal Policy Optimization)는 강화학습에서 정책(Policy)을 안정적으로 업데이트하기 위해 제안된 정책 기반(Policy-based) 알고리즘입니다. 구현이 비교적 간단하면서도 안정성과 성능이 뛰어나 OpenAI Baselines, Stable-Baselines, RLlib 등 다양한 강화학습 프레임워크에서 기본 알고리즘으로 채택하고 있습니다.1. PPO (Proximal Policy Optimization)기존의 정책 경사(Policy Gradient) 방법은 정책을 한 번에 크게 업데이트할 경우 학습이 불안정해지는 치명적인 단점이 있었습니다. PPO는 정책이 이전 정책에서 너무 멀리 벗어나지 않도록 제한(Clip)하여 이 문제를 해결합니다.1.1 PPO가 등장한 이유..

강화학습에서 Actor-Critic 구조는 에이전트가 행동을 결정하는 정책(Actor)과 상태의 가치를 평가하는 함수(Critic)를 함께 학습하는 강력한 방법입니다. 이번 글에서는 이 구조를 발전시킨 세 가지 핵심 알고리즘인 A3C, A2C, ACER의 개념과 구현 코드를 정리해 보겠습니다.1. A3C (Asynchronous Advantage Actor-Critic)A3C는 여러 개의 에이전트(Worker)가 독립적인 환경에서 동시에 경험을 수집하고, 그 결과를 전역 신경망(Global Network)에 비동기적(Asynchronous)으로 업데이트하는 알고리즘입니다.논문: Asynchronous Methods for Deep Reinforcement Learning Asynchronous Metho..

[Project Meat-A-Eye] AWS EC2 인스턴스 생성 및 고정 IP 설정 가이드본 문서는 프로젝트의 백엔드 및 AI 모델 배포를 위해 AWS EC2 인스턴스를 생성하고, 외부 접속을 위한 네트워크 설정을 완료하는 과정을 단계별로 기록합니다.1. 인스턴스 생성 및 기본 설정경로: [AWS 관리 콘솔] -> [서비스 검색: EC2] -> [인스턴스 시작]1.1 이름 및 OS 이미지(AMI) 선택이름: Meat-A-Eye-Server (자유롭게 지정)AMI: [Ubuntu] 선택 -> [Ubuntu Server 24.04 LTS (HVM), SSD Volume Type] 확인참고: GPU 사용 시에는 Deep Learning OSS Nvidia Driver AMI를 선택하지만, 테스트를 위해 기본..

오늘은 현재 진행중인 DACON 공모전에 대해 진행 상황 및 모델 분석에 대해서 정리해본다. 이번 dinov2_large pretrain은 이전 붕괴 구간과 달리 정상적으로 학습되고 있다고 판단할 수 있다.val logloss가 0.6852 -> 0.4227 -> 0.3529 -> 0.3165 -> 0.3091 -> ... -> 0.1606으로 전반적으로 하락val acc가 0.6219 -> 0.7910 -> 0.8365 -> 0.8565 -> 0.8668 -> ... -> 0.9422로 상승warmup이 끝난 뒤 즉시 붕괴하지 않고, 오히려 지속적으로 개선됨train acc와 val acc가 함께 상승하고 있어 현재 시점에서는 학습이 깨진 것이 아니라 표현 학습이 안정적으로 진행 중임1. 학습 진행 상..

이 글은 Meat-A-Eye 프로젝트 배포 단계에서 겪은 개인 스터디(메모)용 블로그 입니다.1. AWS RDS 인스턴스 생성가장 먼저 클라우드상에 데이터베이스 서버를 대여하는 단계입니다.https://ap-northeast-2.console.aws.amazon.com/console/home?nc2=h_si&region=ap-northeast-2&src=header-signin https://ap-northeast-2.console.aws.amazon.com/console/home?nc2=h_si®ion=ap-northeast-2&src=header-signin ap-northeast-2.console.aws.amazon.com리전 설정: 반드시 아시아 태평양(서울)으로 설정하여 물리적 거리에 따른 지연..

강화학습에는 에이전트가 학습하는 크게 두 가지 접근 방식이 있습니다.가치 기반 (Value-Based): 행동의 가치(Q값)를 계산해서 가장 높은 가치의 행동을 고르는 방식정책 기반 (Policy-Based): 행동의 가치를 먼저 계산하는 것이 아니라, 상황(State)에 따라 어떤 행동을 할지 그 규칙(Policy) 자체를 직접 학습하는 방식이번 포스팅에서는 정책 기반 강화학습의 이론적 배경이 되는 Policy Gradient Theorem부터, 이를 구현한 REINFORCE 알고리즘, 그리고 가치 기반과 정책 기반의 장점을 합친 Actor-Critic 구조까지 정리해 보겠습니다.1. Policy Gradient Theorem 이란?Policy Gradient Theorem은 정책 기반 강화학습에서 "..

SAC 강화 학습 알고리즘에 대한 개념적인 부분과 실제 토이 프로젝트 강화 학습 실습 정리SAC 개념 정리 및 수학적 원리1. 최대 엔트로피 강화학습 (Maximum Entropy Reinforcement Learning)기존의 강화학습은 오직 '기대 보상의 총합'을 최대화하는 것만을 목표로 삼았습니다.$$J(\pi) = \sum_{t=0}^{T} \mathbb{E}_{(s_t, a_t) \sim \rho_\pi} [r(s_t, a_t)]$$하지만 SAC는 여기에 엔트로피(Entropy, $\mathcal{H}$)라는 개념을 더합니다. 엔트로피는 무작위성, 즉 '행동의 다양성'을 의미합니다. SAC의 궁극적인 목표 함수는 다음과 같이 정의됩니다.$$J(\pi) = \sum_{t=0}^{T} \mathbb..

티스토리툴바