[언어지능 딥러닝] [PyTorch] 강화 학습 — tildacoding

강화 학습 개요

강화 학습은 언제 쓰이는가

주어진 환경에서 가능한 여러 행동 시퀀스 중에서 보상을 최대화하는 최적의 경로를 찾는 것
필요한 주요 요소들이 행동(action) 과 보상(reward)
-> 특정 상태에서 가능한 행동을 선택하고, 그 선택에 대한 보상을 받으며, 이 정보를 바탕으로 최적의 정책을 학습함

** Q-Learning, Dynamic Programming 은 딥러닝이 본격적으로 발전하기 전에 나온 강화학습 및 최적화 기법이다. 본 수업에선 제외한다.

Markov Decision Process ppt 226부터

DRL 이론

DRL구현

'Dev > 언어지능 딥러닝' 카테고리의 다른 글

[언어지능 딥러닝] [PyTorch] Recurrent Neural Networks (RNN) (0)	2024.11.07

티스토리툴바