Podcast
Questions and Answers
강화 학습(Reinforcement Learning, RL)이 주로 사용되는 모델의 종류는 무엇인가요?
강화 학습(Reinforcement Learning, RL)이 주로 사용되는 모델의 종류는 무엇인가요?
- 예측 모델 (Prediction models)
- 분류 모델 (Classification models)
- 생성 모델 (Generative models)
- 제어 모델 (Control models) (correct)
강화 학습에서 에이전트는 환경과 상호작용하지 않습니다.
강화 학습에서 에이전트는 환경과 상호작용하지 않습니다.
False (B)
강화 학습에서 에이전트가 학습하는 주된 목표는 무엇인가요?
강화 학습에서 에이전트가 학습하는 주된 목표는 무엇인가요?
- 무작위 행동을 생성하는 것
- 과거의 경험을 잊고 새로운 정보를 학습하는 것
- 예상되는 보상을 최대화하는 행동 정책을 학습하는 것 (correct)
- 환경을 변화시키지 않고 유지하는 것
Pac-Man 게임에서 강화 학습 에이전트의 관찰(observation)은 무엇으로 정의될 수 있나요?
Pac-Man 게임에서 강화 학습 에이전트의 관찰(observation)은 무엇으로 정의될 수 있나요?
강화 학습에서 '환경(environment)'이란 무엇을 의미하나요?
강화 학습에서 '환경(environment)'이란 무엇을 의미하나요?
주식 거래 시나리오에서 '에이전트'는 주식 시장 자체이다.
주식 거래 시나리오에서 '에이전트'는 주식 시장 자체이다.
자율 주행차 시나리오에서 '에이전트'는 ______(이)다.
자율 주행차 시나리오에서 '에이전트'는 ______(이)다.
다음 강화 학습 시나리오와 그에 따른 보상(reward)을 매칭하세요:
다음 강화 학습 시나리오와 그에 따른 보상(reward)을 매칭하세요:
강화 학습 방법론은 무엇을 극대화하는 행동 정책을 학습하는 방법론입니까?
강화 학습 방법론은 무엇을 극대화하는 행동 정책을 학습하는 방법론입니까?
강화 학습에서 'Markov Decision Process (MDP)'는 무엇을 위한 수학적 모델인가요?
강화 학습에서 'Markov Decision Process (MDP)'는 무엇을 위한 수학적 모델인가요?
마르코프 프로세스에서 현재 상태는 미래 상태와 과거 상태에 의존적이다.
마르코프 프로세스에서 현재 상태는 미래 상태와 과거 상태에 의존적이다.
마르코프 프로세스의 핵심 조건은 무엇이라고 불리나요?
마르코프 프로세스의 핵심 조건은 무엇이라고 불리나요?
마르코프 프로세스의 통계적 행동을 완전히 설명하는 것은 ______(이)다.
마르코프 프로세스의 통계적 행동을 완전히 설명하는 것은 ______(이)다.
Markov Decision Process (MDP)는 Markov process에 무엇이 추가된 형태인가요?
Markov Decision Process (MDP)는 Markov process에 무엇이 추가된 형태인가요?
MDP에서 상태 전이 확률은 무엇에 따라 달라지나요?
MDP에서 상태 전이 확률은 무엇에 따라 달라지나요?
MDP에서 모든 상태 전이는 항상 동일한 보상을 반환한다.
MDP에서 모든 상태 전이는 항상 동일한 보상을 반환한다.
강화 학습에서 최적 정책(optimal policy)을 찾는 방법은 무엇인가요?
강화 학습에서 최적 정책(optimal policy)을 찾는 방법은 무엇인가요?
Bellman 방정식은 ______을(를) 찾는 데 도움이 되는 방정식입니다.
Bellman 방정식은 ______을(를) 찾는 데 도움이 되는 방정식입니다.
Bellman 방정식에서 Q(s, a)는 무엇을 의미하나요?
Bellman 방정식에서 Q(s, a)는 무엇을 의미하나요?
Bellman 방정식에서 미래 행동은 어떤 정책을 따를 것이라고 가정하나요?
Bellman 방정식에서 미래 행동은 어떤 정책을 따를 것이라고 가정하나요?
할인율(discount factor)은 항상 1보다 커야 한다.
할인율(discount factor)은 항상 1보다 커야 한다.
할인율(discount factor)이 높은 값(예: 0.99)을 가질 때, 이는 무엇을 의미하나요?
할인율(discount factor)이 높은 값(예: 0.99)을 가질 때, 이는 무엇을 의미하나요?
CartPole에서 전형적인 할인율 값은 ______입니다.
CartPole에서 전형적인 할인율 값은 ______입니다.
강화 학습에서 즉각적인 보상과 미래 보상을 계산하기 위해 도입된 중요한 파라미터는 무엇인가요?
강화 학습에서 즉각적인 보상과 미래 보상을 계산하기 위해 도입된 중요한 파라미터는 무엇인가요?
Q-value 반복 알고리즘은 어떤 방정식에서 영감을 받았나요?
Q-value 반복 알고리즘은 어떤 방정식에서 영감을 받았나요?
Q-value 반복 알고리즘은 모든 상황에서 즉시 최적의 Q-value로 수렴한다.
Q-value 반복 알고리즘은 모든 상황에서 즉시 최적의 Q-value로 수렴한다.
Q-러닝은 Q-value 반복 알고리즘의 어떤 부분을 개선한 것인가요?
Q-러닝은 Q-value 반복 알고리즘의 어떤 부분을 개선한 것인가요?
Q-러닝은 충분한 반복을 거치면 ______값으로 수렴한다는 것이 증명되었습니다.
Q-러닝은 충분한 반복을 거치면 ______값으로 수렴한다는 것이 증명되었습니다.
Q-Value 반복 알고리즘의 실질적인 문제점은 무엇인가요?
Q-Value 반복 알고리즘의 실질적인 문제점은 무엇인가요?
Q-러닝에서 가중 합(weighted sum)을 사용하는 이유는 무엇인가요?
Q-러닝에서 가중 합(weighted sum)을 사용하는 이유는 무엇인가요?
Q-러닝은 상태와 행동의 가짓수가 매우 많아지는 경우에도 항상 효율적으로 작동한다.
Q-러닝은 상태와 행동의 가짓수가 매우 많아지는 경우에도 항상 효율적으로 작동한다.
Q-러닝에서 발생하는 확장성(scalability) 문제를 해결하기 위한 방법으로 제시되는 것은 무엇인가요?
Q-러닝에서 발생하는 확장성(scalability) 문제를 해결하기 위한 방법으로 제시되는 것은 무엇인가요?
Deep Q-러닝은 ______을(를) 기반으로 Q-러닝을 근사하는 방법론입니다.
Deep Q-러닝은 ______을(를) 기반으로 Q-러닝을 근사하는 방법론입니다.
Deep Q-Network (DQN)은 무엇을 근사하는 데 사용되나요?
Deep Q-Network (DQN)은 무엇을 근사하는 데 사용되나요?
Deep Q-Network (DQN)을 훈련하기 위해 사용되는 일반적인 접근 방식은 무엇인가요?
Deep Q-Network (DQN)을 훈련하기 위해 사용되는 일반적인 접근 방식은 무엇인가요?
Deep Q-러닝에서 에피소드를 생성할 때 항상 DQN-guided 행동만 사용한다.
Deep Q-러닝에서 에피소드를 생성할 때 항상 DQN-guided 행동만 사용한다.
초기에 DQN이 없을 때 에피소드를 어떻게 생성하나요?
초기에 DQN이 없을 때 에피소드를 어떻게 생성하나요?
다음 용어와 그 의미를 매칭하세요:
다음 용어와 그 의미를 매칭하세요:
Deep Q-러닝에서 Cost function은 일반적으로 무엇을 최소화하려고 하나요?
Deep Q-러닝에서 Cost function은 일반적으로 무엇을 최소화하려고 하나요?
강화 학습에서 Bellman equation의 목적은 무엇입니까?
강화 학습에서 Bellman equation의 목적은 무엇입니까?
Markov Decision Process (MDP)에서 상태 전이는 항상 결정적이다.
Markov Decision Process (MDP)에서 상태 전이는 항상 결정적이다.
강화 학습에서 에이전트가 환경에서 행동을 선택하는 방식을 ______이라고 합니다.
강화 학습에서 에이전트가 환경에서 행동을 선택하는 방식을 ______이라고 합니다.
Flashcards
에이전트 (Agent)
에이전트 (Agent)
행동을 취하는 개체
환경 (Environment)
환경 (Environment)
에이전트와 상호 작용하는 외부 세계
강화 학습 (Reinforcement Learning)
강화 학습 (Reinforcement Learning)
예상 보상을 최대화하는 행동 정책을 학습하는 방법론
마르코프 속성 (Markov Property)
마르코프 속성 (Markov Property)
Signup and view all the flashcards
상태 변환 확률 (State Transition Probability)
상태 변환 확률 (State Transition Probability)
Signup and view all the flashcards
마르코프 결정 과정 (MDP)
마르코프 결정 과정 (MDP)
Signup and view all the flashcards
정책 (Policy)
정책 (Policy)
Signup and view all the flashcards
Q*(s, a)
Q*(s, a)
Signup and view all the flashcards
즉각적인 보상 (Immediate reward)
즉각적인 보상 (Immediate reward)
Signup and view all the flashcards
할인 요소 (Discount factor)
할인 요소 (Discount factor)
Signup and view all the flashcards
Q-value 반복 알고리즘
Q-value 반복 알고리즘
Signup and view all the flashcards
Q-러닝
Q-러닝
Signup and view all the flashcards
Deep Q-러닝
Deep Q-러닝
Signup and view all the flashcards
파라미터화된 함수
파라미터화된 함수
Signup and view all the flashcards
Deep Q-Network (DQN)
Deep Q-Network (DQN)
Signup and view all the flashcards
DQN 학습
DQN 학습
Signup and view all the flashcards
탐험 단계 (exploration phase)
탐험 단계 (exploration phase)
Signup and view all the flashcards
활용 단계 (exploitation phase)
활용 단계 (exploitation phase)
Signup and view all the flashcards
Study Notes
- 2024년 6월 21일 강의에서 강화 학습에 대해 자세히 살펴봅니다.
- 강화 학습과 관련된 시나리오를 소개합니다.
- 강화 학습을 위한 수학적 모델인 MDP(Markov Decision Process)를 학습합니다.
- MDP를 기반으로 Q-learning을 탐색합니다.
- Q-러닝의 실제 버전인 Deep Q-learning을 조사합니다.
강화 학습
- 행동을 취하는 개체인 에이전트
- 에이전트와 상호 작용하는 외부 세계인 환경
에이전트-환경 상호 작용
- 에이전트는 환경에서 행동을 취합니다.
- 환경은 관찰과 보상을 통해 응답합니다.
- 이것은 예상되는 보상을 극대화하는, 행동 정책을 학습하는 방법론입니다.
시나리오
- 팩맨에서 에이전트는 팩맨을 제어하는 프로그램입니다.
- 팩맨의 행동은 위, 아래, 왼쪽, 오른쪽으로 이동하는 것입니다.
- 환경은 팩맨의 시뮬레이터입니다.
- 관찰은 이미지 픽셀이고, 보상은 게임 포인트입니다.
- 주식 시장에서 에이전트는 주식을 사고 파는 개인입니다.
- 에이전트의 행동은 매수, 매도 또는 유지입니다.
- 환경은 주식 시장입니다.
- 관찰은 주가이고, 보상은 금전적 이익 혹은 손실입니다.
- 자율 주행차에서 에이전트는 운전자이고, 행동은 핸들, 브레이크, 가속 페달 등과 같습니다.
- 환경은 운전 환경이고, 관찰은 카메라 보기, 레이더, 라이더 및 센서 정보입니다.
- 보상은 경로가 정렬되었는지 여부와 안전 또는 위험 여부입니다.
- CartPole에서 에이전트는 Cart를 제어하는 프로그램입니다.
- 행동은 왼쪽 또는 오른쪽으로 움직이는 것이고, 환경은 시뮬레이터입니다.
- 관찰은 위치, 속도, 막대 각도 및 각속도입니다.
- 막대가 넘어지거나 화면 밖으로 나갈 때까지 보상은 1입니다.
마르코프 결정 프로세스 (MDP)
- 에이전트와 환경 간의 상호 작용을 캡처하는 수학적 모델입니다.
- MDP를 파악하려면 마르코프 프로세스에 대해 알아야 합니다.
- 마르코프 프로세스는 가장 유용한 확률 프로세스 중 하나입니다.
- X1, X2, ..., Xt, ... 가 마르코프 프로세스인 경우, 현재 상태 Xt = xt가 주어지면 미래 상태는 과거 상태와 독립적입니다.
마르코프 프로세스 정의
- X1, X2, ..., Xt, ... 가 마르코프 프로세스인 경우 현재 상태 Xt = xt가 주어지면 미래 상태(Xt+1, Xt+2, ...)는 과거 상태(Xt-1, Xt-2, ...)와 독립적입니다.
- 미래와 과거 상태가 독립적이며 마르코프 속성이라고 합니다.
- 상태 전환 확률은 마르코프 프로세스의 통계적 행동을 완전히 나타냅니다.
마르코프 결정 프로세스 (MDP)
- 액션 후보 중에서 액션을 취할 수 있는 마르코프 프로세스의 변형입니다.
- 전환 확률은 취한 행동에 따라 달라집니다.
- 일부 상태 전환은 보상을 반환합니다.
MDP 예시
- 상태: {S1, S2, S3}
- 행동: {a1, a2, a3}
MDP와 RL의 관계
- RL은 예상되는 보상을 최대화하는 최적의 정책을 찾는 방법론입니다.
벨만 방정식
- Q*(s, a)는 상태-행동 쌍의 Q-값입니다.
- 에이전트가 "s" 상태에서 "a" 행동을 취할 때的最大 예상 보상을 의미합니다.
- 미래 행동은 최적의 정책을 따릅니다.
- 최적의 정책 π*(s)는 arg max Q*(s, a)로 정의됩니다.
- 에이전트가 "s" 상태에서 행동 "a"를 취할 때 최대 예상 보상을 나타냅니다.
- 벨만 방정식은 Q*를 찾는 데 도움이 되는 방정식입니다.
- 보상에는 즉각적인 보상과 미래 보상의 두 가지 유형이 있습니다.
- 미래 보상을 계산하기 위해 할인 계수 γ가 사용됩니다.
- 할인 계수 γ의 일반적인 값은 0.95 또는 0.99입니다.
- 행동이 장기적인 영향을 미칠 때는 0.99를 사용하고, 단기적인 영향을 미칠 때는 0.95를 사용합니다.
- CartPole의 경우 일반적인 값은 γ = 0.95입니다.
벨만 방정식
- Q*(s, a)는 에이전트가 상태 "s"에서 행동 "a"를 취할 때의 최대 예상 보상입니다.
- 수식은 다음과 같습니다: Q*(s, a) = ∑ P(s'|s, a) [R(s'|s, a) + γ max Q*(s', a')]
- s'는 다음 상태입니다.
- P(s'|s, a)는 상태 "s"에서 행동 "a"를 취할 때 상태 "s'"로 전환될 확률입니다.
- R(s'|s, a)는 상태 "s"에서 행동 "a"를 취할 때 얻는 immédiate 보상입니다.
- max Q*(s', a')는 다음 상태 "s'"에서 취할 수 있는 최적의行动의 최대 Q-값입니다.
- Q-값 반복 알고리즘은 벨만 방정식을 사용하여 Q-값을 반복적으로 업데이트하여 최적의 Q-값을 찾습니다.
- 단계는 다음과 같습니다:
- 초기 Q(t) (s, a)를 모든 (s, a)에 대해 설정합니다.
- Q(t+1) (s, a) ← ∑ P(s'|s, a) [R(s'|s, a) + γ max Q(t) (s', a')]를 사용하여 Q-값을 업데이트합니다.
- Q(t+1) (s, a)가 Q*(s, a)로 수렴할 때까지 반복합니다.
Q-값 반복 알고리즘
- Q(t+1) (s, a) ← ∑ P(s'|s, a) [R(s'|s, a) + γ max Q(t) (s', a')]
- 하지만 실제로 P(s'/s, a) 및 R(s'/s, a)에 대한 아이디어가 없습니다.
큐-러닝
- Q-값 반복 알고리즘에서 전환 확률과 보상 함수를 알 필요가 없는 알고리즘입니다.
- 해결 방법은 많은 에피소드를 통해 실제로 일어난 전환과 непосредственные 보상을 이용하는 것입니다.
- 한 에피소드는 s1 → s2 → ... → s → s' → ...로 구성됩니다.
- 에이전트는 행동 a를 취하고 보상 r을 받습니다.
- 주어진 Q(t) (s, a)에 대해 예상 보상은 r + γ max Q(t) (s', a')로 계산됩니다.
- 다음 가중 합계를 고려합니다: Q(t+1) (s, a) ← (1 - α)Q(t) (s, a) + α (r + γ max Q(t) (s', a'))
- Watkins가 1989년에 증명한 바에 따르면 충분한 반복이 주어지면 Q-러닝은 최적의 Q-값으로 수렴합니다.
- 많은 시나리오에서 상태와 행동이 많으면 확장성 문제가 발생합니다.
- 확장성 문제를 해결하기 위해 Q-러닝은 Q-값을 근사하는 매개변수화된 함수 Qθ(s, a)를 사용합니다.
- 이를 위해 DNN(심층 신경망)이 사용됩니다.
- 이러한 DNN을 DQN(Deep Q-Network)이라고 합니다.
- 심층 Q-러닝은 DQN을 기반으로 Q-러닝을 추정하는 방법론입니다.
- DQN을 학습하려면 에피소드가 있어야 합니다.
에피소드를 생성하는 방법
- 처음에는 DQN이 없습니다.
- 무작위 행동(탐색 단계)이 수행됩니다.
- 에피소드가 수집되면 DQN을 학습합니다.
- DQN 안내 행동(착취 단계)이 수행됩니다.
- 탐색-착취 단계는 종종 번갈아 가며 수행됩니다.
- 대상 Q-값이라는 레이블은 r + γ max Qθ(s', a')입니다.
- 예측은 Qθ(s, a)입니다.
- 비용 함수는 J(θ) = ∑(r + γ max Qθ(s', a') - Qθ(s, a))2입니다.
- 경사 하강법은 θ(t+1) ← θ(t) - α(t) ∇θJ(θ)입니다.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.