강화 학습 소개: Q-러닝 및 딥 Q-러닝

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

강화 학습(Reinforcement Learning, RL)이 주로 사용되는 모델의 종류는 무엇인가요?

예측 모델 (Prediction models)
분류 모델 (Classification models)
생성 모델 (Generative models)
제어 모델 (Control models) (correct)

강화 학습에서 에이전트는 환경과 상호작용하지 않습니다.

False (B)

강화 학습에서 에이전트가 학습하는 주된 목표는 무엇인가요?

무작위 행동을 생성하는 것
과거의 경험을 잊고 새로운 정보를 학습하는 것
예상되는 보상을 최대화하는 행동 정책을 학습하는 것 (correct)
환경을 변화시키지 않고 유지하는 것

Pac-Man 게임에서 강화 학습 에이전트의 관찰(observation)은 무엇으로 정의될 수 있나요?

이미지 픽셀 (Image pixels) Signup and view all the answers

강화 학습에서 '환경(environment)'이란 무엇을 의미하나요?

에이전트와 상호작용하는 외부 세계 (D) Signup and view all the answers

주식 거래 시나리오에서 '에이전트'는 주식 시장 자체이다.

False (B) Signup and view all the answers

자율 주행차 시나리오에서 '에이전트'는 ______(이)다.

운전자 Signup and view all the answers

다음 강화 학습 시나리오와 그에 따른 보상(reward)을 매칭하세요:

Pac-Man = 게임 점수 주식 거래 = 금전적 이득 또는 손실 자율 주행차 = 경로 정렬 여부, 안전 또는 위험 CartPole = 막대가 쓰러지지 않고 화면에서 사라지지 않을 때까지 1점 Signup and view all the answers

강화 학습 방법론은 무엇을 극대화하는 행동 정책을 학습하는 방법론입니까?

예상 보상 (Expected reward) Signup and view all the answers

강화 학습에서 'Markov Decision Process (MDP)'는 무엇을 위한 수학적 모델인가요?

에이전트와 환경 간의 상호 작용 (C) Signup and view all the answers

마르코프 프로세스에서 현재 상태는 미래 상태와 과거 상태에 의존적이다.

False (B) Signup and view all the answers

마르코프 프로세스의 핵심 조건은 무엇이라고 불리나요?

마르코프 속성 (Markov property) (A) Signup and view all the answers

마르코프 프로세스의 통계적 행동을 완전히 설명하는 것은 ______(이)다.

상태 전이 확률 Signup and view all the answers

Markov Decision Process (MDP)는 Markov process에 무엇이 추가된 형태인가요?

행동 (Action) Signup and view all the answers

MDP에서 상태 전이 확률은 무엇에 따라 달라지나요?

취해진 행동 (D) Signup and view all the answers

MDP에서 모든 상태 전이는 항상 동일한 보상을 반환한다.

False (B) Signup and view all the answers

강화 학습에서 최적 정책(optimal policy)을 찾는 방법은 무엇인가요?

보상을 최대화하는 정책을 학습하는 것 (C) Signup and view all the answers

Bellman 방정식은 ______을(를) 찾는 데 도움이 되는 방정식입니다.

Q* Signup and view all the answers

Bellman 방정식에서 Q(s, a)는 무엇을 의미하나요?

상태-행동 쌍의 Q-value Signup and view all the answers

Bellman 방정식에서 미래 행동은 어떤 정책을 따를 것이라고 가정하나요?

최적 정책 (A) Signup and view all the answers

할인율(discount factor)은 항상 1보다 커야 한다.

False (B) Signup and view all the answers

할인율(discount factor)이 높은 값(예: 0.99)을 가질 때, 이는 무엇을 의미하나요?

장기적인 효과를 중요시한다. (A) Signup and view all the answers

CartPole에서 전형적인 할인율 값은 ______입니다.

0.95 Signup and view all the answers

강화 학습에서 즉각적인 보상과 미래 보상을 계산하기 위해 도입된 중요한 파라미터는 무엇인가요?

할인율 (Discount factor) Signup and view all the answers

Q-value 반복 알고리즘은 어떤 방정식에서 영감을 받았나요?

벨만 방정식 (D) Signup and view all the answers

Q-value 반복 알고리즘은 모든 상황에서 즉시 최적의 Q-value로 수렴한다.

False (B) Signup and view all the answers

Q-러닝은 Q-value 반복 알고리즘의 어떤 부분을 개선한 것인가요?

상태 전이 확률을 알 필요 없이 학습 가능 (C) Signup and view all the answers

Q-러닝은 충분한 반복을 거치면 ______값으로 수렴한다는 것이 증명되었습니다.

최적의 Q Signup and view all the answers

Q-Value 반복 알고리즘의 실질적인 문제점은 무엇인가요?

상태 전이 확률과 보상에 대한 정보가 필요함 Signup and view all the answers

Q-러닝에서 가중 합(weighted sum)을 사용하는 이유는 무엇인가요?

과거 경험과 새로운 정보를 적절히 반영하기 위해 (A) Signup and view all the answers

Q-러닝은 상태와 행동의 가짓수가 매우 많아지는 경우에도 항상 효율적으로 작동한다.

False (B) Signup and view all the answers

Q-러닝에서 발생하는 확장성(scalability) 문제를 해결하기 위한 방법으로 제시되는 것은 무엇인가요?

Deep Q-Network (DQN) 사용 (B) Signup and view all the answers

Deep Q-러닝은 ______을(를) 기반으로 Q-러닝을 근사하는 방법론입니다.

DQN Signup and view all the answers

Deep Q-Network (DQN)은 무엇을 근사하는 데 사용되나요?

Q-value Signup and view all the answers

Deep Q-Network (DQN)을 훈련하기 위해 사용되는 일반적인 접근 방식은 무엇인가요?

강화 학습 알고리즘을 사용하여 Q-값을 예측하는 DNN을 훈련한다. (B) Signup and view all the answers

Deep Q-러닝에서 에피소드를 생성할 때 항상 DQN-guided 행동만 사용한다.

False (B) Signup and view all the answers

초기에 DQN이 없을 때 에피소드를 어떻게 생성하나요?

무작위 행동을 사용한다. (D) Signup and view all the answers

다음 용어와 그 의미를 매칭하세요:

탐험 단계 (Exploration phase) = 무작위 행동을 통해 에피소드를 생성하는 단계 활용 단계 (Exploitation phase) = DQN-guided 행동을 통해 에피소드를 생성하는 단계 DQN = Q-value를 근사하는 심층 신경망 Bellman Equation = 최적 Q-value를 찾기 위한 방정식 Signup and view all the answers

Deep Q-러닝에서 Cost function은 일반적으로 무엇을 최소화하려고 하나요?

타겟 Q-value와 예측 Q-value의 차이 Signup and view all the answers

강화 학습에서 Bellman equation의 목적은 무엇입니까?

상태 가치 함수의 근사치를 반복적으로 계산하는 것 (A) Signup and view all the answers

Markov Decision Process (MDP)에서 상태 전이는 항상 결정적이다.

False (B) Signup and view all the answers

강화 학습에서 에이전트가 환경에서 행동을 선택하는 방식을 ______이라고 합니다.

정책 (Policy) Signup and view all the answers

Flashcards

에이전트 (Agent)

행동을 취하는 개체

환경 (Environment)

에이전트와 상호 작용하는 외부 세계