최적의 결과를 얻기 위한 결정을 내리도록 소프트웨어를 훈련시키는
기계 학습(ML) 기법으로 인간이 목표를 달성하기 위해 사용하는 시행착오 학습 과정을 모방한다. 목표를 달성하기 위해 작동하는 소프트웨어 작업은 강화되지만 목표를 저해하는 작업은 무시된다.
RL 알고리즘은 데이터를 처리할 때 상벌 패러다임을 사용한다. RL 알고리즘은 각 작업의 피드백을 통해 배우고 최종 결과를 달성하기 위한 최상의 처리 경로를 스스로 발견한다. 이 알고리즘은 만족도를 지연시킬 수도 있다. 전반적으로 최선의 전략을 세우려면 단기적인 희생이 필요할 수 있으므로 알고리즘이 발견한 최선의 접근법에는 벌을 받거나 도중에 철회하는 것이 포함될 수 있다. RL은 보이지 않는 환경에서 최적의 결과를 달성하도록 인공 지능(AI) 시스템을 지원하는 강력한 방법이다.
【인용】AWS 홈페이지 (2025.3)
머신러닝의 꽃이라 불리는 강화학습(RL)은 지도,
비지도 학습과는 조금 다른 개념입니다. 우리가 잘 아는
알파고는 이 '강화학습' 모델로 만들어졌습니다.
행동 심리학에서 나온 이론으로 분류할 수 있는 데이터가 존재하는 것도 아니고 데이터가 있어도 정답이 따로 정해져 있지 않으며 자신이 한 행동에 대해 보상(reward)를 받으며 학습하는 것을 말합니다.
- 강화학습의 개념
• 에이전트(Agent)
• 환경(Environment)
• 상태(State)
• 행동(Action)
• 보상(Reward)
게임을 예로들면 게임의 규칙을 따로 입력하지 않고 자신(Agent)이 게임 환경(environment)에서 현재 상태(state)에서 높은 점수(reward)를 얻는 방법을 찾아가며 행동(action)하는 학습 방법으로 특정 학습 횟수를 초과하면 높은 점수(reward)를 획득할 수 있는 전략이 형성되게 됩니다. 단, 행동(action)을 위한 행동 목록(방향키, 버튼)등은 사전에 정의가 되어야 합니다.
만약 이것을
지도 학습(Supervised Learning)의 분류(Classification)를 통해 학습을 한다고 가정하면 모든 상황에 대해 어떠한 행동을 해야 하는지 모든 상황을 예측하고 답을 설정해야 하기 때문에 엄청난 예제가 필요하게 됩니다.
바둑을 학습한다고 했을 때, 지도 학습(Supervised Learning)의 분류(Classification)를 이용해 학습하는 경우 아래와 같은 개수의 예제가 필요해지게 됩니다.
강화 학습(reinforcement learning)은 이전부터 존재했던 학습법이지만 이전에 알고리즘은 실생활에 적용할 수 있을 만큼 좋은 결과를 내지 못했습니다.
하지만 딥러닝의 등장 이후 강화 학습에 신경망을 적용하면서부터 바둑이나 자율주행차와 같은 복잡한 문제에 적용할 수 있게 되었습니다. 좀 더 자세히 설명하면 고전적인 강화학습 알고리즘은 앞으로 나올 상태에 대한 보상을 모두 계산해야 하는데 실제 세상과 같이 상태 공간이 크면 현실적으로 계산을 할 수 없습니다. 최근에는 계산하는 대신 신경망을 통해 근삿값을 구함으로써 복잡한 문제를 해결할 수 있게 되었습니다.
강화학습에 딥러닝을 성공적으로 적용한 대표적 알고리즘으로는 DQN과 A3C가 있는데요. 두 알고리즘 모두 딥마인드에서 발표했으며 다른 강화학습 알고리즘의 베이스라인이 되었습니다.
【출처】 https://ebbnflow.tistory.com/165 [삶은 확률의 구름:티스토리] (2025.3)