연구 분야 소개
강화학습, 통계적 학습이론, 정보 기하학
강화학습(Reinforcement Learning)은 머신러닝의 핵심분야로, 복잡한 환경에서 최적의 전략을 찾아내는 방법을 탐구하는 학문입니다. 최근 대표적인 기계학습 학회에 제출된 논문의 1/3 이상이 강화학습과 관련이 있을 정도로 매우 인기 있는 연구 분야입니다. 또한, 강화학습의 활용도는 무궁무진합니다. 시시각각 변하는 전력 수요 및 생산량 등을 분석하여 최적의 전력 공급 전략을 찾을 수 있습니다. 전력 공급에만 적용할 수 있는 것이 아닙니다. 비슷한 원리로 신호등 대기 시간이나 대중교통 배차 간격을 조절하여 교통의 흐름을 최적화할 수도 있고, 엣지 컴퓨팅 기술과 접목하면 사용자가 원하는 정보를 더욱 빠르게 보낼 수 있습니다. 우리 연구실은 강화학습 알고리즘 개발과 이론적 연구를 병행하고 있습니다.
최근 연구 내용
알고리즘
On-policy 학습의 가장 큰 문제는 과거에 수집한 환경 정보를 재사용할 수 없다는 점입니다. Dimension-wise Importance Sampling Clipping(DISC)은 이를 해결하기 위해 중요도 샘플링 계수(importance sampling weight)를 차원 별로 클리핑하여 기존 PPO의 샘플 효율성을 높이고 off-policy 학습으로 확장하여 수렴 성능을 세계 최고 수준으로 증가시켰습니다.
탐색(Exploration)
대부분의 강화학습 알고리즘은 value 함수와 policy 함수를 인공신경망을 통해 구현하므로 최적의 인공신경망 파라미터를 찾는 것이 핵심입니다. 그러나 인공신경망 파라미터 공간은 매우 넓고 파라미터와 최종 성능의 관계도 매우 복잡하여 최적의 파라미터를 찾는 것은 굉장히 어렵습니다. 그렇다면 하나의 worker가 아닌 여러 개의 worker가 서로 정보를 공유하면 조금 더 효율적으로 탐색할 수 있지 않을까요? 이 아이디어를 바탕으로 연구한 결과 각 worker가 현재 가장 좋은 파라미터를 가진 worker를 참고하여 특정 방식으로 탐색을 시도하면 알고리즘의 성능과 안정성이 상당히 높아지는 것을 확인했습니다.
다중 에이전트 강화학습(Multi-agent RL)
하나의 레이어에서 무작위로 몇 개의 노드를 골라 0으로 만드는 드랍아웃은 인공신경망의 성능을 높이기 위해 자주 사용되는 regularization 방법입니다. 이를 토대로 다중 에이전트 환경에서 에이전트끼리 정보를 교환할 때 일부를 무작위로 제거하는 블록 드랍아웃 방식을 적용해 본 결과 정보량이 매우 많아 학습하기 힘든 고차원 환경에서도 효과적으로 학습하는 것을 확인했습니다.
드문 보상 강화학습(Sparse Reward RL)
강화학습 에이전트는 환경과의 상호작용에서 받는 보상을 바탕으로 최적의 행동을 찾습니다. 그런데 이 보상이 너무 드물게 주어지면(예를 들면 엄청나게 복잡한 미로를 통과해 목적지의 도달한 경우에만 보상을 주는 경우) 대부분의 강화학습 알고리즘은 학습에 실패합니다. dynamics 모델을 바탕으로 에이전트가 자기 자신에게 스스로 보상을 주는 방식의 이런 드문 보상 환경의 대표적인 해결책입니다. 우리는 연구를 통해 하나의 dynamics 모델이 아니라 여러 모델을 통해 계산한 보상을 특별한 방식으로 합산하여 적용하면 그 성능이 굉장히 증가하는 것을 확인했습니다.