구글

세계최강의 바둑AI·알파고가 모든 보드게임을 학습할 수 있는 「AlphaZero(알파 제로)」에 진화

나나시노 2017. 12. 9. 11:41
반응형




세계최강의 바둑AI·알파고가 모든 보드게임을 학습할 수 있는 「AlphaZero(알파 제로)」에 진화



Google과 같은 Alphabet을 모체에 가지는 인공지능(AI)개발 기업·DeepMind가 만들어 낸 「AlphaGo」라고 하면, 세계최강의 바둑기사를 꺾은 프로그램으로서 큰 화제가 된 바둑AI입니다. 그런 AlphaGo가 몇 번이나 진화를 경과하고, 바둑이외의 보드게임도 학습해서 강하게 될 수 있는 AI 「Alpha Zero」에 다시 태어났습니다.




Alpha Zero는, 세계를 놀라게 한 바둑AI 「AlphaGo」를 바탕으로 개발된 「AlphaGo Zero」의 진화판이 되는 AI입니다. AlphaGo Zero는 바둑에 대해서 가르치지 않아도 대전 형식 훈련으로 멋대로 바둑 솜씨를 올려 갈 수 있다고 하는 바둑AI로, 그 실력에 대해서는 이하 기사를 읽으면 그 상세가 잘 압니다.





그런 AlphaGo Zero의 알고리즘을 활용하고, 바둑이외의 보드게임에도 응용하려고 하는 것은 탄생한 것이 「AlphaZero」입니다. 이 AlphaZero가, 불과 4시간의 학습으로 세계최강의 오픈 소스체스 엔진인 Stockfish에 승리해버렸습니다.


AlphaZero는 AlphaGo Zero와 같이, 인간이 게임 진행 방법을 가르치지 않아도, AI가 멋대로 자발적으로 승리하기 위한 방법까지 모두 인도하기 시작해버린다라고 하는 보드게임AI입니다. 그런 AlphaZero는 체스의 학습을 스타트해서 불과 4시간으로 세계최강의 체스 프로그램인 Stockfish에 승리했습니다. 대국은 100국도 행하여졌습니다만 그 내역은 AlphaZero가 28승·72비김(무승부)로, 한번도 뒤질 일은 없었다고 합니다.


AlphaZero는 기계학습 일종인 강화 학습을 이용해서 보드게임을 배우는 것입니다만, 예를 들면 바둑으로 말하는 「정석」등, 전문지식을 가르칠 필요는 없습니다.



AlphaZero는 다음 수단을 1초간에 8만가지 상정한다고 합니다만, Stockfish는 1초간에 7000만가지 상정합니다. 또, 선수(흰)쪽이 승률이 높아진다라고 하는 데이터도 나오고 있어, AlphaZero가 28회 승리한 중, 선수이었던 것은 25회, 나머지 3회만 후수로 승리했다고 합니다.


AlphaGo 창설자인 데미스 하사비스씨는 「랜덤 플레이부터 시작되고, 게임의 룰을 제외하는 전문지식을 가지고 있지 않아도, AlphaZero는 24시간이내에 체스나 장기와 같은 게임으로 초인적인 능력을 익힐 수 있습니다. 또, 각보드게임의 월드 챔피언 프로그램을 깨는 것으로, 그 정밀도도 나타내고 있습니다」라고 이야기 하고 있습니다.




체스의 전세계 챔피언인 가리 카스파로프씨는 「AlphaGo가 등장한 후, 우리들은 이러한 성과를 기대해서 쓸었지만, 그렇다 치더라도 놀라운 성과다. 우리들은 체스의 학습에는 방대한 경험치가 필요하다고 생각하고 있었습니다만, 인간에게서 지식을 일체 필요로 하지 않는다…」라고 이야기 하고 있습니다.


또, AlphaZero는 불과 학습 2시간으로 세계최강의 장기 프로그램인 elmo에도 승리했습니다.



반응형