IT,과학

불완전 정보 게임 포커로 인간을 쓰러뜨린 AI 「Libratus」가 채용하고 있었던 전략이 논문으로 공개

나나시노 2017. 12. 26. 11:47
반응형




불완전 정보 게임 포커로 인간을 쓰러뜨린 AI 「Libratus」가 채용하고 있었던 전략이 논문으로 공개





포커는 정보가 모두 공개되고 있지 않기 때문에 「불완전정보 게임」이다라고 하고 있어, 인공지능(AI)이 인간을 꺾는 것은 어렵다고 생각되어 왔습니다. 그러나, 2017년1월에 카네기·멜론 대학교가 개발한 AI 「Libratus」는 이 난제를 훌륭하게 클리어하고, 인간 플레이어 상대에게 포커로 완승하는 것에 성공했습니다. 그 Libratus를 개발한 연구자가, 어떤 전략을 Libratus가 채용한 것일지에 관한 논문을 공개했습니다.


CMU team publishes paper on how their poker-playing AI beat the best humans | TribLIVE


https://www.sciencedaily.com/releases/2017/12/171218091001.htm



바둑이나 장기와 다르고, 카드 게임 「포커」에서는 상대가 공개하지 않는 불완전한 응보 안에서의 싸움을 강요당하는 「불완전정보 게임」이기 때문에, 포커는 일반적으로 최선의 손을 찾아내는 알고리즘 개발이 어려운 게임으로서 알려져 있습니다. 그 때문에, AI 진화의 척도를 내보이는 것으로서 포커는 기능해 왔다라고 하는 측면이 있어, 인간의 프로 플레이어에게 이긴다고 하는 쾌거를 카네기·멜론대학교에서 개발된 AI 「Libratus」가 완수한 것은, AI개발 역사적 위업이라고 찬양되어 있습니다.




카네기·멜론 대학교의 토마스 박사들이 역사적 위업부터 약11개월 단 2017년12월15일에, 어떻게 포커로 인간에게 이긴 것인가라고 하는 Libratus의 전술에 대해서 과학지 Science에서 논문을 발표했습니다.


논문에 의하면, Libratus가 채용한 전략은 크게 3개의 어프로치가 있습니다. 먼저 최초의 어프로치인 제1 모듈은, 「게임을 추상화」라고 불리는 작업을 합니다. 텍사스 홀덤 포커에서는, 게임은 「10에 161승」이라고 하는 방대한 수의 분기점이 드러납니다. 이것은 전우주의 물질 수보다도 많다고 하는 어이없는 숫자로, 이것들 모두를 계산하는 것은 최신 컴퓨터라도 도저히 불가능합니다. 거기에서 더욱 계산이 하기 쉽도록 Libratus 제1모듈에서는 게임을 추상화하는 작업을 최초에 한다고 합니다. 예를 들면 「플래시」라고 하는 손은 킹하이플래시나 퀸하이플래시등 많은 종류가 있습니다만, 이것들을 모두 같은 1개의 손이라고 생각하는 그룹화에 의해, 생각하는 손을 적게 하는 것입니다. 마찬가지로, 부금이 100달러인 경우와 101달러인 경우로 큰 차이가 없는 것으로, 이것들도 그룹화해서 단순화합니다. 한편, 이 제1단계로 실시되는 추상화는, 뒤의 라운드를 위한 거친 전략형성을 하기 위해서 「blueprint(청사진)전략」이라고 명명되어 있습니다.


게임이 후반에 들어가면, Libratus 제2모듈은 그것까지의 작은 공방(서브 게임)으로 어떻게 플레이했는가라고 하는 정보로부터, 더욱 세세하게 전략을 세우는 것을 시작합니다. 최종반에 가까워질때 까지, Libratus는 게임이 어떻게 진전되어 왔는지에 근거하고, 제2단계 전략을 따라 세련시켜 가는 것입니다. 포커에서는 블러프 등을 구사해서 상대를 흔듭니다만, 상대인 인간 플레이어가 추상화되지 않는 움직임을 했을 때마다, 제2모듈은 서브 게임 로서 다루어 계산하고, 별도의 모델을 조립해 전략에 짜 넣는 작업을 한다고 합니다.




최종의 제3모듈은 「자기개량」 공정으로, 청사진 전략을 강화합니다. 여기서 청사진 전략으로 추상화하는데도 빠져 있었던 「가지」를 메우는 것인 것입니다. 그러나, 이 작업은 모두 계산하기 위해서는 양이 너무 방대하기 때문에, 인간의 실제 행동을 활용하고, 계산을 단순화한다고 합니다. 「AI는 기계학습을 사용해서 상대 전략 실수를 찾고, 그것을 이용한다」 것이라고 토마스 박사는 제3모듈에서의 활동을 설명하고 있습니다. 이 청사진 전략에 있어서의 잠재적인 구멍을 검출하기 위해서, 상대 부금을 분석하고 있다고 합니다.




논문으로 해설되고 있는 내용은 아마추어가 이해하기 위해서는 매우 난해합니다만, 3가지 단계를 경과한다고 한 Libratus의 전략에 의해 얻을 수 있었던 결과는 이하 그래프 대로. Libratus(빨간색)는 시종 팁을 잃을 일 없고, 중반 이후는 그래프가 거의 직선을 일방적으로 팁을 계속해서 빼앗아, 인간 프로 플레이어 4명에게 완승했습니다.





반응형