구글

세계최강의 바둑 AI를 개발한 DeepMind가 「인간을 초월한 FPS player」 AI를 개발

나나시노 2018. 7. 6. 22:34
반응형




세계최강의 바둑 AI를 개발한 DeepMind가 「인간을 초월한 FPS player」 AI를 개발



구글과 같은 Alphabet을 모체에 가지고, 세계최강의 바둑 AI 「AlphaGo Zero」를 개발한 인공지능(AI)개발 기업·DeepMind가, 퍼스트 퍼슨·슈팅 게임(FPS)으로 인간을 뛰어넘은 승률을 두드리기 시작하는 AI 「For the Win(FTW)」을 개발했습니다. 단지 적을 쓰러뜨릴뿐만 아니라, 인간 팀메이트와도 협력해서 유리하게 게임을 플레이할 수 있습니다.




인간과 게임을 플레이하는 AI 연구는, 2017년에도 OpenAI 개발인 AI가 「Dota 2」로 인간에게 승리한 결과를 남기고, 화제가 되었습니다. 또, DeepMind도 「StarCraft 2」를 플레이하는 AI를 연구 적이 있습니다.


이번, Google의 DeepMind가 개발한 「FTW」는, 1999년에 발매된 「Quake III Arena」를 플레이. 「Quake III Arena」는 멀티 플레이어에 적합한 FPS입니다. 지금도 대회가 열릴 만큼 인기가 있는 타이틀입니다. 이 「Quake III Arena」에 대전 룰 「Capture the Frag(CTF)」이라고 하는 게임을 하고, 인간과 같이 팀전으로 놀 수 있는 것을 목표로 해서 학습을 했습니다.



CTF는 팀 2가지로 나눠서 대전하는 게임으로, 상대팀의 진지에 있는 깃발을 빼앗아서 자기 진지에 되돌아오면 포인트가 가산됩니다. 단순한 룰로 보입니다만, 상대팀에 깃발을 빼앗겼을 경우는 깃발을 가지고 있는 플레이어를 쓰러뜨러야 하거나, 상황에 따라서 노리는 상대나 움직임을 변경해야 하고, CTF로 요구되는 움직임은 복잡하다고 연구팀은 평가했습니다.


싸움 무대가 되는 맵은 같은 곳을 계속해서 사용하는 것이 아니고, 매치마다 맵을 변경합니다. 이것에 의해, FTW는 맵 레이아웃을 기억하는 것이 아니고, 범용적인 전략을 학습하게 됩니다. 게다가, AI를 인간과 같이 성장시키기 위해서, 종래의 게임용 AI와 같이 게임내의 파라미터를 직접 읽어내서 플레이하는 것이 아니고, 인간과 같이 화면상 픽셀을 인식시켜서 에뮬레이트한 컨트롤러로 조작을 합니다.


DeepMind 연구팀은, 인간 플레이어 40명과 FTW 에이전트 30을 랜덤으로 매치시켜, 45만회이상 CTF를 플레이시켰습니다. 각에이전트간에서는 리커런트(회귀형)뉴럴네트워크가 형성되어, 더욱 게임포인트에서 내발적 동기를 하게 배웁니다. 이것에 의해 CTF를 높은 수준으로 플레이하게 됩니다.



이하 무비에서, 실제로 FTW 에이전트가 인간과 CTF를 플레이하고 있습니다.


Human-level in first-person multiplayer games with population-based deep RL



이하 그래프는 FTW의 성장 상태를 표시한 것입니다.



또, 이하 무비 오른쪽 위에 표시되는 「Agent population」이라고 하는 그래프 부분에서, FTW 각에이전트가 회수에 따라서 Elo레이트를 부쩍부쩍 올리고 있습니다.


Capture the Flag: FTW agents training progression



FTW는 대량으로 CTF를 처리하는 동시에서, 「자신의  진지를 지킨다」 「상대 진지를 제압한다」라고 하는 부분뿐만 아니라 「팀 동료에게 추종해서 서포트를 한다」라고 하는, 인간과 협력하는 행동 습득에도 성공했습니다. 서로를 서포트하게 협동하는 이 행동은, 강화 학습과 집단 수준으로 진화의 과정에서 얻을 수 있다고 FTW 개발팀은 말하고, 현재 강화 학습을 집단 수준의 훈련 방법을 더욱 개선하고, 최종적으로 안정되어서 인간과 팀을 짤 수 있는 AI에이전트 개발을 목표로 하겠다고 말했습니다.


반응형