엘론 머스크

AI를 경쟁시키게 하는 것으로 독자적인 스킬을 익히게 하는 기묘한 무비

나나시노 2017. 10. 12. 19:16
반응형




AI를 경쟁시키게 하는 것으로 독자적인 스킬을 익히게 하는 기묘한 무비



스킬을 염두에 둔 환경을 명시적으로 설계하지 않아도, 인공지능(AI)은 스스로 물리적인 스킬을 익힐 수 있다고 하는 것이 발견되었습니다. 이 AI가 독자적으로 만들어 낸 「물리적인 스킬」에는 볼에 대하여 태클하거나 페이크를 걸거나 킥하거나 캐치하거나 뛰어들거나, 다양한 액션이 포함되어 있습니다. 이러한 AI에 의한 셀프 플레이는 AI를 개량하기 위한 환경이 항상 올바른 것을 보증하는 것이고, 장래적으로는 강력한 AI시스템의 핵심으로 결정된다고 OpenAI는 생각하고 있다고 합니다.




AI를 오픈 소스화하기 위한 비영리 연구기관으로서 설립된 OpenAI는 시뮬레이터 속에서 3D로봇 2개에 대하여 간단한 경쟁을 촉진시키고, AI가 어떻게 경쟁 내용을 개선하는 것일지를 해석했습니다. 설정된 경쟁은 「씨름」나 「축구의 PK」와 같은 것, 하나는 링 안에서 상대를 밀어내면 승리, 또 하나는 넷에 볼이 접촉하면 승리라고 하는 이해하기 쉬운 룰의 물건입니다.


에이전트는 「기립해서 전진」이라고 한 탐사를 지원하는 행동을 하면, 그것에 대한 보수를 얻을 수 있습니다. 그러한 간단한 보수를 되풀이해 받으면서 경쟁을 되풀이하는 것으로, 에이전트는 「태클」 「더킹」 「페이크」 「킥」 「캐치」 「다이빙」이라고 한 동작을 학습했습니다. 한편, 각에이전트의 뉴럴네트워크 정책은 독립한 정책 최적화로 개별로 훈련되고 있다고 합니다.


실제로 AI가 독자적으로 짜낸 스킬은 이하 무비로 확인할 수 있습니다.



Competitive Self-Play






각각 스킬이 필요로 하는 태스크나 환경을 정비하는 것은 가능합니다만, 인간인 디자이너 노력과 연구가 필요해, AI가 어떤 스킬을 짜낼지는 각각 경우에 의해 다릅니다. 그러나, 몇 번이나 되풀이 반복 시행하는 것으로 AI의 퍼포먼스를 향상시키는 것을 가능하고, 실제로 Dota 2(도타 2) 프로젝트에서는 AI를 경쟁시켜서 셀프 플레이시키는 것으로 인간의 톱 레벨 e스포츠 선수에게 이길 수 있는 AI에이전트를 작성하는 것에 성공했습니다.



반응형