AI가 리스크와 비용을 사전에 고려해서 강화 학습을 하기 위한 툴 군 "Safety Gym"을 OpenAI가 발표
종래의 강화 학습에서는, 에이전트는 몇번이나 실패나 충돌을 되풀이하면서 학습을 거듭해 갑니다. 그러나, 이것은 시행 착오의 원칙에 근거해서 동작·학습하는 것 뿐이며, 에이전트는 행동의 선/악을 검토하지 않고, 안전성이 보장되지 않습니다. 인공지능(AI)을 연구하는 비영리 단체 OpenAI는 "종래의 강화 학습에서는, AI가 위험한 동작에 의해 예측할 수 없는 에러를 일으킬 가능성이 있다"라고 지적하고, 안전상 제약을 존중하면서 에이전트의 강화 학습을 하기 위한 툴 군 "Safety Gym"을 발표했습니다.
Safety Gym은, 강화 학습 에이전트, 또는 보수나 벌에 의해 목표를 향하는 모티베이션이 유지되는 AI에 적합하게 설계된 모듈입니다. OpenAI는 Safety Gym에 AI가 자동으로 비용을 생각하면서 시뮬레이션해 학습하는 "제약이 있는 강화 학습"을 도입했습니다.
제약이 있는 강화 학습에서는, 에이전트가 학습 시작시에 비용 목표를 설정하고, 보수와 벌을 사용해서 학습을 합니다. 즉, 제약이 있는 강화 학습에서는, AI는 사전에 위험성을 예측하는 것이 요구됩니다.
Safety Gym은 혼잡한 환경을 안내해서 목표 도달을 달성하기 위해서 "Point" "Car" "Doggo"라고 하는 3가지 에이전트를 이용합니다. 또, 지정된 지역에 향하는 "Goal", 평면상의 체크포인트를 연속으로 통과하는 "Button", 오브젝트를 지정된 장소에 누르는 "Push"라고 하는 3가지 태스크가 설정되어 있습니다. 한편, 태스크 레벨은 2단계 준비되어 있어, 에이전트가 안전하지 않은 액션을 실행하는 때마다, 빨간 경고등이 에이전트 주위에서 점멸합니다.
"Point"는, 회전 액추에이터와 전후 이동용 액추에이터를 구비한 로봇이 2D평면상을 달립니다.
"Car"는 독립해서 구동하는 전륜 2개와 자유롭게 회전하는 후륜 1개를 갖춘 로봇이 움직입니다. Car의 로봇이 방향전환하거나 움직이거나 하기 위해서는 전륜 2개를 동시에 조작할 필요가 있습니다.
"Doggo"는 다리를 4개 가진 좌우 대칭 로봇 시뮬레이션. 다리는 동체에 대하여 방위각과 앙각을 조작할 때가 있어, 각도조정용의 관절이 하나 붙어 있고, 로봇이 전도하지 않도록 조작해야 합니다.
OpenAI는, Safety Gym은 아직 개발 도상이기 때문, 다른 문제설정이나 안전기술로 조합시키기 위해서는 아직 많은 작업이 필요하다고 하고, "퍼포먼스 향상" "안전한 전이 학습과 분포 시프트 문제를 조사" "인간 기호 등과 조합시킨 제약 있는 강화 학습 실현"이라고 하는 과제를 3가지 제시합니다.
OpenAI는 'Safety Gym과 같은 시스템에 의해, AI 개발자가 개방적이고 공유된 시스템으로 작업하는 것으로, AI분야전체의 안전성에 관한 공동작업이 용이해지는 것도 기대하고 있습니다'라고 진술했습니다.
'구글' 카테고리의 다른 글
구글 클라우드 게임 "Stadia" 공식 동영상이 "너무 촌스럽다"고 혹평 (0) | 2019.11.25 |
---|---|
기자 "구글 『Stadia』는 대실패" (0) | 2019.11.22 |
구글 기대 『Stadia』 데이터 통신량ㅋㅋㅋ (0) | 2019.11.22 |
Google AI스타트업 프로그램에 참가한 일본 여성 CEO가 이야기하는 "AI가 바꾸는 일본의 일하는 방법"이란? (0) | 2019.11.21 |
유튜브 집단 체포된다! 유령으로 변장해 통행인을 놀라게 한 것이 문제 (0) | 2019.11.20 |