구글

눈으로 보이는 정보로부터 「보이지 않는 부분」을 추측해서 3D모델을 생성하는 「GQN」

나나시노 2018. 6. 18. 12:02
반응형




눈으로 보이는 정보로부터 「보이지 않는 부분」을 추측해서 3D모델을 생성하는 「GQN」



사람이 테이블 책상등 큰 널빤지와 다리 3개를 눈으로 확인하면, 「뒤에 4개째 다리가 있다」라고 머리 에서 멋대로 추측합니다. 이러한 작업은 인간에 있어서는 용이한 것입니다만, 인공지능에 있어서는 대단히 곤란한 작업이다고 여겨지고 있습니다. 구글 모회사 Alphabet산하 AI기업 DeepMind는 시인할 수 있는 정보로부터 눈으로 보이지 않는 부분을 추측하는 「Generative Query Network(GQN)」를 개발했습니다.



https://deepmind.com/blog/neural-scene-representation/



GQN은 입력된 이미지로부터 물체 형상과 위치 관계를 예상하고, 3D공간을 생성하는 것입니다. GQN 구조에 대해서는, DeepMind가 무비로 해설합니다.



Generative Query Networks



또, GQN으로 생성한 3D공간은 지정한 시점이외에도, 좋아하는 시점에서 볼 수 있습니다. 예를 들면,「observations(관측)」에 있는 이미지가 입력되면, GQN은 「neural rendering(뉴럴 표현)」에 예측한 3D공간을 생성하면……


FPS 게임을 플레이하고 있는 것 같이 시점 위치를 연속적으로 바꾸는 것을 가능합니다.


DeepMind에 의하면, 현시점의 GQN에서는 해상도가 낮은 모델만이 작성가능하다고 합니다. 그러나, 앞으로의 하드웨어 진보 등에 의해, GQN으로 보다고해상도 모델에도 대응가능해진다고 해, VR이나 AR 응용도 시야에 감안하고 있습니다.



반응형