IT,과학

트위터가 AI기술에 의한 이미지 자동 트리밍 최적화를 도입

나나시노 2018. 1. 26. 13:36
반응형

트위터가 AI기술에 의한 이미지 자동 트리밍 최적화를 도입



트위터에 투고한 이미지는 UI 디자인에 맞춰서 자동으로 트리밍됩니다만, 「생각하고 있었던 것이라고 다르다……」라고 하는 것도 자주 있었습니다. 트위터는 AI기술을 활용하는 것으로, 종래부터도 빠르게 동시에 최적인 트리밍이 가능하게 되었다고 공식 블로그에서 발표했습니다.





2011년에 이미지투고가 가능하게 된 트위터에서는 스마트폰 등 화면 레이아웃에 따라서 사진을 트리밍한 뒤에서 섬네일(프리뷰)로서 표시해 왔습니다. 그러나, 자동 트리밍 기능 정밀도가 낮기 때문, 생각대로 이미지가 안나온다라는 것도 자주이었습니다. 지금까지도 얼굴검출 기능 등을 사용하고, 사진에 비치는 인물 얼굴에 포커스를 맞춰서 이미지를 트리밍하는 것으로, 트윗하는 사람 이미지에 가까운 섬네일 작성을 목표로 삼고 있었지만, 모든 사진에 인물이 등장할 일도 없고, 잘 안되었다라고 합니다. 한편, 얼굴을 검출할 수 없을 경우는 기본적으로는 사진의 중심을 기준으로 트리밍하게 되는 유감스러운 사양이었던 것 같습니다.



왼쪽이 종래 자동 트리밍. 오른쪽은 이상적인 자동 트리밍.



거기에서 트위터에서는 자동 트리밍 기능을 개량하기 위해서, 이미지내 「salient」 영역으로 포커스를 충당해서 트리밍한다고 하는 아이디어를 도입하게 되었습니다. salient 영역이란, 이미지를 본 사람이 시점을 충당할 가능성으로 높은 영역인 것입니다.




일반적으로 인간은 이미지에 있는 「얼굴」 「텍스트」 「동물」등의 물체 이외에, 콘트라스트가 높은 부분에 주의를 기울이는 경향이 있는 것부터, 트위터는 뉴럴네트워크나 특정한 알고리즘을 단련하는 것으로, 사람이 무엇을 보고 싶은 것일지를 정확하게 예측하는 기술을 개발했습니다.




기계학습 기술진보에 의해 사람이 주목하기 쉬운 「salient 영역」을 예측하는 정밀도는 대단히 높아지고 있는 것입니다만, 여러 이미지를 투고하면 트위터라고 하는 서비스의 특징으로부터, 대량 이미지를 읽어서 단련한 뉴럴네트워크를 이용해서 이미지를 트리밍한다고 하는 방법에서는 시간이 너무 걸려서 부적당했습니다. 트위터에 있어서 세밀한 픽셀 수준에서의 예측은 불필요하고, salient 영역이 어디에 있는 것일지를 대범하게 알 필요가 있기 때문에, 「knowledge distillation(지식의 증류)」라고 불리는 수법으로, salient 영역을 예측하는 네트워크 사이즈를 대폭으로 절감하기로 했다고 합니다.




"지식의 증류"에 의해 사이즈를 절감한 뒤에서, 「pruning(전정)」이라고 불리는 작업에 의해, 이미지검출 정밀도에 기여하지 않는 비교적 연산 능력을 낭비하는 특징을 제거한다고 하는 작업을 했습니다. 뉴럴네트의 증류와 전정이라고 하는 AI기술 2종을 조합시키는 것으로, 기계학습을 이용해서 예측한 「salient 영역」에 근거해서 이미지를 트리밍하는 속도가 종래 기술에 비교해서 10배 고속화할 수 있었다고 트위터는 진술하고 있습니다.


투고시에 대부분 기다리는 시간이 걸릴 일 없고 자연스러운 트리밍이 가능한 새로운 기술에 의해, 종래는 「발밑」에 포커스를 충당해버리고 있었던 유감스러운 섬네일은 「어린이의 표정」에 포커스를 충당한 트리밍이 가능하게 됩니다.



물건이 많이 있는 상황이라도, 텍스트 등 중요한 요소를 정확하게 간파해서 처리할 수 있게 되었습니다.




이미지를 몇개 투고했을 경우라도, 빠짐없이 최적화되고 있습니다.



AI기술을 활용한 자동 트리밍 기능은 브라우저, iOS/Android 앱으로 이미 도입되고 있습니다.



반응형