구글

「복수의 소리가 혼합된 음성으로부터 특정한 1명의 목소리만을 뽑아 내는 기술」을 딥러닝을 이용해서 구글이 개발

나나시노 2018. 4. 12. 18:30
반응형




「복수의 소리가 혼합된 음성으로부터 특정한 1명의 목소리만을 뽑아 내는 기술」을 딥러닝을 이용해서 구글 개발





많은 사람이 모이는 파티 회장과 같은, 많은 사람들이 담소하고 있는 중에서도 자신의 이름이나 흥미가 있는 이야기를 저절로 알아 들을 수 있는 현상은 「칵테일 파티 효과」라고 불려, 인간이 가지는 능력 「선택적 주의」의 대표예로 여겨지고 있습니다. Google 연구자는, 딥러닝을 이용하는 것으로 컴퓨터에 자동으로 서로 섞인 음성을 분리하는 기술을 습득시켜서, 컴퓨터에 칵테일 파티 효과를 익히게 하는 것에 성공했습니다.


[1804.03619] Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation



Looking to Listen: Stand-up




Google이 발표한 「Looking to Listen」 기술로 특징적인 점은, 음성을 분리하기 위해서 무비 청각신호와 시각신호 양쪽을 통합하는 점에 있습니다. 입 움직임이나 행동은 그 사람이 이야기하는 목소리와 상관이 있어, 그 사람이 이야기하는 목소리를 특정하는 것에 도움이 됩니다. 청각신호만을 사용한 음성분리 기술로 비해, 시각신호를 같이 채용했을 경우는 음성분리 품질을 대폭으로 향상시키는 것을 가능합니다.


러닝 교재로서, Google 연구팀은 YouTube로부터 10만이나 되는 강의나 강연 무비를 수집하고, 그 안에서 배경 잡음이나 다른 사람이 이야기하는 소리가 없고, 무비에 발화자 1명밖에 비치지 않는 「깨끗한 음성과 영상」을 약2000시간분 추출했습니다. 이 깨끗한 음성과 영상을 복수합성하고, 연구팀은 「인공에 의한 칵테일 파티」를 작성하고, 인공지능에 학습을 시킵니다. 그 결과, 선택한 인물이 이야기하는 목소리를 강조하고, 관계가 없는 소리를 억제하는 것이 가능해졌다고 합니다.




또, 같은 인물이 동일한 무비에 비쳐서 전혀 다른 것을 이야기하고 있을 경우라도, 시각신호를 채용한 학습으로 시키는 것으로 음성을 분리하는 것에 성공했습니다. Google의 CEO 선다 피차이씨 스피치를 합성한 이하 무비에서는, 같은 인물에 의한 발화가 혼재하고 있는데도 불구하고, 인공지능이 선택적으로 음성을 분리합니다.



Looking to Listen: Double Sundar



Google이 「Looking to Listen」 기술을 사용한 폭넓은 애플리케이션을 상정하는 것으로, 앞으로 우리들이 가까운 곳에도, 「Looking to Listen」이 응용될지 모르겠습니다.



반응형