IT,과학

딥러닝을 사용해서 실시간으로 목소리를 보컬로이드로 변환하는 시도

나나시노 2018. 2. 20. 09:49
반응형




러닝을 사용해서 실시간으로 목소리를 보컬로이드로 변환하는 시도



인공지능(AI)을 이용해서 자신의 목소리를 리얼타임으로 VOCALOID 「結月ゆかり/유즈키 유카리로 변환하는 것에 성공한 것이 프로그래머의 히호씨. 도대체 어떠한 것인가라고 하는 것은 이하 무비를 보면 압니다.


ヒホ(ヒロシバ) (@hiho_karuta) | Twitter



ディープラーニングの力で結月ゆかりの声になってみた



ディープラーニングの力で結月ゆかりの声になってみた






이 「AI를 이용해서 유즈키 유카리의 목소리가 되어 보았다」 수법이 기술적인 상세에 대해서는, 히호씨가 블로그에서 설명하고 있습니다.




CG나 모션 캡처 기술의 발전에 의해, 모습을 버추얼로 변환하는 사람이 늘어나고 있습니다만, 목소리에 관해서는 많은 과제가 있습니다. 그 과제라고 하는 것은 「지연」 「음질」 「복수의 말하는 사람」등으로, 이것들을 해결한 저지연 고음질 성질 변환을 목표로 해서 딥러닝을 이용했다고 합니다. 히호씨는 생각을 짜낸 점으로서, 「이미지 딥러닝 분야에서 성능이 좋았던 모델을 사용했다」 「성질 변환을 『저음질 성질 변환』부분과 『고음질화』 부분에 나누었다」 「음향특징량을 변환하는 1차원의 pix2pix 모델, 스펙트로그램을 변환하는 2차원의 pix2pix 모델을 사용했다」라고, 3가지를 올렸니다. 블로그에서는 실제로 성질 변환의 과정이 틈으로 살짝 보이는 입력 음성이나 변환 음성이 삽입되고 있으므로, 귀로 성질 변환의 과정을 확인할 수 있습니다.


한편, 딥러닝으로 유즈키 유카리의 목소리가 되기 위해서 사용한 코드는 이하로 공개되고 있으므로, 딥러닝으로 목소리를 학습시키면 누구나 유즈키 유카리가 될 수 있습니다.



반응형