구글

<구글 듀플렉스>구글이 「전화로 인간과 자연스럽게 대화를 해서 태스크를 완료하는 AI」를 개발중

나나시노 2018. 5. 9. 21:37
반응형




<구글 듀플렉스>구글이 「전화로 인간과 자연스럽게 대화를 해서 태스크를 완료하는 AI」를 개발중



2018년5월8일∼10일 기간에 개최중인 Google 개발자대상 이벤트 「Google I/O 2018」에 있어서, Google이 AI를 사용한 다양한 기술을 발표했습니다. 발표된 기술에 하나인 「Google Duplex」는 AI가 전화로 인간과 이야기하고, 태스크를 완료시키는 시스템이 되고 있어, 그 상세가 Google 블로그에 정리되었습니다.




Google는 딥 러닝에 의해 자연스러운 인공음성을 생성하는 뉴럴네트워크 「WaveNet」를 개발하고, 「구글 어시스턴트」에 탑재하는등 인공음성에 의한 인간과 교환에 주력했습니다. 뉴럴네트워크에 의한 딥 러닝 기술을 이용하는 것으로, 상당한 정밀도로 인간과 가까운 자연스러운 발성을 생성하는 것은 가능해졌지만, 여전히 「컴퓨터적」이나 단단한 어조와, 인간의 어조를 알아들을 수 없다라고 하는 문제가 남아있었습니다.


연구팀이 개발한 Google Duplex는, 「전화를 통해서 실세계 태스크를 완료시킨다」 것을 가능하게 한 기술이며, 특정한 이벤트를 스케쥴한 태스크를 할 수 있다. 이하 음성은 위쪽이 「Google Duplex가 미용실에 예약하는 음성」으로, 아래쪽이 「Google Duplex가 레스토랑에 예약하는 음성」입니다. 둘다 유창한 영어로 Google Duplex가 점원과 이야기하고 있어, 「전화하고 있는 분이 Google Duplex다」라는 것을 알 수 없는 정도로, 인간끼리의 교환이라고 생각해버립니다.




연구팀은 Google Duplex에 학습시키는 데이터와 사용 목적을 대단히 한정적인 범위에 제한하는 것으로, 마치 인간과 같은 대화를 실현했습니다. Google Duplex는 어떤 특정한 용도에 특화한 대화 AI이며, 잡담과 같은 일반적인 대화는 불가능하다고 합니다.


Google Duplex 기술은, 「전화하는 상대」도 이 형식 대화 경험을 쌓아 있는 것이 중요합니다. Google Duplex는, 먼저 최초에 「자신이 콜한 의도」를 명확히 전하고, 전화 상대와 Google Duplex가 공통인 목적을 가져서 대화를 하도록 합니다.




인간이 하는 「자연스러운 대화」는, 음성인식 기능을 탑재한 컴퓨터에 대하여 말을 걸 때와 다르고, 대단히 복잡한 문장으로 이야기하는 적이 많습니다. 이야기하고 있는 도중에 전언을 정정하거나, 필요이상에 같은 말을 되풀이하거나, 「상대도 이해하고 있을 것이다」라고 하는 말을 생략해버리거나 하기 때문에, 기계에 있어서는 이해가 곤란합니다. 또, 통화중의 백그라운드 노이즈도 AI 음성인식을 어렵게 하는 요인이며, 음질이 나빠짐에 따라서 AI의 「단어 잘못율」이 상승한다고 합니다.


게다가, 인간끼리 대화가 길어진다고, 전혀 같은 말이라도 다른 의미를 가질 것이 있습니다. 예를 들면 「Ok for 4」이라고 하는 말이 가게 예약 즈음에 사용되었을 경우, 이 「4」이 「4시」라고 하는 시간을 의미하는지, 아니면 「4명」이라고 하는 인원수를 의미하는지, 지금까지 주고 받은 대화 문맥에 좌우됩니다. 한동안 앞에서 나온 말이 현재에 영향을 주고, AI 처리를 복잡화하는 것입니다.



Google Duplex는 구글 음성인식 기능(ASR)로 상대 음성을 인식할뿐만 아니라, 지금까지 상대와 주고 받은 대화한 이력, 대화의 목적이나 현재 시간 등 정보를 바탕으로 하고, 최적인 응답을 만들어 냅니다. 문맥을 스코어화해서 판정하고, 상대가 한 말이 불완전하여도 그 의미를 추측하고, 대화를 계속할 수 있습니다. 자연스러운 응답을 학습시키기 위해서, AI는 익명화된 전화 데이터 코퍼스를 이용하고, 응답 모델을 구축하고 있습니다.



또, 더 인간다운 자연스러운 발성이 되게, 시스템 처리중에 「hmm(움)」 「uh (아)」이라고 한 뜻이 없는 음성을 발하고, 응답을 생각하고 있는 것을 상대에게 알리는 시스템도 갖추어져 있습니다. 연구팀이 실제하는 인간 대화를 분석한 결과, 이 뜻이 없는 목소리는 대단히 많이 사용되고 있어, 자연스러운 대화를 연출하는데도 도움이 된다고 합니다.


더해서, 인간은 「Hello(안녕하세요)」과 같이 단순한 말에 대하여는 즉석 응답을 기대할 뿐, 오래 복잡한 말 뒤에 즉석 응답이 돌아오면 부자연스럽게 느껴버립니다. 그 때문에, 처리능력을 한계까지 사용해서 상대에게 즉답하는 것 보다도, 어느정도 지연을 대화에 짜 넣는 것이 보다 인간다운 대화가 됩니다.



Google Duplex는 기본적으로 인간 관여 없이 자율적으로 대화를 하고, 태스크를 완료하는 것이 가능합니다. 한쪽에서 Google Duplex에는 자기감시 기능도 탑재되고 있어, 대단히 복잡할 예정인 스케줄링이나 예정외 대화 등, Google Duplex에서는 전부 대처할 수 없는 상황이 되었을 경우는, 인간 오퍼레이터에게 신호를 보내서 도움을 요구할 수 있습니다.


사용자는 기업에 전화할 때에, 스스로 기업과 주고받고 할 필요가 없고, 단지 Google Duplex와 주고받고 하는것만으로 스케쥴을 짤 수 있습니다. 「이것은 사용자 수고를 감소시킬뿐만 아니라, 청각이나 발화에 장해를 가지는 사용자나, 현지의 말을 모르는 사용자가 있어도 큰 이점이 됩니다. 액세서빌리티나, 언어의 벽에 대처하는 점에서도 도움이 될 것이다」라고 연구팀은 말했습니다.



반응형