페이스북

페이스북이 기계번역 질을 극적으로 향상시키는 AI 기술을 개발

나나시노 2018. 9. 3. 15:09
반응형




페이스북이 기계번역 질을 극적으로 향상시키는 AI 기술을 개발



구글 번역은 2016년에 「뉴럴 기계번역(Neural Machine Translation/NMT)」이라고 하는 시스템을 도입하는 것으로 번역 질이 극적으로 향상했습니다. 그러나, 기존의 시스템은 인간이 작성한 「훈련 데이터」를 필요로 하는 약점이 있었다고 해서, 새롭게 Facebook이 훈련 데이터를 필요로 하지 않는 AI 기술을 개발. 이것에 의해, 지금까지는 번역 질이 좋지 않았던 소규모인 언어도 극적으로 향상했습니다.


https://arxiv.org/pdf/1804.07755.pdf



2015년에 캐나다 연구 기관인 Montreal Institute for Learning Algorithms(MILA)에 의해 (PDF파일)기계번역을 가능하게 하는 AI 기술이 개발되었습니다. 구글 번역에도 이용당하는 MILA 뉴럴 기계번역(Neural Machine Translation/NMT)은, 문장을 프레이즈마다 번역하는 것이 아니고 한번에 모든 문장을 번역하는 것으로, 문맥에 의해 변화되는 단어의 의미도 고려할 수 있습니다. 뉴럴 기계번역에 의해, 구글 번역 질은 비약적으로 향상했습니다.


단, 뉴럴 기계번역은 번역을 하는 2개국어 문장 페어를 필요로 었습니다. 영어와 스페인어간 번역을 하기 위해서는 「I like to eat(영어)」와 「me gusta comer(스페인어)」의 2개가 필요해서, 이러한 페어가 충분하지 않은 영어·우르드어간 번역 등은 잘 기능하지 않았습니다. 번역 정밀도를 올리기 위해서, 연구자는 이러한 페어를 필요로 하지 않는 시스템 개발에 주력했습니다.


그리고, 2018년8월, Facebook AI Research(FAIR) 연구자들은, 우르드어·영어간과 같이 페어가 적은 언어에 있어서의 번역을 극적으로 향상시켰다고 발표했습니다.


기계번역결과 자동평가 기준의 하나인 BLEU(Bilingual Evaluation Understudy)에서는, 1BLEU 포인트가 「놀라운 성과」라고 평가되나, 페이스북 새로운 기술은 10BLEU 포인트이상의 향상이 보였습니다.


AI에 기계학습을 행하게 할 경우, 미리 준비해둔 훈련 데이터(Labeled data)를 학습시킬 필요가 있습니다. 이 훈련 데이터 작성은, 지금까지 인간이 수동으로 할 필요가 있어, 방대한 노동력을 필요로 했습니다. Facebook의 새로운 기술은 훈련 데이터 작성을 필요로 하지 않고, 예를 들면 「고양이」라고 하는 라벨이 붙어 있 훈련 데이터가 없더라도 사진에 있는 것이 고양이인가 아닌가를 판단할 수 있습니다. 이 기술에 의해, 이미 상실된 과거의 언어로 쓰여진 문서를 번역하거나, 스와힐리어와 같은 잘 사용되지 않는 언어를 실시간 번역하는 것을 가능해진다고 생각됩니다.


반응형