IT,과학

구글의 자매기업이 헤이트 스피치를 검출하는 툴「Perspective」를 발표, 전문가가 정밀도 검증한 결과는?

나나시노 2017. 8. 22. 10:10
반응형



구글의 자매기업이 헤이트 스피치를 검출하는 툴「Perspective」를 발표, 전문가가 정밀도 검증한 결과는?





Alphabet그룹 산하에서 Google의 자매기업이 되는「Jigsaw」가, 기계학습으로 인터넷상 헤이트 스피치를 자동적으로 검출하는 툴 「Perspective」를 발표했습니다. 웹 사이트상에 있는 댓글 등에 구현하는 것으로 헤이트 스피치의 확산을 막을 수 있는 API입니다만, 많은 헤이트 스피치가 아닌 댓글까지 「유해하다」라고 간주해버리는 것을 알고 있습니다.


Jigsaw가 공개한 「Perspective」는, 공식 웹 사이트상으로 댓글 입력 란이 있어, 써 넣어진 내용이 「유해성」을 누구나 간단히 시도할 수 있게 되고 있습니다. 이 기능을 많은 전문가가 시험한 결과,「hate is bad.(헤이트는 나쁜 것이다)」 「garbage truck(쓰레기 수집 차)」라고 한 무해한 워드를 유해한 헤이트 스피치라고 판단하고 있는 것이 보고되고 있습니다.



예를 들면 이하의 예에서는, 「Racism is bad.(인종 차별 주의는 나쁜 것이다)」가 「60% 확률로 유해한 말」이라고 판단되고 있고,「Racism is good.(인종 차별 주의는 좋은 것이다)」는 「35% 확률로 유해한 말」이라고 판단되고 있어, 인종 차별을 권장하는 것 같은 말이 낮은 유해성을 가리키고 있습니다.





Google의 전엔지니어로 MIT Tech Review의 기자인 David Auerbach씨는, 스스로 Perspective에 다양한 댓글을 입력하고, 그 결과를 기록한 리스트를 Facebook에 투고하고 있습니다.「Donald Trump is a meretricious buffoon(도널드 트럼프는 가치가 없는 무기력하다)」「few muslims are a terrorist threat(몇 명의 무슬림은 테러의 위협이다)」이라고 한 말이 정확하게 높은 유해성을 나타내고 있고 「I fucking love you man.  Happy birthday(너를 젠장 사랑하고 있다. 생일 축하합니다)」라고 하는 말이 그것들에 늘어서는 높은 유해성을 나타내고 있어, 「F워드」등, 분별해서 사용함이 어려운 모양. 단, 만약 웹 사이트의 검증 툴로 Perspective의 판단이 틀렸을 경우는, 피드백을 송신해서 틀림을 정정할 수 있게 되고 있습니다.





한편, Jigsaw의 개발팀은 이 문제를 인식하고 있어, Perspective는 대규모인 배치의 준비가 갖추어지지 않고 있는 「알파 판」의 실험적 툴인 것을 강조하고 있습니다. 이미 Jigsaw는 Wikipedia나 The New York Times와 서로 손을 잡고, 몇백만 건 댓글을 수집해서 유해성을 판단시킨 훈련 세트를 사용하고 있는 것입니다만, 미완성인 상태의 Perspective를 공개한 이유는, 기계학습 툴인 Perspective가 리얼한 학습 데이터를 얻기 위해.


Jigsaw의 제품 매니저인 CJ Adams씨는 「Perspective가 사용에 따라서, 더 많은 폭언의 샘플이 계속해서 모여, 전세계의 사용자가 틀림을 정정하는 것으로, 헤이트 스피치를 검출하는 능력이 향상하는 것에 기대하고 있습니다」라고 함께 이야기 하고 있습니다.



반응형