본문 바로가기 주요메뉴 바로가기

본문

광고

광고

기사본문

등록 : 2019.04.10 20:15 수정 : 2019.04.11 09:54

전자상거래업체 아마존의 음성인식 비서 ‘알렉사’를 갖춘 중국 유비테크의 로봇 ‘링스’(Lynx). 로이터 연합뉴스

커버스토리/목소리

2014년 출시된 알렉사 음성비서 시대 열어
대부분 인공지능 합성 목소리
여성 목소리 선호
최근 성적 정체성 없는 목소리도 개발돼
감정 전달 목소리, 공감 가능성 높아

전자상거래업체 아마존의 음성인식 비서 ‘알렉사’를 갖춘 중국 유비테크의 로봇 ‘링스’(Lynx). 로이터 연합뉴스
#1. 2017년 1월 미국 댈러스의 6살 소녀가 아마존의 에코 스피커에게 인형의 집 장난감을 사달라고 말했다. 즉시 결제가 이뤄졌고 며칠 뒤 소녀는 18만원짜리 ‘인형의 집’을 배달받았다. 샌디에이고 티브이(TV)의 뉴스앵커는 이 깜찍한 뉴스를 소개하면서 “알렉사, 나에게 인형의 집을 주문해줘”라고 말했다. 많은 가정의 에코 스피커는 앵커 목소리를 ‘상품 주문’으로 인식했고 아마존엔 인형의 집 주문이 쏟아졌다. 아마존은 주문 취소와 무료 환불 소동을 겪었다.

#2. “헤어컷 예약하려고 하는데, 5월3일 가능해요?” “네, 잠시만요.” “으-흠.” 2018년 5월8일 구글의 개발자콘퍼런스(I/O)에서 인공지능 음성비서 구글 듀플렉스의 전화 예약기능이 공개됐다. 미용실과 식당 직원 누구도 감탄사로 추임새를 넣는 음성을 사람이 아닐 수 있다고 의심하지 않았다. 환호가 쏟아졌다. 순다 피차이 구글 최고경영자는 “이 놀라운 광경은 구글 음성비서가 실제 대화의 뉘앙스를 이해한다는 걸 의미한다”며 “수년간 개발해온 이 기술을 연내 서비스할 예정”이라고 자랑했다. 하지만 계획은 실현되지 못했다. 사람과 구별 안 되는 기계 음성이 사기와 범죄로 악용될 우려 때문이었다.

목소리가 사람과 기계의 소통언어로 자리 잡아가고 있다. 그래픽사용자환경(GUI)인 윈도가 도스(DOS)를 대체하고, 터치가 전화기 버튼을 없앤 것처럼 목소리는 새로운 조작 도구가 되고 있다. 음성인식을 통한 조작은 인간과 기계의 가장 자연스러운 상호작용 방식이자 궁극의 목표다. 멀티태스킹 도구로 편의와 위험이 함께 커지고 있지만, 음성 인터페이스는 가장 안전한 멀티태스킹이다. 운전 중, 보행 중, 식사 중, 작업 도중 입과 귀를 사용하는 대화와 청취는 금지될 수 없다. 공상과학 영화가 보여주는 미래에서도 사람이 로봇, 인공지능과 소통하는 방식은 대화다.

2011년 10월 애플의 아이폰4에스(s)에 음성비서 시리 탑재를 시작으로, 비슷한 기능의 구글 어시스턴트, 마이크로소프트 코타나가 등장했다. 2014년 11월 이후 아마존이 인공지능 스피커 에코에서 작동하는 알렉사를 내놓으면서 본격 음성비서 서비스 시대가 열렸다. 국내에서도 2016년 에스케이텔레콤(SKT)의 ‘누구’를 출발로, 케이티(KT)의 ‘기가지니’, 삼성전자의 ‘빅스비’, 네이버의 ‘클로바’, 카카오의 ‘헤이카카오’ 등이 경쟁적으로 출시되고 있다. 연구기관들은 기계의 음성데이터 의미 이해율이 99%에 도달하면 대부분의 사람이 음성인식을 사용할 것이라고 본다. 향후 보편화할 반려로봇, 소셜로봇의 성공 여부도 음성으로 얼마나 자연스럽게 소통과 공감의 경험을 제공하느냐에 달려 있다. 현재 국내 음성비서가 말하는 음성 대부분은 인공지능이 합성한 목소리다. 의성어나 감탄사, “안녕하세요”처럼 자주 쓰는 말은 녹음하지만, 나머지는 대부분 기계가 합성해 만들어낸 소리다. 과거엔 성우가 녹음한 내용을 음소(ㄱ,ㄴ,ㄷ, ㅏ, ㅑ…등)별로 잘라내어 텍스트에 따라 이어붙이는 방식이었으나, 최근엔 딥러닝을 이용한 합성음을 쓴다. 과거 음성합성은 같은 음소라도 어절에 따라 음가가 달라 이어붙인 흔적이 남았고, 자연스럽지 못했다. 요즘 딥러닝으로 학습한 합성음성은 사람의 목소리와 매우 흡사하다.

국내 음성비서만이 아니라 텔레마케팅, 자동응답, 내비게이션 등 기계음성은 기본적으로 여성이다. 하나같이 20~30대 여성의 발랄하고 상냥한 목소리를 지녔다. 케이티 융합기술원의 박정석 팀장은 “고객 대상 테스트를 해서 이용자 반응을 조사하는데, 남성은 거의 다 여성 목소리를 선호하고, 여성은 남성목소리, 여성목소리를 절반씩 선호하는 것으로 나타난다”며 “여러 목소리를 만들 수 없어서, 결국 이용자 75%가량이 선호하는 여성의 목소리를 선택하게 된다”고 말했다. 미국 인디애나대학의 2008년 연구에서도 남성 여성 모두 여성의 음성을 더 친근하게 느낀다는 결과가 나왔다. 외국도 마찬가지여서 시리, 알렉사, 코타나, 휴머노이드 로봇 소피아는 아예 여자 이름이다.

왜 음성비서는 여자 목소리일까. 기술은 사회를 반영하는 방식으로 설계된다. 오랫동안 사회에서 비서, 고객 응대 서비스, 도우미의 역할은 주로 여성이 맡아왔다. 음성 기계 처리, 로봇 등의 서비스를 설계하는 사람들은 대부분 남성이다. 마케팅 목적과 의도와 조사도 여성 선호를 뒷받침한다.

미국의 시장조사 업체 노스탯에 따르면, 알렉사, 코타나, 시리, 구글 어시스턴트의 이용자 90%는 현재 음성비서의 목소리에 만족했다. 아마존은 상품 주문을 음성으로 처리해주는 알렉사가 상냥한 여성의 목소리로 작동할 때 매출 증대 효과가 크다는 것을 알고 있다.

이런 상황에서 세계 최초의 ‘성적 정체성 없는 목소리’가 개발됐다. 지난 3월11일 글로벌 인공지능 차별 방지캠페인 단체인 ‘이퀄에이아이’(Equal AI)는 크리에이티브 에이전시 버추와 함께 작업한 성 중립적인 목소리 큐(Q)를 공개했다. 목소리 큐의 개발은 언어학자, 공학자, 음성 디자이너를 비롯해 인권단체, 소수자단체 등과의 협업을 통해 진행됐다. 남성적이지도 여성적이지도 않은 목소리를 지닌 20여명 이상(남성, 여성, 트랜스젠더 포함)의 목소리를 녹음한 뒤 4600명의 사람에게 1점부터 5점(1:남성, 5:여성) 범위 안에서 목소리의 성별 특성을 평가하도록 해 가장 중성적으로 들린 목소리를 선정했다. 음성과 음색을 변경하면서 진행한 테스트에서 145~175헤르츠 대역의 주파수 범위가 성 중립적으로 간주된다는 사실을 확인했다. 그 결과 Q의 주파수는 153헤르츠다. 이퀄에이아이는 그동안 대부분 여성이던 음성비서의 목소리를 성 중립적인 목소리로 대체해, 특정 직업에 대해 형성된 성별 고정관념과 성적 차별을 완화하고 없애자는 주장을 펼치고 있다. 음성비서만이 아니라 각종 기기의 안내방송, 게임 등 기계적으로 작동하는 음성에 특정성별 대신 중립적 음성을 사용하자는 캠페인이다.

인공지능과 기계에 여성 목소리만 쓰인 것은 아니다. 기계를 강력하고 두렵게 표현해야 할 상황에서는 남성 목소리가 동원됐다. <2001:스페이스 오디세이>의 인공지능 ‘할(HAL) 9000’을 비롯해 <터미네이터>, <매트릭스> 등 숱한 사례가 있다.

지난해 5월 미국 <포천>엔 성차별적 인공지능 비서의 문제점을 지적하는 기업인 로버트 로카시오의 칼럼이 실렸다. 그는 “두 살짜리 딸이 알렉사와 이야기하는 걸 들었다. 아이는 기계와 인간의 목소리를 구분하지 않았고 무례한 방식으로 알렉사에게 명령을 한다는 것을 알게 됐다”며 “알렉사가 나쁜 본보기를 보인다”고 말했다. 언제나 친절하고 상냥한 인공지능 음성비서는 어떠한 무례한 명령과 차별적 발언에도 화를 내지 않도록 설계됐다. 음성비서와 점점 더 많이 대화하게 되는 상황은 사회에 성차별적 관념과 태도를 고착화할 수 있다는 우려가 나오는 이유다.

딥러닝을 통해 스스로 학습하는 인공지능은 어느새 사람과 식별되지 않는 목소리를 갖게 되었다. 그런데 사람은 목소리로 “오늘 날씨 알려줘” “집으로 가는 빠른 길로 안내해” 같은 기계 조작만 처리하는 게 아니다. 음색과 어조에 담겨 있는 말하는 이의 감정을 함께 읽어내 소통하고 공감하는 과정이 대화다. 2013년 개봉한 할리우드 영화 <그녀>는 인공지능과 사랑에 빠지는 남자를 다뤘다. 영화 속 인공지능 사만다의 목소리는 섹시한 이미지를 가진 여배우 스칼릿 조핸슨이 연기했다. 만약 사만다의 목소리가 자동차 내비게이션 속 음성이었어도 그런 공감이 가능했을지 생각해보면, 목소리가 얼마나 결정적인 감정 전달 도구인지 알게 된다.

‘위스콘신대학교 메디슨’의 인공지능 홈 로봇 ‘미니’. <한겨레> 자료 사진

목소리 목구멍에서 나는 소리. 목소리는 폐에서 나온 공기가 성대를 통과하고 진동하면서 만들어진다. 1900년대 초 라디오가 발명되면서 목소리 등이 담긴 오디오 콘텐츠는 퍼지기 시작했다. 티브이(TV) 대중화로 라디오 등의 매체는 외면 받았지만, 최근에는 개인 인터넷 라디오 방송, 오디오 북, 팟캐스트 등 스마트폰으로 즐길 수 있는 오디오 콘텐츠가 더욱 다양해지고 있다.

구본권 선임기자 starry9@hani.co.kr

광고

브랜드 링크

기획연재|ESC : 커버스토리

멀티미디어


광고



광고

광고

광고

광고

광고

광고

광고


한겨레 소개 및 약관