개인화 음성합성기술 활용한
KT ‘내 목소리 동화’ 서비스
1시간반 동안 300문장 읽으니
‘기가지니’가 기자 목소리 흉내
녹음·합성 시간 단축이 기술력
향후 다양한 범위 서비스 늘듯
▶영상 바로가기: https://youtu.be/3DIb9F9ATNE
기자에겐 6살, 3살 아이가 있다. 매일 퇴근 뒤 집에 들어가면 ‘독서 미션’이 기다리고 있다. 잠들기 전 침대에서 “이거 읽어줘, 저거 읽어줘”하는 아이들의 요구 말이다. 큰 아이와 작은 아이의 책읽기 취향이 다르기 때문에 기자와 아내가 동시에 투입돼야 한다. 기자는 등만 대면 잠들기 때문에 책을 읽어주다 잠드는 날이 숱하다.
이런 아빠·엄마의 고충을 조금이나마 덜 수 있는 서비스가 나왔다. 케이티(KT)가 지난 2일부터 체험서비스를 시작한 ‘내 목소리 동화’다. 케이티 인공지능 서비스인 ‘기가지니’에 아빠·엄마의 음성을 인식시키면 인공지능 스피커가 아빠·엄마의 목소리로 대신 책을 읽어준다.
이 서비스엔 ‘개인화 음성합성 기술’이 적용됐다. 이 기술은 사용자의 음색과 억양·어조·끊어 읽기 등을 인공지능 시스템이 학습하고, 전문 성우의 장시간 녹음을 통해 텍스트를 음성으로 바꿀 수 있는 ‘베이스 모델’이 사용자의 목소리를 성대모사하는 것을 말한다. 쉽게 말해, 케이티 기가지니의 ‘지니’가 내 목소리를 흉내내는 것이라고 보면 된다.
개인화 음성합성기술은 시장에 하나둘씩 나오고 있다. 네이버의 경우 배우 유인나씨가 녹음한 음성을 합성해 오디오북과 인공지능 스피커의 안내음성으로 활용하고 있다. 케이티도 지난해 ‘박명수를 이겨라’라는 게임에 개그맨 박명수씨의 음성을 활용했다. 유튜브 등을 보면 연구자들이 문재인 대통령이나 도널드 트럼프 미국 대통령의 목소리를 합성해 소개하는 동영상들도 많다.
자연스러운 음성합성을 위해서는 말하는 사람의 음성 특성을 파악해야 한다. 이를 위해선 많은 양의 데이터가 필요하다. 때문에 기업들은 일반인들이 짧은 시간 적은 양의 음성을 녹음하더라도 제대로 된 결과물이 나올 수 있도록 경쟁하고 있다. 지난 6일 네이버의 인공지능 콜로키움 행사에서 김성훈 네이버 클로바 리더는 자신이 40분동안 500문장을 학습시킨 음성합성 결과물을 내놓았다. 행사에서 김 리더는 합성된 자신의 음성을 틀어놓고 ‘립싱크’로 발표를 진행했지만 많은 이들이 알아채지 못해 화제가 됐다.
이번에 케이티가 내놓은 ‘내 목소리 동화’는 30분동안 300문장을 합성시키면 음성합성 결과물을 받아볼 수 있다. 그러나 30분안에 모든 녹음을 하는 것은 불가능했다. 기자가 해보니 1시간30분 남짓 걸렸다. 문장 하나 읽는데 6~10초정도의 시간이 걸리는데, 문장 사이에 대기시간이 있고 잘못 읽은 문장은 다시 읽어야 했기 때문이다. “이 요리는 단호박의 씨를 파내고 찜통에 푹찐 후 껍질을 벗겨 곱게 으깨야 합니다”처럼 난도있는 문장이 나타나기도 했고 ‘끊어 읽기’에서 혀가 꼬이기도 했다. 300개의 문장에는 일반적인 서술형 문장과 인용문, 반말·존댓말이 섞여 있었다. 케이티쪽은 이런 문장을 선정한 배경에 대해 “최소한의 문장으로 최대한 많은 음편(음이 연속될 때, 어떤 음이 발음하기 쉬운 다른 음으로 변하는 현상)을 수집하기 위해 가장 효율적인 문장으로 구성했다”고 말했다.
지난 1일 새벽 1시께 300개의 문장을 모두 읽고 난뒤 그날 오후 6시께 음성합성이 완료돼 서비스를 이용할 수 있다는 앱 푸시 알림이 왔다. 지난 2일 광화문 케이티 사옥에서 기가지니를 통해, 합성된 목소리를 직접 들어봤더니 놀라울 정도로 비슷하다는 느낌을 받을 수 있었다. 기자의 목소리는 톤이 낮고, 비음이 섞여 있는데 이런 특성들이 제대로 살아 있었다. 대화체 문장에서도 억양도 잘 표현됐다. 케이티쪽은 “향후에는 감정에 따라 억양이 달라지는 것도 연구중”이라고 말했다. 다만 음성 자체의 품질은 휴대전화로 녹음한 탓인지 휴대전화 통화음성을 재생하는 것처럼 느껴졌다. 인공지능 스피커를 통한 다른 서비스에 견줘 음질이 부족했다.
‘내 목소리 동화’는 지난 2일부터 고객 300명을 대상으로 체험서비스를 시작했다. 현재는 이를 이용해 읽을 수 있는 동화책이 10권에 불과하지만, 하반기 유료서비스가 출시되면 100권으로 늘릴 예정이라고 한다. 이 서비스는 아이피티브이(IPTV) 셋톱박스 일체형 인공지능 스피커인 ‘기가지니’를 통해서만 이용할 수 있는데, 케이티 쪽은 “일반인의 목소리가 담긴 서비스이기 때문에, 보안상 녹음한 고객이 직접 페어링한 단말에서만 재생되도록 구현했다”고 밝혔다.
개인화 음성합성기술의 응용 영역은 앞으로 매우 다양할 것으로 보인다. 인공지능 스피커가 하루의 시작과 끝을 함께 해주는 것처럼, 방탄소년단과 같은 연예인의 음성이 인공지능 비서가 된다면 수요층이 상당할 것으로 보인다. 인공지능 비서와 사랑에 빠진 남자의 이야기를 다룬 영화 <허>(HER)의 모습이 현실화 될 수 있단 얘기다. 부모님 등의 음성도 미리 녹음해 합성한다면 나중에 추억하는데 도움을 줄 수 있을 것이다. 다만 의도와 다르게 활용되는 것 역시 경계해야 할 것으로 보인다. 다른 사람의 목소리를 흉내내는 것이 범죄에 활용될 여지가 아예 없는 것은 아니기 때문이다.
아빠의 합성된 목소리를 들은 아이들의 반응은 어땠을까? 어린이날 전날인 지난 4일 밤 잠들기 전에 두 아이에게 합성된 기자의 목소리를 들려줬더니, 둘째는 “아저씨”라고 했고, 첫째는 “아빠”라고 했다. 첫째에게 인공지능 스피커가 목소리를 따라 하는 원리와 이런 합성음을 내기까지의 아빠의 노력에 대해 장황하게 설명했으나, 첫째는 “아빠가 그냥 읽어주면 되잖아. 왜 스피커가 읽어줘?”라고 되물었다. 인공지능이 아무리 원조를 잘 따라한다 해도, 원조를 따라잡을 수는 없는가 보다. 자식 이기는 부모도 없다.
박태우 기자 ehot@hani.co.kr
◎ Weconomy 홈페이지 바로가기: http://www.hani.co.kr/arti/economy◎ Weconomy 페이스북 바로가기: https://www.facebook.com/econohani
기사공유하기