음성합성과 딥러닝 결합…어디서나 원하는 목소리 듣는다

매일 아침 BTS의 목소리로 모닝콜을 받고, 바쁜 엄마 아빠를 대신해 아이가 원하는 책을 엄마아빠의 목소리로 읽어준다면? 인공지능과 음성합성 기술이 결합하면서, 원하는 사람의 목소리를 그대로 구현하는 기술이 일상생활에 더욱 가까이 다가왔다.

최근 국내 통신사, 스타트업계에서 '딥러닝 음성합성 기술'에 주목하고 앞 다퉈 상용서비스를 내놓고 있다.

이달초, KT는 음성인식을 한 단계 진화시킨 ‘내 목소리 동화’ 서비스를 내놨고, nVoice를 내세우고 있는 네이버는 이달 10일부터 다음달 10일까지 클로바 AI에 음성합성 개발에 활용하기 위해 일반인들을 대상으로 목소리 공모 이벤트를 진행하고 있다. 심사를 거쳐 이들의 목소리를 이용해 클로바가 동화를 읽어주거나 문자를 읽어주는 서비스를 내놓을 예정이다. 스타트업계에서도 관련 기술 개발이 활발하다.

네이버 클로바 AI에서 AI 음성합성 개발에 활용하고, 네이버 클라우드 플랫폼에 담아낼 '네이버 목소리를 찾아라' 이벤트. (이미지 네이버)

음성합성 기술, 인공지능을 만나다

기업들이 앞 다퉈 선보이고 있는 음성합성 기술 기반 상용서비스들은, 인공지능이 사람의 목소리를 듣고 학습해서 새로운 문장을 그 사람의 목소리로 재현하는 것이다. 음성합성 기술에 컴퓨터가 스스로 학습하는 ‘딥러닝’기술이 적용된 것이다.

음성합성 기술은 문자를 음성으로 바꾸는 기술이다. 이 기술로 지하철이나 버스에서 안내 서비스가 가능했다. 여기에 인공지능이 접목되면서, 스마트폰의 ‘빅스비’, ‘시리’나 ‘AI스피커’등처럼 특정 음성 인식이 가능한 서비스도 개발됐다.

여기에 '딥러닝'이 적용된 음성합성 기술은 현존하는 가장 뛰어난 음성합성 기술이라 할 수 있다. 기계음이 아닌 사람이 말하는 듯 자연스러움이 강점이다.

딥러닝이란 쉽게 말해, 개와 고양이를 구분하지 못하는 인공지능에게 수만 장의 개와 고양이 사진을 학습시키면서 서로 다른 점을 파악하도록 해 나중에는 개와 고양이를 구분하도록 만드는 기술이라 할 수 있다.

즉, 방대한 양의 목소리 빅데이터와 특정인의 목소리를 인공지능이 비교하면서 특징을 추출해 내고, 그 특징에 맞게 발음 데이터를 바꿔서 마치 그 사람이 말하는 것처럼 어떤 문장이든 소리를 내는 것이 이 딥러닝 음성합성 기술이다.

이 기술로 가장 먼저 상용서비스를 내놓은 곳은 KT다.

KT가 5월 2일 ‘기가지니 테이블TV’ 기자설명회를 열었다.개인화 음성합성(P-TTS) 기술을 적용한 ‘내 목소리 동화’는 약 30분 동안 총 300 문장을 녹음하면 부모의 목소리로 아이에게 책을 읽어주는 서비스다. 스튜디오에 가지 않고도 스마트폰으로 한번 녹음하면 추가 녹음이 필요 없이 동화책만 추가하면 세상에 하나뿐인 내 목소리 동화를 아이에게 읽어줄 수 있다. KT는 5월 동안 신청을 받아 300명에게 제공한 뒤 서비스를 확대할 방침이다. (사진 KT)

지난달 말, KT는 업계 최초로 딥러닝 음성합성 기술(P-TTS, Personalized-Text To Speech)을 통해 연예인, 성우, 기계음이 아닌 일반인 목소리로 상용 서비스를 구현해 화제가 됐다. KT융합기술원은 딥러닝 음성 합성 엔진 기술에 대해 특허를 출원한 상태다.

KT가 내놓은 '내 목소리 동화'는 P-TTS 기술이 총 300문장을 녹음하면 하나뿐인 오디오 동화책 완성한다. 300문장 안에는 대화체, 낭독체, 뉴스 등 문장이 고루 들어가 있어서 한 번 녹음하면 추가 녹음이 필요 없다. 동화책을 추가할 때마다 내 목소리로 녹음된 새로운 동화책이 자동으로 생성되는 것이다.

케이티 기가지니 앱을 실행하면 '내 목소리 동화' 서비스를 이용할 수 있다. 단, 기가지니 디바이스가 있어야 이용이 가능하다.(사진 데일리투머로우)

최준기 KT AI기술담당 상무는 “목소리 녹음이 끝나면 동화책 주인공을 내 아이 이름으로 바꿀 수도 있고, 동화책을 읽어주기 전에 특별한 멘트가 나가기도 한다”라며. “내 목소리 동화는 밑단에서 GPU 등의 연산 작업 등이 필요해 우선 5월 동안 300명을 대상으로 하고, 이후 서비스 안정화를 거쳐 전체적으로 열 계획”이라고 밝혔다.

딥러닝 음성합성 기술 ‘시간 단축 싸움’

현재 많은 기업들이 이 음성합성 기술을 보유하고 있다. 음성 학습을 하기 위해서는 많은 시간과 데이터가 필요하다. 말하는 사람의 발음, 억양, 습관, 어조, 끊어 읽기 등을 학습해서 최대한 자연스러운 목소리를 재현해야하기 때문이다. 현재는 이 학습 시간을 단축하기 위한 기술력을 개발하고 있다.

네이버 AI 콜로키움 2019에서 한 개발자는 자신의 목소리를 학습한 인공지능이 발표를 대신했다. 이 개발자는 40분 동안 500문장을 학습시켰다고 밝혔다. KT가 5월 초 출시한 ‘내 목소리 동화’는 30분 동안 300문장을 학습하면, 내 목소리를 음성 합성에 사용할 수 있다.

하지만, 현재 선보이는 이 합성 음성은 감정 표현까지는 불가능 하고, 이용 가능한 디바이스가 제한적이라는 점 등 한계도 있다.

KT 관계자는 이점에 대해 사람들이 놀라거나 화났을 때 표현방식이 다르기 때문에 일반화시키기 어렵다며 “다음에는 기쁨, 화남, 놀람, 슬픔 등 감정을 세분화 한 문장까지 녹음해 포함할 계획”이라고 설명했다.

딥러닝 음성합성 기술 발전의 양면

향후 이 기술이 발전하면, 내 목소리로 녹음한 하나뿐인 오디오 책을 갖는 것은 물론, 목소리 수집 데이터에 따라 돌아가신 부모, 사별한 배우자의 목소리를 AI 스피커로 들을 수 있다. 이론적으로 목소리 데이터 수집량이 적당한 수준이 되면 복원까지도 가능하다는 게 업계 관계자의 말이다. 또 시각장애인들을 위한 오디오북이나 내비게이션 음성시스템 등 다양하게 활용될 수 있다.

KT는 KBS와 협력해 개인화 음성합성(P-TTS)기술을 적용시켜 지난해 3월 3.1절 특집 다큐멘터리에 독립운동가 고 정재용, 이갑성 선생 목소리를 재현하기도 했다.

하지만, 누군가의 말을 녹음하지 않고도 사람들의 눈과 귀를 속일 완벽한 가짜 영상을 만들어낼 수 있다는 점에서 전문가들이 범죄 악용 위험성을 경고하고 있다.

권상희 성균관대 신문방송학과 교수는 “이 기술을 이용하게 되면 누구나 가짜뉴스를 생산하게 되고 이 사회는 뉴스에 대한 신뢰와 정보제공원에 대한 신뢰가 사라져 혼란을 야기할 수 있다”고 말했다.