수화기 너머 들리는 내 목소리, 딥보이스

최근 영국 출신의 세계적인 록밴드인 비틀스는 존 레논의 생전 목소리를 인공지능으로 추출 및 복원해 마지막 신곡을 내놓았다. 또한 지난 2020년 12월 엠넷의 특별 프로그램 'AI음악프로젝트 다시 한번'에서 거북이의 리더 터틀맨(故 임성훈)이 딥페이크와 딥보이스를 통해 재탄생해 잠시 우리의 곁으로 돌아왔다. 해당 프로그램은 터틀맨을 그리워했던 많은 이들에게 감동을 선사했다. 이제 인공지능의 발전은 소설을 쓰고 그림 그리는 것을 넘어 인간을 모방하기에 이르렀다.

이미지와 영상을 넘어 음성까지, 딥보이스란 무엇인가?

누구나 한 번쯤 딥페이크(deepfake)에 대해서 들어봤을 것이다. 딥페이크는 인공지능이 학습하는 능력을 뜻하는 딥러닝(deep learning)과 거짓(fake)의 합성어로 인공지능을 기반으로 한 이미지 또는 영상 합성 기술이다. 최근 유행하는 AI 증명사진과 미국의 하이틴 졸업 사진 또한 딥페이크의 예시다. 이처럼 딥페이크가 영상과 이미지를 합성하는 것이라면 딥보이스(deepvoice)는 음성을 합성한 것이다. 숭실대학교 전자정보공학부 정수환 교수는 “딥페이크와 딥보이스는 생성형 인공지능이라는 공통점이 있고 기반 기술 자체도 유사하다”고 말했다.

잘 알려진 ChatGPT로 대표되는 생성형 인공지능은 스스로 기존의 데이터나 모델을 기반으로 해 새롭고 독창적인 콘텐츠를 만들어 내는 것으로서 딥보이스 또한 화자가 실제로 하지 않은 말을 생성해 낼 수 있다. 딥보이스를 통한 생성 방식에는 자신의 음성을 다른 사람의 음성으로 변환시키는 Voice Conversion 기술과 문자를 음성으로 변환시키는 TTS(Text to Speech) 기술이 활용된다. TTS 기술은 실생활에서 접하기 어렵지 않다. 지하철 안내 음성과 인터넷 방송에서의 후원 메시지 등이 그 예시다. 정 교수는 “딥보이스와 해당 기술들을 통해 실제로 존재하지 않은 콘텐츠를 그 사람의 음색으로 생성해 낼 수 있다”고 전했다.

딥보이스가 활용되는 가짜 세상

딥보이스는 다양한 분야에서 활용되고 있다. 먼저 성우와 앵커 등 목소리 더빙 분야에서 활발히 사용된다. 실제로 MBN에서는 김주하 앵커의 목소리를 딴 AI 김주하를 뉴스 요약에 활용한다. 인공지능 스피커에도 딥보이스가 사용된다. 지난해 아마존의 알렉사와 네이버의 클로바 보이스는 기억하고 싶은 사람들의 목소리를 딥보이스로 제작하는 기능을 선보였다. 유종빈(소웨) 교수는 “오늘날의 기술 수준은 감정까지 실릴 수 있을 만큼 자연스러워져 다양한 산업에 충분히 적용할 수 있다”고 말했다.

딥보이스는 정치 분야에서도 사용되고 있다. 지난 대통령 선거에서 윤석열 대통령(당시 국민의힘 후보)은 자신의 모습과 음성을 딴 ‘AI 윤석열’을 활용했다. AI 윤석열은 공약에 대한 진지한 설명부터 ‘AI 윤석열은 왜 도리도리 안 하는 거죠?’라는 유권자들의 농담 섞인 질문까지 재치있게 답해 온라인 커뮤니티를 통해 빠르게 퍼져 젊은 세대에게 뜨거운 반응을 얻기도 했다.

목소리를 이용한다는 특성상 음악 분야에서도 딥보이스 기술은 주목받고 있다. 최근 유튜브에서는 브루노 마스가 부르는 뉴진스의 ‘Hype Boy’와 박효신이 부르는 박재정의 ‘헤어지자 말해요’ 등 ‘AI 커버곡’을 쉽게 접할 수 있다. 박찬진(문콘·2) 학우는 “유명 외국 가수가 한국 노래를 부르거나 좋아하는 가수가 해외 팝송을 부르는 것이 신기해 자주 찾아 듣는다”고 말했다. 또 지난 1월 하이브는 450억 원을 투자해 인공지능 오디오 기업인 수퍼톤을 인수했다. 하이브는 음악산업과 기술의 융합을 현실화하기 위한 차원에서 수퍼톤 인수를 추진했다고 밝혔다. 딥보이스 기술이 음악 산업에도 적용할 수 있을 만큼 발전했으며 앞으로의 발전 가능성도 충분하다는 방증이다.

딥보이스의 그림자

기존의 데이터를 기반으로 새로운 결과물을 내어놓는 생성형 인공지능은 저작권의 문제에서 자유롭지 못하다. 딥보이스도 마찬가지다.

앞선 존 레논과 터틀맨의 사례와 같이 망자의 목소리를 인공지능으로 복원하는 것에 대해서도 윤리에 어긋난다는 비판도 있다. 전 이사장은 “고인의 동의 없이 목소리를 사용하는 것은 잘못됐다”며 “유족의 동의 또한 본인의 명확한 의사가 아니기 때문에 사용하면 안된다”고 말했다.

또한 쉽게 접근이 가능하다는 점도 문제가 된다. 유튜브에서도 딥보이스를 무료로 사용할 수 있는 방법을 쉽게 찾을 수 있을 정도로 많은 이들의 딥보이스에 대한 접근이 쉽기 때문에 가짜뉴스가 양산될 수 있다는 문제점이 존재한다. 지난 4일 기시다 후미오 일본 총리가 욕설을 하는 영상이 X(옛 트위터)에 공개됐다. 딥페이크와 딥보이스를 통해 만들어진 해당 영상은 하루 만에 조회수 232만 회 이상을 기록하는 등 화제가 되었다. 해당 영상을 제작했다고 밝힌 남성은 영상을 제작하는 데에는 불과 1시간밖에 걸리지 않았다고 밝혔다. 정 교수는 “최근에는 5초의 음성 데이터만으로도 상당히 정교한 딥보이스를 만들 수 있다”며 “정치인과 연예인의 녹취록 조작으로도 악용될 수 있다”고 우려를 표했다.

딥보이스는 유명인뿐만 아니라 일반인에게도 위협적이다. SNS가 발달한 오늘날 음성 데이터를 구하기란 어렵지 않고 SNS에서 수집한 음성 데이터로 만든 딥보이스가 보이스피싱에 악용될 가능성도 있다. 익숙한 가족과 지인들의 목소리로 보이스피싱이 이뤄진다면 보이스피싱 피해는 커질 수밖에 없다. 경찰청은 지난해 10월 유튜브에 ‘내 딸인 줄 알았는데’라는 제목의 영상을 올려 딥보이스를 악용한 보이스피싱에 대해 주의를 당부하기도 했다. 지난 1일 검거된 보이스피싱 범죄단의 경우 중국의 근거지를 두면서 약 1900명에게 단일 조직 최대 규모인 1500억 원 정도를 가로챘다. 검거 당시 이들은 딥페이크와 딥보이스를 활용해 유명 검사를 사칭하는 신종 수법을 개발 중이었다. 앞으로의 딥보이스를 이용한 각종 범죄 피해가 우려되는 상황이다.

과제로 남은 딥보이스의 악용

딥보이스 기술이 발달해 우리 사회에 녹아들고 있는 만큼 악용으로 인한 문제의 대안을 요구하는 목소리가 커지고 있다. 딥보이스 범죄가 발생하기 전 가짜 목소리를 탐지해 피해를 예방해 주는 탐지 기술도 존재한다. 그러나 탐지 기술이 딥보이스의 발전 기술을 따라가지 못하고 있다. 유 교수는 “새로운 탐지 기술이 나오면 그걸 회피한 새로운 딥보이스 기술이 나온다”며 “딥보이스 기술의 발전과 탐지 기술의 발전은 마치 바이러스와 백신 같은 관계다”고 말했다. 이에 대해 전 이사장은 “기업과 정부의 적극적인 지원을 통해 탐지 기술을 개발해 내야 한다”며 탐지기술의 필요성을 강조했다.

딥보이스 악용을 막기 위한 방안으로는 지속적인 교육과 법안을 통한 강제적인 규제가 제시된다. 전 이사장은 “학생부터 직장인 등 모든 일반인을 대상으로 인공지능 윤리 교육을 지속해야 한다”며 “법안 개정을 통해 강제적으로 규제하는 방식도 함께 이뤄져야 한다”고 주장했다. 그러나 현재 우리나라는 AI 관련 입법이 답보상태다. 실제로 지난 2월 과학기술정보방송통신위원회 법안심사소위원회를 통과한 ‘인공지능산업 육성 및 신뢰 기반 조성에 관한 법률안’을 비롯한 AI 관련 법안 9건이 아직 국회에 계류 중이다. 반면 미국은 지난달 30일 기업이 AI를 대중에게 공개하기 전에 안전성 검사를 거치도록 하고 그 결과를 연방정부에 보고하라는 내용의 AI 규제 행정명령을 발표했다. 중국 또한 지난 1월 ‘인터넷정보서비스 딥페이크 관리규정’ 시행을 통해 딥페이크 기술이 적용된 콘텐츠임을 알리는 워터마크 삽입 및 원본 콘텐츠를 추적할 수 있는 기술적 조치 의무를 부과하였다. 이에 대해 김민서(정외·1) 학우는 “외국에 비해 딥보이스 관련 입법 공백이 존재하는 것 같다”며 “하루빨리 법안이 통과돼야 한다고 생각한다”고 말했다. 하지만 다른 시각도 존재한다. 인하대학교 법학연구소 AI·데이터법센터 이상우 책임 연구원은 입법 필요성에 대해서는 동의하면서도 “AI의 잠재력을 고려하였을 때 섣부른 규제는 국가경쟁력 약화 등의 부작용을 야기할 수 있다는 점에서 산업계와 정부 그리고 학계 등 각계각층의 의견이 반영돼야 한다”며 “딥페이크(딥보이스) 기술 규제는 표현의 자유라는 기본권을 침해할 수 있기 때문에 입법 과정에서 충분한 숙의가 필요하다”고 밝혔다.

딥보이스와 같은 기술을 통해 우리가 보고 듣는 것이 진짜인지 가짜인지 끊임없이 의심해야 하는 시대가 도래했다. 딥보이스가 우리 생활에 미치는 영향은 이제 시작이고 앞으로의 성장 가능성은 무궁무진하다. 그러나 동시에 해당 기술을 악용하는 사례 또한 늘어나고 있다. 딥보이스와 같은 기술들이 우리 사회에 가져올 변화를 받아들이고 동시에 적절한 해결책을 찾아나가는 것이 중요하다. 우리 사회가 기술의 발전을 통해 더 나은 사회로 나아가기를 기대한다.

김윤식 기자 dbstlr4456@ajou.ac.kr

다른기사 보기