Top Stories:
경제

‘마스크걸’ 목소리 합성 ‘수퍼톤’ AI 기술, K-콘텐츠 ‘다개국어 현지화’

Summary

하이브의 인공지능(AI) 음성 기술 계열사 수퍼톤의 이교구 대표(왼쪽)와 허훈 최고기술책임자(CTO)가 지난 21일 서울 강남구 수퍼톤 본사에서 인터뷰를 마친 뒤 포즈를 취하고 있...

하이브의 인공지능(AI) 음성 기술 계열사 수퍼톤의 이교구 대표(왼쪽)와 허훈 최고기술책임자(CTO)가 지난 21일 서울 강남구 수퍼톤 본사에서 인터뷰를 마친 뒤 포즈를 취하고 있다. 수퍼톤 제공

지난 21일 서울 강남구 수퍼톤 본사에서 만난 하이브 인공지능(AI) 음성 기술 계열사 ‘수퍼톤’의 이교구 대표와 허훈 최고기술책임자(CTO)는 “창작자들의 상상 속에 머무르던 아이디어를 실제로 보고 들을 수 있는 콘텐츠로 만들 수 있게 돕는 기술로 창작 생태계 다양화에 기여하고 싶다”고 강조했다.

“주인공 기분이 들뜨면 몸이 하늘을 날고(디즈니플러스 드라마 ‘무빙’), 가면을 쓰면 목소리가 다른 사람의 것으로 바뀌는(넷플릭스 드라마 ‘마스크걸’) 등의 설정은 옛날 같으면 만화영화에서나 가능했겠죠. 그런데 시각 효과(VFX, Visual Effect), 음성 합성 등 기술 발전 덕분에 이젠 영화나 드라마에서까지 익숙하게 볼 수 있죠.” 이 대표 말이다.

수퍼톤은 특정인의 목소리를 음색, 발음, 음고, 강세 등 네 가지 기본 요소로 나눠 분석한 뒤, 각각의 요소를 창작자가 원하는대로 바꿀 수 있게 돕는 ‘낸시’(NANSY, Neural Analysis and Synthesis) 모델을 갖고 있다. 낸시 모델을 바탕으로 한 고품질 음성 변환, 다국어 발음 교정, 텍스트-음성 변환(TTS, Text to Speech), 음성 디자인 등 콘텐츠 제작에 필요한 다양한 인공지능 기반 음성 합성 기술을 보유하고 있다.

하이브는 이런 기술력을 인정해, 2021년과 올해 초 두 번의 지분 투자 끝에 수퍼톤의 최대 주주가 됐다.

수퍼톤은 “음성 합성 기술이 케이(K) 콘텐츠 세계화에 크게 기여할 수 있다”고 본다. 이 대표는 “음악은 가사의 의미를 이해하지 못해도 멜로디(선율), 리듬(박자), 화성 등 다른 요소들로도 감동을 줄 수 있다. 하지만 영화·드라마 등에선 그렇지 않다. 의미 전달이 중요하다”고 말했다. 이어 “지금처럼 영화 한편이 동시에 30~40개 나라에서 개봉되는 환경에서 글로벌 팬들에게까지 자신의 능력을 전달하고자 하는 창작자들의 욕구를 수퍼톤의 기술로 실현할 수 있다”고 했다.

예를 들어, 게임·영화·애니메이션 같은 콘텐츠의 ‘현지화’를 위해 그 나라 말을 하는 더빙 성우를 쓰면, 감독이 연출하려 한 원작 배우의 캐릭터가 무너지는 문제가 발생한다. 허 최고기술책임자는 “수퍼톤의 고품질 음성 변환 기술을 이용하면, 원작 배우 음성에서 추출한 음색, 발음, 음고, 강세 등 특징을 외국인 성우 음성에 자연스럽게 입혀, 본래 음성이 주는 감동을 살리면서 외국어로 의미를 정확히 전달할 수 있다”고 설명했다. 드라마 ‘마스크걸’에서 주인공 김모미의 ‘부캐’ ‘비제이(BJ) 마스크걸’의 목소리를 표현하려 배우 나나와 이한별의 목소리를 섞어내는 데에도 수퍼톤의 음성 변환 기술이 쓰였다.

반대로 우리 말이 모국어인 가수가 영어, 일본어, 중국어 등으로 서툴게 부른 노래의 발음을 원어민 것처럼 다듬는 데에는 다국어 발음 교정 기술이 쓰인다. 허 최고기술책임자는 “원어민 화자 음성에선 발음을, 가수의 음성에선 가창력에 해당하는 음색, 음고, 강세를 가져와 서로 섞으면, 가수가 유창한 외국어로 노래를 부르는 것 같은 효과를 연출할 수 있다”고 설명했다. 하이브 계열사 빅히트 소속 가수 ‘미드낫’(MIDNATT)의 앨범을 한국어뿐 아니라 영어·스페인어·일본어·중국어·베트남어 등 6개 언어로 동시 발매하는 데에도 이 기술이 쓰여 전 세계 팬들에게 호평을 받았다.

수퍼톤은 하이브처럼 자본력을 갖춘 기업들뿐 아니라 개인 창작자, 중소형 스튜디오 등도 적은 비용으로 첨단 음성 기술의 혜택을 누릴 수 있도록, 다양한 음성 합성 솔루션들을 개발 중이다. 이 대표는 “과거엔 뮤지션이 되기 위해 스튜디오를 빌려 고가의 장비로 합주를 한 뒤 레코딩 기계로 데모 테이프를 만들어 기획사들에 보내야 하는 등 장벽이 높았지만, 이젠 창작 의도만 있다면 완성도 있는 콘텐츠를 누구나 쉽게 만들어 대중과 공유할 수 있다”며 “영상·음악 등 사람들이 즐기는 소리가 들어간 모든 콘텐츠를 만드는 과정의 기술 스탠다드(표준)가 되고 싶다”고 말했다.

정인선 기자

면책 조항: 이 글의 저작권은 원저작자에게 있습니다. 이 기사의 재게시 목적은 정보 전달에 있으며, 어떠한 투자 조언도 포함되지 않습니다. 만약 침해 행위가 있을 경우, 즉시 연락해 주시기 바랍니다. 수정 또는 삭제 조치를 취하겠습니다. 감사합니다.