응용

일레븐랩스

ElevenLabs

텍스트를 사람 같은 목소리로 읽어주는 대표적인 AI 음성 서비스. 짧은 샘플만으로 특정 목소리를 복제하고, 더빙·음성 에이전트까지 만들 수 있다.

어떤 서비스인가

ElevenLabs는 글자를 사람처럼 자연스럽게 읽어주는 AI 음성 회사다. 흔히 말하는 텍스트-음성 변환(TTS)을 잘하는 곳은 많지만, ElevenLabs가 주목받은 건 결과물이 기계 같지 않고 진짜 사람이 말하는 것처럼 들렸기 때문이다. 2023년 초 베타를 공개하면서 단 몇 분짜리 음성 샘플만 넣으면 그 사람의 목소리를 그대로 흉내 내는 보이스 클로닝(Voice Cloning) 기능으로 화제가 됐고, 지금은 한국어를 포함해 약 30개 언어를 지원한다.

처음엔 음성을 읽어주는 도구 하나였지만 점점 범위를 넓혔다. 영상의 원어 음성을 다른 언어로 자동으로 바꿔주는 AI 더빙, 텍스트로 음악을 만드는 기능, 그리고 전화 상담처럼 사람과 실시간으로 대화하는 음성 에이전트까지 한 플랫폼 안에 담았다. 그래서 단순한 TTS 사이트라기보다 'AI 오디오 종합 플랫폼'에 가깝다.

실제로 어떻게 쓰나

가장 흔한 사용처는 영상 제작이다. 유튜브 영상이나 숏폼에 직접 목소리를 녹음하는 대신, 대본을 붙여넣고 마음에 드는 목소리를 골라 내레이션을 뽑아낸다. 역사·다큐·미스터리 같은 이른바 '얼굴 없는 채널'을 운영하는 사람들이 ElevenLabs로 음성을 만들어 콘텐츠를 대량으로 찍어내는 식이다. 오디오북이나 팟캐스트 제작에도 같은 방식으로 쓰인다.

개발자 입장에서는 API로 붙여 쓴다. 서비스 안에서 텍스트를 보내면 음성 파일을 돌려받는 식이라, 챗봇 답변을 소리로 읽어주거나 앱 안에서 안내 음성을 자동 생성하는 데 연결한다. 최근에는 음성 에이전트 기능을 통해 고객 문의 전화를 사람 대신 AI가 받아 응대하도록 만드는 사례도 늘었다. 자기 목소리를 미리 복제해두면, 직접 녹음하지 않아도 새 대본을 넣을 때마다 내 목소리로 영상을 계속 찍을 수 있다.

모델과 선택지

ElevenLabs는 용도에 따라 여러 음성 모델을 제공한다. 속도가 중요한 실시간 대화에는 지연이 짧은 Flash 계열을, 감정 표현과 자연스러움이 중요한 콘텐츠 제작에는 표현력이 강화된 최신 Eleven v3를 고르는 식이다. 음성 인식(받아쓰기) 쪽으로는 Scribe 모델도 따로 두고 있어, 만드는 것뿐 아니라 알아듣는 것까지 함께 다룬다.

주의할 점

목소리를 그대로 복제할 수 있다는 건 강력하지만 동시에 위험하다. 동의 없이 남의 목소리를 흉내 내거나 사칭에 악용될 수 있어, 본인 목소리이거나 사용 권리가 확보된 음성만 복제하는 것이 원칙이다. 무료 요금제는 매달 쓸 수 있는 분량(크레딧)이 제한돼 있어, 본격적으로 많은 음성을 뽑으려면 유료 구독이 필요하다.

#음성합성#보이스 클로닝#TTS#AI 오디오

← AI Wiki에서 더 보기

updated at 2026-06-08