ElevenLabs 配音实战:用 AI 做出以假乱真的中文配音
老老一·2026-05-30·10 分钟阅读
如果你做过视频配音,大概率踩过这些坑:找专业配音演员价格不低、时间周期长、改稿来回沟通;用文字转语音软件,合成音听起来像机器读课文,观众一听就出戏。
2026 年这个问题基本可以用 ElevenLabs 解决。这不是夸张——ElevenLabs 的中文语音合成和音色克隆质量,已经到了「不告诉你是 AI 配音,你大概率听不出来」的程度。这篇文章是一份完整的实战指南,从注册到出成品,每个环节都有具体说明。
ElevenLabs 能做什么
先明确它的能力范围:
文字转语音(TTS):把写好的文字转成自然的语音。支持 70+ 种语言,包括中文(普通话和粤语)。声音库里有数百个预制音色可以选,风格涵盖新闻播报、温柔女声、浑厚男声、活泼少年等。
即时音色克隆:上传 1–5 分钟的清晰录音,生成一个高度相似的 AI 音色。用自己的声音做配音,或者给某个角色定制专属声音,都能做到。
专业音色克隆:上传 30 分钟以上的高质量录音(最好 3 小时以上),生成的克隆音色细节更丰富,适合有声书、播客等对声音还原度要求极高的场景。
AI 视频配音(Dubbing):上传原始视频,选目标语言,ElevenLabs 自动把原声翻译并用克隆的原始说话人音色重新配音。支持从 YouTube、TikTok、X(Twitter)直接拉取链接。
跨语言保留音色:同一个人的声音,可以用中文录音,然后让它说英文、日语、韩语……声音特征跨语言保留,非常适合做多语言版本内容。
价格体系
ElevenLabs 的定价在 2026 年分为 7 档:
| 计划 | 月费 | 主要额度 | 适用场景 |
|---|---|---|---|
| Free | $0 | 约 10 分钟 TTS/月,有限音色克隆 | 试用评估 |
| Starter | $5/月 | 约 30 分钟 TTS/月 | 轻度个人使用 |
| Creator | $22/月 | 约 100 分钟 TTS + 50 分钟配音/月 | 内容创作者主力 |
| Pro | $99/月 | 约 500 分钟 TTS + 250 分钟配音/月 | 频繁输出的团队/UP 主 |
| Scale | $330/月 | 大量额度 | 中型内容机构 |
| Business | $1320/月 | 更大额度 + 优先支持 | 企业级用途 |
| Enterprise | 定制 | 按需 | 大型平台/API 集成 |
年付可节省约 17%(相当于 2 个月免费)。
关于视频配音的额外计费: Creator 计划含 50 分钟配音,超出后按 $0.60/分钟收费。Pro 计划含 250 分钟,超出后 $0.24/分钟。举个例子:一个 20 分钟的视频配成 3 种语言,实际消耗 60 分钟配音额度——在 Creator 计划下就会超出 10 分钟,额外多花 $6。所以做视频配音要提前算好额度。
对于大多数个人创作者,Creator 计划($22/月)是最实用的入口:100 分钟文字转语音足够做相当多的内容,50 分钟视频配音应付中等频率的短视频已经够用。
实战教程:三种主要用法
用法一:用预制音色做文字转语音
这是最简单、上手最快的用法,适合刚开始的人。
步骤:
- 进入 ElevenLabs 官网,注册账号(Google 账号可以直接登录)。
- 进入主界面,点击左侧「Text to Speech」。
- 在文本框粘贴你要转换的中文文字。注意:标点符号会影响语气,适当使用逗号和句号可以让节奏更自然,感叹号和问号也会被识别。
- 在右侧选择音色。搜索「Chinese」或「Mandarin」可以过滤出适合中文的音色。几个推荐的预制中文音色:
- Aria(女声,中性稳重,适合说明类内容)
- Brian(男声,沉稳,适合企业/教育内容)
- 平台上也有用户上传的中文专用音色,可以在 Voice Library 里搜索「普通话」
- 选择稳定性(Stability)和相似性(Similarity)参数。稳定性高 → 音色更一致,适合正式内容;稳定性低 → 更有情绪波动,适合口语化内容。相似性高 → 更贴近原始音色样本。入门建议两个参数都设在 60–75% 左右。
- 点击生成,试听后觉得满意就下载。
避坑点: 长文本(超过 2500 个字符)需要分段处理。建议按段落或每 500–800 字一段来生成,这样方便后期剪辑拼接。
用法二:克隆自己的声音
想要 AI 版的「自己的声音」,即时音色克隆就够用:
准备录音:
- 时长:1–5 分钟
- 内容:朗读一段文章,题材不限,但要覆盖你平时说话的音调和语速变化
- 质量要求:安静环境录制,避免背景噪声(空调声、风扇声都要关掉),不要有回声(不要在空旷的浴室里录)
- 设备:手机自带麦克风就够,但录音 App 要选无压缩格式(WAV 或高比特率 MP3)
上传步骤:
- 进入「Voice Lab」→「Add a Generative or Cloned Voice」→「Instant Voice Cloning」
- 上传录音文件,给这个音色取个名字
- 勾选版权声明(确认这是你本人或你有授权的声音)
- 点击「Add Voice」,等待约 30 秒处理
测试和调整: 克隆完成后,用一段中文文本测试一下效果。如果觉得某个音调不够自然,可以在文本里用标点符号调整节奏,或者回去上传更多录音重新克隆。
一个真实体验:在安静环境下录制的 3 分钟普通话朗读,即时克隆的效果已经相当接近本人,随机请几个朋友试听,大多数人只能感受到「有点像、但有点奇怪」——而不是「一听就是机器声」。
用法三:给视频做多语言配音
这是 ElevenLabs 最「杀手级」的功能,适合想把中文视频发布到国际平台的创作者:
操作步骤:
- 进入「Dubbing」功能
- 上传视频文件,或粘贴 YouTube/TikTok 链接
- 选择「原始语言」(中文)和「目标语言」(英文、日文等)
- 选择配音音色:
- 自动检测并克隆:ElevenLabs 会识别原始说话人的声音,用克隆的音色配音——这样配出来的外语版保留了说话人的音色特征
- 指定音色:选择你自己克隆的音色,或预制音色
- 确认后开始处理,时长通常是视频时长的 1–2 倍
几个注意点:
- 视频背景音乐会尽量保留,但可能有轻微变化
- 口型同步在面部占比大的近景镜头效果好,远景或无人出镜的内容不需要担心口型
- 输出视频带有原始的背景音和 AI 配音层,如有需要可以在视频编辑软件里单独调整两者音量
中文配音的实际质量
重点说一下中文场景的体验,因为很多人最关心这个。
ElevenLabs 对普通话的支持是 70+ 种语言里质量最稳定的几个之一。声调(一声、二声、三声、四声)的处理在 2026 年版本里已经很准确,绕口令、数字读法、专有名词(人名、品牌名)偶尔会出错,需要人工检查。
常见的中文配音坑:
- 多音字:「重要」的「重」(zhòng)和「重量」的「重」(chóng)有时会读错。遇到高频多音字建议手动测试,如果不对就换个表达方式。
- 数字和单位:「2026 年」通常会读成「二零二六年」,「第 5 章」有时读成「第五章」有时读成「第5章」,需要测试。
- 专有名词:外来词(ElevenLabs、ChatGPT 等)读音可能不标准,可以在文本里用拼音辅助,或者替换成中文近似读音。
- 语气词:中文口语里的「嗯」「那个」「就是说」等,通常不用写进文本——AI 配音不需要模拟口语停顿,写正式文本就好。
粤语支持:ElevenLabs 支持粤语,但质量和声音选择与普通话相比有差距,目前更适合测试用途,生产级粤语配音还需要更谨慎地评估。
几个进阶技巧
技巧一:用 SSML 标签控制发音
ElevenLabs 支持 SSML(语音合成标记语言)标签,可以精细控制:
<break time="0.5s"/>插入 0.5 秒停顿,比逗号停顿更可控<prosody rate="slow">这段话</prosody>让这段话说慢一点- 这对需要精确控制节奏的有声书、课程讲解类内容特别有用
技巧二:分段生成再拼接
长内容不要一次性生成,按自然段落分段,每段单独生成并试听。这样如果某段效果不好,只需要重新生成那段,不影响其他部分。
技巧三:音色微调组合
给同一段文字用 2–3 种音色分别生成,选出最适合内容调性的那个。同样的文字,「温柔安慰型」音色和「专业讲述型」音色听起来会有很大差别,选对音色比调参数更重要。
技巧四:降噪预处理
如果用真人录音做克隆,在上传前先用 Adobe Podcast 的 Enhance Speech(免费网页工具)降噪和均衡,能明显提升克隆质量。
什么情况下 ElevenLabs 不够用
诚实说几个局限:
- 情感演技戏:AI 配音目前对极端情绪(痛哭、爆笑、极度愤怒)的还原还不自然,影视级情感表演还是需要真人配音演员。
- 方言配音:普通话以外的方言(上海话、四川话、闽南语等)支持非常有限。
- 超长内容:有声书动辄几十小时,按分钟算的配音额度成本不低,需要认真算账。
- 高品质音乐伴奏混音:如果你的视频原声有非常精心制作的音乐,AI 配音层叠加后可能影响整体音质,需要在后期单独处理。
适合用 ElevenLabs 的人
- 知识博主 / UP 主:用自己的克隆音色,不需要每次录音,内容更新快了很多。
- 课程制作者:标准化语音讲解,比自己录制更稳定、更少口误。
- 想把内容拓展到国际市场的创作者:中文视频配英文版,成本远低于找真人翻译配音。
- 播客制作:用 AI 旁白音色做片头片尾,统一节目调性。
- 品牌方/市场团队:品牌代言人音色可以做克隆,统一所有广告和视频的声音形象。
如果你属于以上任何一类,从 Creator 计划($22/月)开始,先做 5–10 个真实项目,用实际效果来决定要不要加大投入。
📚 相关阅读
AI 写作工具怎么选?Notion AI、Jasper、秘塔写作猫对比
深度对比三款定位各异的 AI 写作工具:Notion AI 的全能协作、Jasper 的营销专攻、秘塔写作猫的中文精耕,帮你找到最合适的那一个。
🤖ChatGPT、Claude、Gemini 怎么选?2026 三大 AI 助手深度对比
2026 年三大 AI 助手全面横评:综合能力、写作、编程、推理、多模态、联网、中文支持、价格与适用人群,帮你做出最优选择。
💻Claude Code 上手实战:让 AI 在终端里帮你写完整项目
Claude Code 是 Anthropic 官方 CLI,能读写整个代码库、跑测试、提交代码。本文手把手带你从安装到用 AI 完成真实项目。