阿里Qwen3-TTS:跨语言混合无缝切换,方言音色全面覆盖
发布日期:2025/9/24 13:07:39 浏览量:
阿里Qwen3-TTS:跨语言混合无缝切换,方言音色全面覆盖~!
阿里最新推出的 Qwen3-TTS,直接点亮了TTS新纪元。
它是阿里通义千问Qwen-TTS系列的最新升级版,训练于超过300万小时大规模语料库,实现人类级自然度和表现力。
新增了北京话、上海话、四川话等方言支持,总计7种中英双语音色。跨语言混合无缝,自动调整韵律/节奏/情绪,音色一致性高。
• 跨语言混合与无缝切换:中英、日韩等自然过渡,音色一致,避免生硬断层。
• 方言支持:普通话、北京、上海、四川、南京、陕西、闽南、天津、粤语。
• 多语言支持:英文、西班牙语、俄语、意大利语、法语、韩语、日语、德语、葡萄牙语,多国语言全覆盖。
• 智能韵律、节奏与情绪调整:根据文本语义调整语速、停顿、强调,支持喜悦、悲伤、兴奋、严肃等,生成情感化表达。
• 高保真:跨语言保持克隆音色。
• 易用API集成:modelstudio一键调用,支持批量合成。
快速入手
Qwen3-TTS 支持 Python、Java、HTTP 等SDK调用。
使用 text 参数指定文本,使用 voice 参数指定语音。您可以从返回的 URL 中检索合成的音频。
# DashScope SDK 版本不低于 1.24.6 import os import requests import dashscope # 以下为新加坡地域url,若使用北京地域的模型,需将url替换为:https://dashscope.aliyuncs.com/api/v1 dashscope.base_http_api_url = ’https://dashscope-intl.aliyuncs.com/api/v1’ text = "那我来给大家推荐一款T恤,这款呢真的是超级好看,这个颜色呢很显气质,而且呢也是搭配的绝佳单品,大家可以闭眼入,真的是非常好看,对身材的包容性也很好,不管啥身材的宝宝呢,穿上去都是很好看的。推荐宝宝们下单哦。" # SpeechSynthesizer接口使用方法:dashscope.audio.qwen_tts.SpeechSynthesizer.call(...) response = dashscope.MultiModalConversation.call(
model="qwen3-tts-flash",
api_key=os.getenv("DASHSCOPE_API_KEY"),
text=text,
voice="Cherry",
language_type="Chinese", # 建议与文本语种一致,以获得正确的发音和自然的语调。 stream=False )
audio_url = response.output.audio.url
save_path = "downloaded_audio.wav" # 自定义保存路径 try:
response = requests.get(audio_url)
response.raise_for_status() # 检查请求是否成功 with open(save_path, ’wb’) as f:
f.write(response.content) print(f"音频文件已保存至:{save_path}") except Exception as e: print(f"下载失败:{str(e)}")
实时播放
Qwen-TTS 模型可以流式地将音频数据以 Base64 格式进行输出,并在最后一个数据包中包含完整音频的 URL。
# DashScope SDK 版本不低于1.24.6 # coding=utf-8 # # Installation instructions for pyaudio: # APPLE Mac OS X # brew install portaudio # pip install pyaudio # Debian/Ubuntu # sudo apt-get install python-pyaudio python3-pyaudio # or # pip install pyaudio # CentOS # sudo yum install -y portaudio portaudio-devel && pip install pyaudio # Microsoft Windows # python -m pip install pyaudio import os import dashscope import pyaudio import time import base64 import numpy as np # 以下为新加坡地域url,若使用北京地域的模型,需将url替换为:https://dashscope.aliyuncs.com/api/v1 dashscope.base_http_api_url = ’https://dashscope-intl.aliyuncs.com/api/v1’ p = pyaudio.PyAudio() # 创建音频流 stream = p.open(format=pyaudio.paInt16,
channels=1,
rate=24000,
output=True)
text = "你好啊,我是通义千问" response = dashscope.MultiModalConversation.call(
api_key=os.getenv("DASHSCOPE_API_KEY"),
model="qwen3-tts-flash",
text=text,
voice="Cherry",
language_type="Chinese", # 建议与文本语种一致,以获得正确的发音和自然的语调。 stream=True ) for chunk in response:
audio = chunk.output.audio if audio.data is not None:
wav_bytes = base64.b64decode(audio.data)
audio_np = np.frombuffer(wav_bytes, dtype=np.int16) # 直接播放音频数据 stream.write(audio_np.tobytes()) if chunk.output.finish_reason == "stop": print("finish at: {} ", chunk.output.audio.expires_at)
time.sleep(0.8) # 清理资源 stream.stop_stream()
stream.close()
p.terminate()
API文档:https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2879134
应用场景
Qwen3-TTS的多方言和混合能力使其适配多种场景:有声书:粤语/闽南方言小说续写,保持叙述者音色。
• AI客服:中英混合响应,情绪调整为友好/专业。
• 短视频配音:韩语/日语解说,节奏自动匹配视频。
• 播客生成:多语言访谈,零样本克隆嘉宾音色。
• 教育内容:天津/陕西方言教学音频,亲切自然。
马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人:石先生/雷先生