微立顶科技

新闻资讯

创新 服务 价值

  阿里Qwen3-TTS:跨语言混合无缝切换,方言音色全面覆盖

发布日期:2025/9/24 13:07:39      浏览量:

阿里Qwen3-TTS:跨语言混合无缝切换,方言音色全面覆盖~!


阿里最新推出的 Qwen3-TTS,直接点亮了TTS新纪元。
它是阿里通义千问Qwen-TTS系列的最新升级版,训练于超过300万小时大规模语料库,实现人类级自然度和表现力。
新增了北京话、上海话、四川话等方言支持,总计7种中英双语音色。跨语言混合无缝,自动调整韵律/节奏/情绪,音色一致性高。


核心功能
• 跨语言混合与无缝切换:中英、日韩等自然过渡,音色一致,避免生硬断层。
• 方言支持:普通话、北京、上海、四川、南京、陕西、闽南、天津、粤语。
• 多语言支持:英文、西班牙语、俄语、意大利语、法语、韩语、日语、德语、葡萄牙语,多国语言全覆盖。
• 智能韵律、节奏与情绪调整:根据文本语义调整语速、停顿、强调,支持喜悦、悲伤、兴奋、严肃等,生成情感化表达。
• 高保真:跨语言保持克隆音色。
• 易用API集成:modelstudio一键调用,支持批量合成。

快速入手

Qwen3-TTS 支持 Python、Java、HTTP 等SDK调用。
使用 text 参数指定文本,使用 voice 参数指定语音。您可以从返回的 URL 中检索合成的音频。

py测试代码
#  DashScope SDK 版本不低于 1.24.6 import os import requests import dashscope # 以下为新加坡地域url,若使用北京地域的模型,需将url替换为:https://dashscope.aliyuncs.com/api/v1 dashscope.base_http_api_url = ’https://dashscope-intl.aliyuncs.com/api/v1’ text = "那我来给大家推荐一款T恤,这款呢真的是超级好看,这个颜色呢很显气质,而且呢也是搭配的绝佳单品,大家可以闭眼入,真的是非常好看,对身材的包容性也很好,不管啥身材的宝宝呢,穿上去都是很好看的。推荐宝宝们下单哦。" # SpeechSynthesizer接口使用方法:dashscope.audio.qwen_tts.SpeechSynthesizer.call(...) response = dashscope.MultiModalConversation.call(
    model="qwen3-tts-flash",
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    text=text,
    voice="Cherry",
    language_type="Chinese", # 建议与文本语种一致,以获得正确的发音和自然的语调。 stream=False )
audio_url = response.output.audio.url
save_path = "downloaded_audio.wav" # 自定义保存路径 try:
    response = requests.get(audio_url)
    response.raise_for_status() # 检查请求是否成功 with open(save_path, ’wb’) as f:
        f.write(response.content) print(f"音频文件已保存至:{save_path}") except Exception as e: print(f"下载失败:{str(e)}")



实时播放
Qwen-TTS 模型可以流式地将音频数据以 Base64 格式进行输出,并在最后一个数据包中包含完整音频的 URL。


#  DashScope SDK 版本不低于1.24.6 # coding=utf-8 # # Installation instructions for pyaudio: # APPLE Mac OS X #   brew install portaudio #   pip install pyaudio # Debian/Ubuntu #   sudo apt-get install python-pyaudio python3-pyaudio #   or #   pip install pyaudio # CentOS #   sudo yum install -y portaudio portaudio-devel && pip install pyaudio # Microsoft Windows #   python -m pip install pyaudio import os import dashscope import pyaudio import time import base64 import numpy as np # 以下为新加坡地域url,若使用北京地域的模型,需将url替换为:https://dashscope.aliyuncs.com/api/v1 dashscope.base_http_api_url = ’https://dashscope-intl.aliyuncs.com/api/v1’ p = pyaudio.PyAudio() # 创建音频流 stream = p.open(format=pyaudio.paInt16,
                channels=1,
                rate=24000,
                output=True)


text = "你好啊,我是通义千问" response = dashscope.MultiModalConversation.call(
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    model="qwen3-tts-flash",
    text=text,
    voice="Cherry",
    language_type="Chinese", # 建议与文本语种一致,以获得正确的发音和自然的语调。 stream=True ) for chunk in response:
    audio = chunk.output.audio if audio.data is not None:
        wav_bytes = base64.b64decode(audio.data)
        audio_np = np.frombuffer(wav_bytes, dtype=np.int16) # 直接播放音频数据 stream.write(audio_np.tobytes()) if chunk.output.finish_reason == "stop": print("finish at: {} ", chunk.output.audio.expires_at)
time.sleep(0.8) # 清理资源 stream.stop_stream()
stream.close()
p.terminate()

API文档:https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2879134


应用场景
Qwen3-TTS的多方言和混合能力使其适配多种场景:有声书:粤语/闽南方言小说续写,保持叙述者音色。
• AI客服:中英混合响应,情绪调整为友好/专业。
• 短视频配音:韩语/日语解说,节奏自动匹配视频。
• 播客生成:多语言访谈,零样本克隆嘉宾音色。
• 教育内容:天津/陕西方言教学音频,亲切自然。




  业务实施流程

需求调研 →

团队组建和动员 →

数据初始化 →

调试完善 →

解决方案和选型 →

硬件网络部署 →

系统部署试运行 →

系统正式上线 →

合作协议

系统开发/整合

制作文档和员工培训

售后服务

马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     联系人:石先生/雷先生