Skip to main content

Voice

Gen Audio
Instant voice cloning
Text to Speech (TTS)
ASR - Automatic Speech Recognition
MTK Breeze 3

聯發創新基地(MediaTek Research)發表全新 MediaTek Research Breeze 3(後略 MR Breeze 3)系列,包含台語語音辨識模型 Breeze ASR 26、台語語音合成模型 BreezyVoice 26,以及專為台灣設計的 AI 內容安全防護模型 Breeze Guard 26。

Vibevoice (Microsoft)

Microsoft VibeVoice 是一套開源語音 AI 模型家族,涵蓋 TTS(文字轉語音)與 ASR(語音辨識)。核心創新採用 7.5Hz 超低幀率連續語音 tokenizer,搭配「下一個搭配  next-token 擴散」diffusion 框架,能單次生成最長 90 分鐘多人對話語音、或辨識 60 分鐘長音訊。TTS 支援最多 4 人多語合成;ASR 能同時產出說話者、時間戳與內容的結構化逐字稿