Voice

ASR - Automatic Speech Recognition

FrogBase - OpenAI 影片逐字稿生成與翻譯
InstantID - 文字生成圖像 AI，個人風格頭像生成
WhisperDesktop - 影片生成字幕逐字稿，For Windows Only
- [Video] 免安裝版Whisper　無須安裝便可使用｜硬體需求大幅降低｜使用Ｃ＋＋編寫　無須額外安裝函式庫
OpenAI Whisper
Whisper WebUI - 網頁操作介面
WhisperX - 比 whisper large-v2 快 70 倍
Fast Whisper - 比 OpenAI Whisper 的速度快，資源消耗較低
Vosk - Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node
Handy - A free, open source, and extensible speech-to-text application that works completely offline.

MTK Breeze 3

聯發創新基地（MediaTek Research）發表全新 MediaTek Research Breeze 3（後略 MR Breeze 3）系列，包含台語語音辨識模型 Breeze ASR 26、台語語音合成模型 BreezyVoice 26，以及專為台灣設計的 AI 內容安全防護模型 Breeze Guard 26。

MediaTek Research Breeze 3：讓 AI 聽懂台語、說出台味、守護台灣

Vibevoice (Microsoft)

Microsoft VibeVoice 是一套開源語音 AI 模型家族，涵蓋 TTS（文字轉語音）與 ASR（語音辨識）。核心創新採用 7.5Hz 超低幀率連續語音 tokenizer，~~搭配「下一個~~搭配 next-token ~~擴散」~~diffusion 框架，能單次生成最長 90 分鐘多人對話語音、或辨識 60 分鐘長音訊。TTS 支援最多 4 人多語合成；ASR 能同時產出說話者、時間戳與內容的結構化逐字稿

https://github.com/microsoft/VibeVoice

Voice

Gen Audio

Instant voice cloning

Text to Speech (TTS)

ASR - Automatic Speech Recognition

MTK Breeze 3

Vibevoice (Microsoft)