張悦楷講古語音合成器 Zoeng Jyut Gaai TTS

模型信息見 laubonghaudoi/zoengjyutgaai_tts

數據採用張悦楷講古語音數據集 CanCLID/zoengjyutgaai


使用步驟

  1. 上傳一段 3 - 10 秒嘅粵語音頻作為參考音頻,然後輸入埋佢嘅對應文本。
  2. 輸入音頻對應嘅粵語文本,可以揀下面示例文本其中一句嚟試下效果
  3. (可選)喺高級設定度揀語速、Top K、Top P、溫度
  4. 撳生成掣

參考音頻係咩?

上傳嘅參考音頻主要用嚟控制生成音頻嘅語氣同情感。例如參考音頻係朗讀詩詞,噉生成嘅音頻就會好似朗讀詩詞噉講嘢;如果參考音頻係疑問,噉生成嘅音頻都會有疑問語氣。 如果你冇參考音頻或者懶得揾,都可以直接撳「使用預設參考音頻」入面嘅選項。

已知問題

  1. 模型有時會有幻覺,生成啲同文本完全無關嘅亂噏。呢個一般係參考音頻嘅問題,換一條參考音頻同文本重試就得。
  2. 因為個基礎模型係用簡體字訓練嘅,所以可能會出現「只隻」不分、「松鬆」不分嘅問題,例如「一隻狗」會讀成「一 zi2 狗」。要解決只能用同音字代替,例如寫成「一脊狗」。
  3. 輸入文本唔可以太長,否則後面嗰啲會自動切晒。

参考音频

各位朋友,喺講《三國演義》之前啊,我唸一首詞畀大家聽下吓。

示例文本

揀一個嚟生成試下效果
1 50
0 1
0.1 2
0.5 2