使用步驟
- 上傳一段 3 - 10 秒嘅粵語音頻作為參考音頻,然後輸入埋佢嘅對應文本。
- 輸入音頻對應嘅粵語文本,可以揀下面示例文本其中一句嚟試下效果
- (可選)喺高級設定度揀語速、Top K、Top P、溫度
- 撳生成掣
參考音頻係咩?
上傳嘅參考音頻主要用嚟控制生成音頻嘅語氣同情感。例如參考音頻係朗讀詩詞,噉生成嘅音頻就會好似朗讀詩詞噉講嘢;如果參考音頻係疑問,噉生成嘅音頻都會有疑問語氣。
如果你冇參考音頻或者懶得揾,都可以直接撳「使用預設參考音頻」入面嘅選項。
已知問題
- 模型有時會有幻覺,生成啲同文本完全無關嘅亂噏。呢個一般係參考音頻嘅問題,換一條參考音頻同文本重試就得。
- 因為個基礎模型係用簡體字訓練嘅,所以可能會出現「只隻」不分、「松鬆」不分嘅問題,例如「一隻狗」會讀成「一 zi2 狗」。要解決只能用同音字代替,例如寫成「一脊狗」。
- 輸入文本唔可以太長,否則後面嗰啲會自動切晒。