Local Llama TTS
Synthesize speech locally using llama-tts and the OuteTTS-1.0-0.6B model.
Usage
You can use the wrapper script:
Options
- -
-o, --output <file>: Output WAV file (default: output.wav) - INLINECODE5 : Speaker reference file (optional)
- INLINECODE6 : Temperature (default:
0.4)
Scripts
- - Location:
scripts/tts-local.sh (inside skill folder) - Model: INLINECODE9
- Vocoder: INLINECODE10
- GPU: Enabled via
llama-tts.
Setup
- 1. Model: Download from OuteAI/OuteTTS-1.0-0.6B-GGUF
- Vocoder: Download from ggml-org/WavTokenizer (Note: Felix uses a Q40 version, Q5_1 is linked here as a high-quality alternative).
Place files in /data/public/machine-learning/models/text-to-speach/ or update scripts/tts-local.sh.
Sampling Configuration
The model card recommends the following settings (hardcoded in the script):
- - Temperature: 0.4
- Repetition Penalty: 1.1
- Repetition Range: 64
- Top-k: 40
- Top-p: 0.9
- Min-p: 0.05
本地 Llama TTS
使用 llama-tts 和 OuteTTS-1.0-0.6B 模型在本地合成语音。
使用方法
您可以使用包装脚本:
- - scripts/tts-local.sh [选项] <文本>
选项
- - -o, --output <文件>:输出 WAV 文件(默认:output.wav)
- -s, --speaker <文件>:说话人参考文件(可选)
- -t, --temp <值>:温度参数(默认:0.4)
脚本
- - 位置: scripts/tts-local.sh(技能文件夹内)
- 模型: /data/public/machine-learning/models/text-to-speach/OuteTTS-1.0-0.6B-Q4KM.gguf
- 声码器: /data/public/machine-learning/models/text-to-speach/WavTokenizer-Large-75-Q4_0.gguf
- GPU: 通过 llama-tts 启用。
设置
- 1. 模型: 从 OuteAI/OuteTTS-1.0-0.6B-GGUF 下载
- 声码器: 从 ggml-org/WavTokenizer 下载(注意:Felix 使用 Q40 版本,此处链接的 Q5_1 作为高质量替代方案)。
将文件放置在 /data/public/machine-learning/models/text-to-speach/ 目录下,或更新 scripts/tts-local.sh 中的路径。
采样配置
模型卡片推荐以下设置(已在脚本中硬编码):
- - 温度参数: 0.4
- 重复惩罚: 1.1
- 重复范围: 64
- Top-k: 40
- Top-p: 0.9
- Min-p: 0.05