You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
* Linux pyaudio dependencies
* revert generate.py
* Better bug report & feat request
* Auto-select torchaudio backend
* safety
* [pre-commit.ci] auto fixes from pre-commit.com hooks
for more information, see https://pre-commit.ci
* feat: manual seed for restore
* [pre-commit.ci] auto fixes from pre-commit.com hooks
for more information, see https://pre-commit.ci
* Gradio > 5
* [pre-commit.ci] auto fixes from pre-commit.com hooks
for more information, see https://pre-commit.ci
* Fix docs and code
* Update help docs
* [pre-commit.ci] auto fixes from pre-commit.com hooks
for more information, see https://pre-commit.ci
---------
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
Copy file name to clipboardexpand all lines: docs/en/inference.md
+6-1
Original file line number
Diff line number
Diff line change
@@ -74,7 +74,7 @@ python -m tools.api \
74
74
--decoder-config-name firefly_gan_vq
75
75
```
76
76
77
-
If you want to speed up inference, you can add the --compile parameter.
77
+
> If you want to speed up inference, you can add the `--compile` parameter.
78
78
79
79
After that, you can view and test the API at http://127.0.0.1:8080/.
80
80
@@ -107,6 +107,10 @@ The above command synthesizes the desired `MP3` format audio based on the inform
107
107
You can also use `--reference_id` (only one can be used) instead of `--reference-audio` and `--reference_text`, provided that you create a `references/<your reference_id>` folder in the project root directory, which contains any audio and annotation text.
108
108
The currently supported reference audio has a maximum total duration of 90 seconds.
109
109
110
+
111
+
!!! info
112
+
To learn more about available parameters, you can use the command `python -m tools.post_api -h`
> If you want to speed up inference, you can add the `--compile` parameter.
123
128
124
129
!!! note
125
130
You can save the label file and reference audio file in advance to the `references` folder in the main directory (which you need to create yourself), so that you can directly call them in the WebUI.
Para usuários do Windows, é recomendado usar `trainer.strategy.process_group_backend=gloo` para evitar problemas com `nccl`.
111
111
112
-
Após concluir o treinamento, consulte a seção [inferência](inference.md), e use `--speaker SPK1` para gerar fala.
112
+
Após concluir o treinamento, consulte a seção [inferência](inference.md).
113
113
114
114
!!! info
115
115
Por padrão, o modelo aprenderá apenas os padrões de fala do orador e não o timbre. Ainda pode ser preciso usar prompts para garantir a estabilidade do timbre.
Copy file name to clipboardexpand all lines: docs/pt/inference.md
+4-46
Original file line number
Diff line number
Diff line change
@@ -74,7 +74,7 @@ python -m tools.api \
74
74
--decoder-config-name firefly_gan_vq
75
75
```
76
76
77
-
Para acelerar a inferência, adicione o parâmetro `--compile`.
77
+
> Para acelerar a inferência, adicione o parâmetro `--compile`.
78
78
79
79
Depois disso, é possível visualizar e testar a API em http://127.0.0.1:8080/.
80
80
@@ -90,51 +90,8 @@ python -m tools.post_api \
90
90
91
91
O comando acima indica a síntese do áudio desejada de acordo com as informações do áudio de referência e a retorna em modo de streaming.
92
92
93
-
Caso selecione, de forma aleatória, o áudio de referência com base em `{SPEAKER}` e `{EMOTION}`, o configure de acordo com as seguintes etapas:
94
-
95
-
### 1. Crie uma pasta `ref_data` no diretório raiz do projeto.
96
-
97
-
### 2. Crie uma estrutura de diretórios semelhante à seguinte dentro da pasta `ref_data`.
98
-
99
-
```
100
-
.
101
-
├── SPEAKER1
102
-
│ ├──EMOTION1
103
-
│ │ ├── 21.15-26.44.lab
104
-
│ │ ├── 21.15-26.44.wav
105
-
│ │ ├── 27.51-29.98.lab
106
-
│ │ ├── 27.51-29.98.wav
107
-
│ │ ├── 30.1-32.71.lab
108
-
│ │ └── 30.1-32.71.flac
109
-
│ └──EMOTION2
110
-
│ ├── 30.1-32.71.lab
111
-
│ └── 30.1-32.71.mp3
112
-
└── SPEAKER2
113
-
└─── EMOTION3
114
-
├── 30.1-32.71.lab
115
-
└── 30.1-32.71.mp3
116
-
```
117
-
118
-
Ou seja, primeiro coloque as pastas `{SPEAKER}` em `ref_data`, depois coloque as pastas `{EMOTION}` em cada pasta de orador (speaker) e coloque qualquer número de `pares áudio-texto` em cada pasta de emoção.
119
-
120
-
### 3. Digite o seguinte comando no ambiente virtual
121
-
122
-
```bash
123
-
python tools/gen_ref.py
124
-
125
-
```
126
-
127
-
### 4. Chame a API.
128
-
129
-
```bash
130
-
python -m tools.post_api \
131
-
--text "Texto a ser inserido" \
132
-
--speaker "${SPEAKER1}" \
133
-
--emotion "${EMOTION1}" \
134
-
--streaming True
135
-
```
136
-
137
-
O exemplo acima é apenas para fins de teste.
93
+
!!! info
94
+
Para aprender mais sobre parâmetros disponíveis, você pode usar o comando `python -m tools.post_api -h`
> Para acelerar a inferência, adicione o parâmetro `--compile`.
149
107
150
108
!!! note
151
109
Você pode salvar antecipadamente o arquivo de rótulos e o arquivo de áudio de referência na pasta `references` do diretório principal (que você precisa criar), para que possa chamá-los diretamente na WebUI.
0 commit comments