Text To Speech(TTS)のクライアントソフトウェアです。 各種AIに対応していく計画です。(現時点ではGPT-SoVITSのみ)
- 対応 AI
- GPT-SoVITS
- coming soon...
demo2.mp4
Hugging Faceのリポジトリよりダウンロードしてください。
- win_stdエディション:Windows向けのCPUで動作するエディションです。cuda版と比較して低速ですが、最近のそれなりのスペックのCPUであれば動きます。
- win_cudaエディション:Windows向けのNVIDIAのGPUで動作するエディションです。GPUのハードウェアアクセラレーションにより高速に動きます。
- macエディション:Mac(Apple silicon(M1, M2, M3, etc))向けのエディションです。
- zipファイルを展開後、
start_http.bat
を実行してください。表示された、URLにブラウザでアクセスしてください。 start_https.bat
を使用すると、リモートからでもアクセスすることができます。- (上級者向け)
start_http_with_ngrok.bat
を使用するとngrokを用いたトンネリングを使用してアクセスすることができます。
note: macエディションは.batを.commandで読み替えてください。
モデルの詳細はGPT-SoVITSの公式リポジトリを参照してください。
GPT-SoVITSでは、モデルと参照音声と参照テキストを選択してから、音声生成を行います。TTSClientでは参照話者という概念があり、参照話者に複数の参照音声と参照テキストを持たせることができます。
- モデルと、参照話者を選択します((1), (2))。
- 参照話者に登録された参照音声と参照テキストを選択します(3)。
- 生成したいテキストを入力して音声を生成します(4)。
モデル選択エリアの編集ボタンから登録してください。
参照話者登録エリアの編集ボタンから登録してください。
参照音声選択エリアで未登録のスロットを選択して登録してください。
$ git clone https://github.com/w-okada/ttsclient.git
$ cd ttsclient/
$ poetry install
$ poetry run main cui
---
リモートからアクセスする場合は`--https true`を付与してください。
---
$ poetry run main cui --https true
モジュールを入れ替えてください。
$ poetry add onnxruntime-gpu==1.19.2
$ poetry remove torch
$ poetry add torch==2.3.1 --source torch_cuda12
モジュールを入れ替えてください。
$ poetry add onnxruntime-directml==1.19.2