Skip to content

w-okada/ttsclient

Repository files navigation

TTSClient

[日本語] [English] [한국어] [中文简体]

Text To Speech(TTS)のクライアントソフトウェアです。 各種AIに対応していく計画です。(現時点ではGPT-SoVITSのみ)

demo2.mp4

関連ソフトウェア

ダウンロード

Hugging Faceのリポジトリよりダウンロードしてください。

  • win_stdエディション:Windows向けのCPUで動作するエディションです。cuda版と比較して低速ですが、最近のそれなりのスペックのCPUであれば動きます。
  • win_cudaエディション:Windows向けのNVIDIAのGPUで動作するエディションです。GPUのハードウェアアクセラレーションにより高速に動きます。
  • macエディション:Mac(Apple silicon(M1, M2, M3, etc))向けのエディションです。

使用方法

  • zipファイルを展開後、start_http.batを実行してください。表示された、URLにブラウザでアクセスしてください。
  • start_https.batを使用すると、リモートからでもアクセスすることができます。
  • (上級者向け)start_http_with_ngrok.batを使用するとngrokを用いたトンネリングを使用してアクセスすることができます。

note: macエディションは.batを.commandで読み替えてください。

GPT-SoVITS

モデルの詳細はGPT-SoVITSの公式リポジトリを参照してください。

GPT-SoVITSでは、モデルと参照音声と参照テキストを選択してから、音声生成を行います。TTSClientでは参照話者という概念があり、参照話者に複数の参照音声と参照テキストを持たせることができます。

image

音声生成

  1. モデルと、参照話者を選択します((1), (2))。
  2. 参照話者に登録された参照音声と参照テキストを選択します(3)。
  3. 生成したいテキストを入力して音声を生成します(4)。

モデルの登録

モデル選択エリアの編集ボタンから登録してください。

参照話者の登録

参照話者登録エリアの編集ボタンから登録してください。

参照音声、テキストの登録

参照音声選択エリアで未登録のスロットを選択して登録してください。

リポジトリからの起動(Advanced)

$ git clone https://github.com/w-okada/ttsclient.git
$ cd ttsclient/
$ poetry install
$ poetry run main cui
---

リモートからアクセスする場合は`--https true`を付与してください。
---
$ poetry run main cui --https true

cudaを使用する場合

モジュールを入れ替えてください。

$ poetry add onnxruntime-gpu==1.19.2
$ poetry remove torch
$ poetry add torch==2.3.1 --source torch_cuda12

directmlを使用する場合

モジュールを入れ替えてください。

$ poetry add onnxruntime-directml==1.19.2

Acknowledgements