Style-Bert-VITS2 ver 2.2 音声合成

注意: 初期からあるjvnvのモデルは、JVNVコーパス(言語音声と非言語音声を持つ日本語感情音声コーパス)で学習されたモデルです。ライセンスはCC BY-SA 4.0です。

下のようにmodel_assetsディレクトリの中にモデルファイルたちを置いてください。

model_assets
├── your_model
│   ├── config.json
│   ├── your_model_file1.safetensors
│   ├── your_model_file2.safetensors
│   ├── ...
│   └── style_vectors.npy
└── another_model
    ├── ...

各モデルにはファイルたちが必要です:

  • config.json:学習時の設定ファイル
  • *.safetensors:学習済みモデルファイル(1つ以上が必要、複数可)
  • style_vectors.npy:スタイルベクトルファイル

上2つはTrain.batによる学習で自動的に正しい位置に保存されます。style_vectors.npyStyle.batを実行して指示に従って生成してください。

モデル一覧
モデルファイル
0 2
Language
話者
0 1
0.1 2
0.1 2
0.1 2
  • プリセットまたは音声ファイルから読み上げの声音・感情・スタイルのようなものを制御できます。
  • デフォルトのNeutralでも、十分に読み上げる文に応じた感情で感情豊かに読み上げられます。このスタイル制御は、それを重み付きで上書きするような感じです。
  • 強さを大きくしすぎると発音が変になったり声にならなかったりと崩壊することがあります。
  • どのくらいに強さがいいかはモデルやスタイルによって異なるようです。
  • 音声ファイルを入力する場合は、学習データと似た声音の話者(特に同じ性別)でないとよい効果が出ないかもしれません。
スタイルの指定方法
スタイル(Neutralが平均スタイル)
0 50
Examples
テキスト Language