Home Artists Posts Import Register

Content

こんばんは。みなとです。

ENUNUについてのメモです。

ENUNUはNNSVSを用いた、なんかAI合成的なアレです。私もよく知りません。

ENUNUでのフラグ

ENUNUでは学習用ustにフラグを指定しておくと、(ある程度)学習結果の声質をコントロールできます。

(フラグで指定された学習音声があまりにも少ないと全然合成結果に反映されません。どれくらいから反映されるかはよく知りませんが、音声の量が1:1くらいまで増えればちゃんと選択できそうです。)


そこで、声質用のフラグを選択する際に問題についての考察です。

どのフラグを選ぶべきか

 0⃣ i である必要はない。(強さ= Intensity の I という意味ベースではある)

 1⃣ しかしながら、weak の W や、 normal の N 、 power の P など、強い意味ベースにしてしまうと、UTAU上でテスト再生するときに不都合が起きるので、普通のエンジンでは登場・衝突の無いフラグにした方が安全である。(※後述①

 2⃣ UTAUプラグイン「OverFlags」では条件を指定してフラグを楽に一括指定できますが、例えば「W」や「P」のみの数値を伴わない単品のフラグでは指定ができません。なので、キレ音源風味に下を弱く、上を強くしたいときにある程度一括置換ができません。(また、OpenUTAUでもフラグに数値を求めてきます。)


更に、ここで気をつけたいのが、例えば

「2文字のフラグを指定してるから大丈夫!」と思ってしまうところです。(一敗)

連続音音源を併用していて、G3の音階の音源だから「G3」というフラグで学習させてしまい、実際にそのフラグを含んだustをUTAU側で再生してしまうと、「G3」フラグが付いているノートの度に、ひたすら周波数表を生成し直してしまいます。

Gフラグ、ないしGという文字がフラグに存在するだけで意味を持ってしまうので3がついていようとなかろうと周波数を毎度生成します。

また、「Gr」など文字を付加しても、「G」が文字列に含まれているので、問答無用で周波数が再生成されて合成が遅くなったりします。

(例えば他に「N」も、No Format Filter 扱いにされてかなり面倒な合成結果になってしまいます。)

①について

気をつけた方が良いフラグ

・特に気をつけたい(resampler)

 b, B, c, C, D, E, F, g, G, h, H, L, N, t, P, Y, W

・できれば気にしたい(その他エンジン)

 a, A, e, f, i, K, n, O, R, S, u, v, w

以上がUTAUのエンジンとして合成結果が変わってしまうフラグになります。

なので、上記一覧に無いフラグ、

 d, I, j, J, k, l, m, o, Q, s, U, V, x, X, z, Z

…から選出するのが良さそうかと思われます。


実際にどれを選ぶかは、おそらく各モデルで選べる声質が違うと思われるので、明示的に指定させる為に差別化するべきか、もしくはUTAUエンジンで再生される際に音が変わる旨を書いて好きなフラグを付けるか。結局好みになるかもしれません。

(ただ少なくとも個人的に、Iとlは見た目的に見間違いが発生しそうなので微妙かなと思っています。)

Comments

No comments found for this post.