UTAU 音源の収録に最適な bpm とは (Pixiv Fanbox)
Content
こんばんは。みなとです
今回はノートの長さと収録長の話です。
最初↓
fanbox post: creator/34949409/post/462190
集計結果
グラフ (*1) にするとこんなイメージです。
だいたいのノートは1秒を超えてこないということがなんとなく分かります。
表にまとめました
最頻値、中央値、平均値から見ると思ったよりも短い値になりました。 (*2)
個人的には、この倍くらいの長さがあると思っていました。
最適な収録長
上の結果から最適な収録長を考えてみます。
基本的に、音源を録った時に気になるのは、 「その音素が伸長されて劣化するか」 です。
なので、ある bpm で録ったの音源の音素の長さがノート長よりも長いと嬉しい、ということですね。
どんな ust にでも対応できるようにどれだけ bpm を遅く録っても、現実には割合短いノートしか出現していないため非効率的です。
なので、どれくらいの割合で劣化が起きないようにするかを軸に考えます。
中央値の bpm 272 で録っても、
今回扱った ust に登場するノートのうち 49.95% 場合で録った音素より劣化しません。
想像以上にかなり速い速度で音源を録っても、無意味というわけではないようです。
(ただし、この速度は oremo のメトロノームでは再生できません)
個人的には最適解だと思っていた bpm 125 は 90.82 %。
概ねカバーできます。
bpm 100 と増やしていくと割合も増えていきますが、
この割合を大きくしようと頑張ると bpm 42 で 99.0 % になるものの、 さすがにこの遅さで連続音を収録するのはかなりしんどいかと思います。
ただ、単独音なら bpm 42 でも録ることは容易なので(約 1.4 秒)
この長さで録れば、 99 % は伸長が発生しない単独音音源が作れます。
(ただし、この速度も oremo のメトロノームでは再生できないので、倍の bpm 84 で2分音符として録るといいかと思います)
(1) データ数が多すぎてソフトがまとも動かなかったので LTTB で間引いています
(2) 「 bpm 換算」は、長さを4分音符として bpm に換算した値
補足
細かいところまで考慮すると、実際には音素の端から端まで MAX で使っているわけではなく、次の音素への変化が始まってしまう関係で、後ろの方を(収録長の)1/3を右ブランクで削っています。
その分使える長さが短くなり、伸長が起きやすくなりそうなところですが、UTAU 上では、『次のノートからの先行発音によって起こる食い込み-オーバーラップ分』だけノート長が減るんです。
これが、トリムされる長さと一致しており、そもそも最初から要求長と収録長が同じだけ減る為、右ブランクトリムによる直接的な劣化は無い。というものとして考察しています。