息音素の収録をもうちょっと真面目に考える (理論編) (Pixiv Fanbox)
Content
その前に
手軽に録るのであれば、何か適当な歌を歌ってそこから切りだすのが一番早いです。
それをしないという前提で語っていくのでご了承ください。
また、独自研究なのでソースも当然ないです。
はじめに
「肺活量」を指標にして、必要な息(ブレス)音素を録ろうとする理論です。
概略
ある歌の任意フレーズを歌ったとき、人間は肺からその分だけ酸素を消費します。
さらに別の任意フレーズが続く場合、それに備えて人間はブレスを行うのですが、
その際の条件によって、発声するブレスが異なるところに着目し収録を試みる音源(?)です。
考慮すべきポイント
○UTAUで扱う上での制限
・同ファイル内に音程のある音声がないとそもそも合成できない
・息だけをエイリアスとして切り出すと音量が大きくなりすぎる
○声質としての特徴
・音程の上昇を伴うものが「吸う音」、下降を伴うものが「吐く音」に聴こえる
○条件により起きる特徴
・口の開き具合が、つまり直前の「あいうえおん」が影響する
・直前の音程により音程が変化することはないが、直前のフォルマントに依存してブレスのフォルマントも変化する
・フレーズ間長さが短くなるほどブレスが「強く」なる
・直前までに消費された酸素量によってブレスが「大きく」なる
・酸素が必要ではない場合ブレスは発生しない
○UTAU・DAWで扱う上での要素
・長いものはエンベロープで切ればいいので、長は短を兼ねる
以上をうけて
・UTAU上での制限については、フレーズ部分を同時に音声に含めば合成可能になり、音量はPフラグで対応することが可能
・今回は日本語での音源を考慮しているので、「あいうえおん」→「ブレス」の6通りを収録すべき
・音程によってピッチを変更する必要もないため、単音階での収録で良い
・ブレスは「フレーズ間長さ」、直前までに消費された「酸素量(≒フレーズ長さ)」によって発声が変化することが分かる。これらはUTAU上の「[R]の長さ(ms)」、「[R]までのノートの集まり(ms)」と解釈できる
・ブレスにも「強弱」「大小」の概念が存在し、それぞれに該当するように、2×2 ~ 3×3程度の表情付けをする意義がある
録音方法
任意の長さNの「あいうえおん」(V)を配置、
次に任意の長さRの休符を配置し、
最後に適当な長さのフレーズを配置します。
まず、Nmax、Nminを決定します。
適当な音階で可能な限り発声してもう無理だという長さがNmaxです。
わずかに声を発声した後に、自然に息を吸った長さがNminです。
また、それらの中間の長さをNmidとします。
次に、Rmax、Nminを決定します。
なるべく長く息を吸おうとした際にこれが限界だという長さがRmaxです。
「あ、あ」と区切って発声していき、息を吸える限界の長さがRminです。
また、それらの中間の長さをRmidとします。
これらを用いて、
V = 「あ」
Nmax -> Rmax / Nmax -> Rmid / Nmax -> Rmin
Nmid -> Rmax / Nmid -> Rmid / Nmid -> Rmin
Nmin -> Rmin / Nmin -> Rmid / Nmin -> Rmin
…
とような形でフレーズを録音していきます。
(ガイドBGMをつくるなどしても良い)
使用方法
最終的に挿入される適切なブレス名は [V 息NR] になります。
このNが大きくなるとブレスが「大きく」なり、Rが大きくなるとブレスが「強く」なります。
さいごに
僕的にはこんなめんどくさいことするより、
[- か]だったり[- さ]だったりの頭にブレス音が入ってる方が楽です。