Home Artists Posts Import Register

Content

その前に

 手軽に録るのであれば、何か適当な歌を歌ってそこから切りだすのが一番早いです。

 それをしないという前提で語っていくのでご了承ください。

 また、独自研究なのでソースも当然ないです。


はじめに

 「肺活量」を指標にして、必要な息(ブレス)音素を録ろうとする理論です。


概略

 ある歌の任意フレーズを歌ったとき、人間は肺からその分だけ酸素を消費します。

 さらに別の任意フレーズが続く場合、それに備えて人間はブレスを行うのですが、

 その際の条件によって、発声するブレスが異なるところに着目し収録を試みる音源(?)です。


考慮すべきポイント

○UTAUで扱う上での制限

 ・同ファイル内に音程のある音声がないとそもそも合成できない

 ・息だけをエイリアスとして切り出すと音量が大きくなりすぎる

○声質としての特徴

 ・音程の上昇を伴うものが「吸う音」、下降を伴うものが「吐く音」に聴こえる

○条件により起きる特徴

 ・口の開き具合が、つまり直前の「あいうえおん」が影響する

 ・直前の音程により音程が変化することはないが、直前のフォルマントに依存してブレスのフォルマントも変化する

 ・フレーズ間長さが短くなるほどブレスが「強く」なる

 ・直前までに消費された酸素量によってブレスが「大きく」なる

 ・酸素が必要ではない場合ブレスは発生しない

○UTAU・DAWで扱う上での要素

 ・長いものはエンベロープで切ればいいので、長は短を兼ねる


以上をうけて

・UTAU上での制限については、フレーズ部分を同時に音声に含めば合成可能になり、音量はPフラグで対応することが可能

・今回は日本語での音源を考慮しているので、「あいうえおん」→「ブレス」の6通りを収録すべき

・音程によってピッチを変更する必要もないため、単音階での収録で良い

・ブレスは「フレーズ間長さ」、直前までに消費された「酸素量(≒フレーズ長さ)」によって発声が変化することが分かる。これらはUTAU上の「[R]の長さ(ms)」、「[R]までのノートの集まり(ms)」と解釈できる

・ブレスにも「強弱」「大小」の概念が存在し、それぞれに該当するように、2×2 ~ 3×3程度の表情付けをする意義がある


録音方法

任意の長さNの「あいうえおん」(V)を配置、

次に任意の長さRの休符を配置し、

最後に適当な長さのフレーズを配置します。


まず、Nmax、Nminを決定します。

適当な音階で可能な限り発声してもう無理だという長さがNmaxです。

わずかに声を発声した後に、自然に息を吸った長さがNminです。

また、それらの中間の長さをNmidとします。


次に、Rmax、Nminを決定します。

なるべく長く息を吸おうとした際にこれが限界だという長さがRmaxです。

「あ、あ」と区切って発声していき、息を吸える限界の長さがRminです。

また、それらの中間の長さをRmidとします。


これらを用いて、

V = 「あ」

Nmax -> Rmax / Nmax -> Rmid / Nmax -> Rmin

Nmid -> Rmax / Nmid -> Rmid / Nmid -> Rmin

Nmin -> Rmin / Nmin -> Rmid / Nmin -> Rmin

とような形でフレーズを録音していきます。

(ガイドBGMをつくるなどしても良い)


使用方法

最終的に挿入される適切なブレス名は [V 息NR] になります。

このNが大きくなるとブレスが「大きく」なり、Rが大きくなるとブレスが「強く」なります。


さいごに

僕的にはこんなめんどくさいことするより、

[- か]だったり[- さ]だったりの頭にブレス音が入ってる方が楽です。

Comments

No comments found for this post.