minelaru

息音素の収録をもうちょっと真面目に考える　(理論編) (Pixiv Fanbox)

Published:

2019-06-05 11:22:44

Imported:

2024-02

Content

その前に

　手軽に録るのであれば、何か適当な歌を歌ってそこから切りだすのが一番早いです。

　それをしないという前提で語っていくのでご了承ください。

　また、独自研究なのでソースも当然ないです。

はじめに

　「肺活量」を指標にして、必要な息（ブレス）音素を録ろうとする理論です。

概略

　ある歌の任意フレーズを歌ったとき、人間は肺からその分だけ酸素を消費します。

　さらに別の任意フレーズが続く場合、それに備えて人間はブレスを行うのですが、

　その際の条件によって、発声するブレスが異なるところに着目し収録を試みる音源（？）です。

考慮すべきポイント

○UTAUで扱う上での制限

　・同ファイル内に音程のある音声がないとそもそも合成できない

　・息だけをエイリアスとして切り出すと音量が大きくなりすぎる

○声質としての特徴

　・音程の上昇を伴うものが「吸う音」、下降を伴うものが「吐く音」に聴こえる

○条件により起きる特徴

　・口の開き具合が、つまり直前の「あいうえおん」が影響する

　・直前の音程により音程が変化することはないが、直前のフォルマントに依存してブレスのフォルマントも変化する

　・フレーズ間長さが短くなるほどブレスが「強く」なる

　・直前までに消費された酸素量によってブレスが「大きく」なる

　・酸素が必要ではない場合ブレスは発生しない

○UTAU・DAWで扱う上での要素

　・長いものはエンベロープで切ればいいので、長は短を兼ねる

以上をうけて

・UTAU上での制限については、フレーズ部分を同時に音声に含めば合成可能になり、音量はPフラグで対応することが可能

・今回は日本語での音源を考慮しているので、「あいうえおん」→「ブレス」の6通りを収録すべき

・音程によってピッチを変更する必要もないため、単音階での収録で良い

・ブレスは「フレーズ間長さ」、直前までに消費された「酸素量（≒フレーズ長さ）」によって発声が変化することが分かる。これらはUTAU上の「[R]の長さ(ms)」、「[R]までのノートの集まり(ms)」と解釈できる

・ブレスにも「強弱」「大小」の概念が存在し、それぞれに該当するように、2×2 ～ 3×3程度の表情付けをする意義がある

録音方法

任意の長さNの「あいうえおん」(V)を配置、

次に任意の長さRの休符を配置し、

最後に適当な長さのフレーズを配置します。

まず、Nmax、Nminを決定します。

適当な音階で可能な限り発声してもう無理だという長さがNmaxです。

わずかに声を発声した後に、自然に息を吸った長さがNminです。

また、それらの中間の長さをNmidとします。

次に、Rmax、Nminを決定します。

なるべく長く息を吸おうとした際にこれが限界だという長さがRmaxです。

「あ、あ」と区切って発声していき、息を吸える限界の長さがRminです。

また、それらの中間の長さをRmidとします。

これらを用いて、

V = 「あ」

Nmax -> Rmax / Nmax -> Rmid / Nmax -> Rmin

Nmid -> Rmax / Nmid -> Rmid / Nmid -> Rmin

Nmin -> Rmin / Nmin -> Rmid / Nmin -> Rmin

…

とような形でフレーズを録音していきます。

（ガイドBGMをつくるなどしても良い）

使用方法

最終的に挿入される適切なブレス名は [V 息NR] になります。

このNが大きくなるとブレスが「大きく」なり、Rが大きくなるとブレスが「強く」なります。

さいごに

僕的にはこんなめんどくさいことするより、

[- か]だったり[- さ]だったりの頭にブレス音が入ってる方が楽です。