• HANASUにおける二重母音の処理について

    2017-09-07 22:52
    どうもおふとんPです。10月に入ってから一気に秋ですね。
    さて、最近うんうん唸って考えていた二重母音について、ある程度わかったことをつらつらと書いていこうかと思います。

    ●日本語における二重母音化とは
    通常、日本語で母音が連続している場合、明確に発音されれば「連母音」と呼ばれるものになります。(普通の母音連続音がそれにあたります)これは「2つの母音の連続」と捉えられ、2つの母音の遷移部分は急激な変化になります。
    一方、二重母音は、はっきりとした切れ目がなく、あくまで「1つの母音」として捉えられるものになります。

    例:連母音
    歯科医の「科医(かい)」
    甥(おい)
    追う(おう)


    例:二重母音
    視界の「界(かい)」
    野菜の「菜(さい)」
    考えるの「がえ」

    ●HANASUにおける二重母音
    では、実用としてどのような設定で使えばよいのでしょうか、原音設定から考えていきます。

    例:「_しないで」という音素があった場合
    この例の場合、「ない」の部分が二重母音化しやすくなります。
    今までの連続音のように単純に切り出すと「i な」「a い」となり、各々別々のノートとして管理することになります。

    この音素が二重母音化している場合、切り出し方は以下の3種類くらいになるかと思います。
    1.「i な」「a い」(連続音と同様)
    2.「i ない」(「あい」を1つの母音として捉える)
    3.「i な」「ai で」(「あい」を1つの母音と捉える)

    それぞれについて、特徴を見ていきます。
    ・1の場合
    現在主流の連続音となんらかわりありません。

    ・2の場合
    原音設定は以下のようになります。

    「i な」のエイリアスから、右ブランクを「い」の終わりまで引っ張る形です。
    利点:このノート1つで子音+二重母音(CVV)が成り立つので、接続部分が減らせる
    欠点:固定範囲の設定が難しい
       ノートの長さの扱いが難しい
       このノートの後に接続する音素が明音化された「i」の場合、接続がやや不自然になる
    収録テンポと実際の調声時のテンポに左右されますが、あまりノートが短いと、肝心の二重母音の遷移部分まで再生されずに次のノートの先行発音が乗ることになります。
    かと言って、固定範囲を多めにとって子音速度で母音部分の長さを調整するにも限界があります。つまり、もとの長さをそのまま活かすようにし調声しなくてはならないということになります。もっと言うと、正直手間。

    3の場合
    原音設定は以下のようになります。

    「i で」のエイリアスに対して、2と同様「ai」を1つの母音と捉え、二重母音の遷移部分を含めた部分までを左ブランクで設定します。オーバーラップは「i」の音にほぼ遷移したと思われる場所、固定範囲は、母音の最後に置いています。
    利点:前の音が明音化された母音であっても比較的接続しやすい
       この音素を接続する際、必ず二重母音化の付く部分がノートの最後に限られるため、HANASU以外でも合理的なノートの割り振りである
    欠点:「で」という音としての子音速度の調整は行えない
       遷移部分が前のノートの母音をすべて埋めるくらいがHANASUでは理想であるが、UTAUの仕様上ノートの半分までしか被せることができず、結果遷移部分の音が消えてしまう
    (補足)この固定範囲の設定はセオリーからはかけ離れていますが、これは前述の欠点である遷移部分の音が消えてしまう問題を避けるために、母音部分のみを調整できるよう設定しています。そのため、「で」の音に対しての調整は行えないということになります。

    ●結局
    どれがベストなのか、と言われてしまうと、1番の「既存の連続音と同様の切り出し」が回り回って一番良いのではないかと考えます。
    といっても、それだけでは何も変わりませんので、1番の方法を選んだ上で、超えるべき問題がいくつかあるということです。
    問題1:ノートの長さ
    HANASUで使われる通常の母音の長さを1とします。連母音の場合の割り振りはおおよそ2です。単純にノート2つ分ということですね。
    一番最初に書いたように、二重母音はあくまで「1つの母音」と捉えますが、私が録音した音素で調声したところ、実際の長さとしては1.5くらいが妥当なように感じます。(例:「あい」なら「あ」が0.75 、「い」が0.75、つまるところ1.5を半々)強いて言うなら、後に付く母音の方は少し短いくらいでも良いかと思います。

    問題2:連母音と二重母音の音素区別
    たとえ「あいうえお」から切り出した連母音であっても、「しないで」から切り出した二重母音であっても、エイリアスにしてみれば「a い」にしかなりません。
    今回試した方法の2,3は、その点だけで言えばわかりやすくできていると言えます。
    そもそもの話、区別したほうが仕上がりの音はきれいになるのは間違いないですが、「二重母音として使われる機会の多い音なら、自然と二重母音化された音が切り出される確率は上がる」として考えて、特段何も設定しないというのも一つかと思います。
    また、CVCV音源の場合、この判別を機械学習に委ねるという方法もありますので、拘る人はこだわればいい、というのが現状での結論になるかと思います。

    この2つの問題をクリアしていれば、現状の音源でも二重母音の再現は比較的容易に行えるのではないかと思います。


    こんだけ考えて、結局今まで通りの形でノートの長さだけなんとかすればクオリティに大差ないって、なんだかなーって感じですよねー……
  • 広告
  • HANASU用 おふとん式リズムVCVCリスト Ver1.01【リスト+BGM配布】

    2017-07-08 00:01
    どうも、おふとんPでございます。
    ここのところブツブツとTwitterに垂れ流していたものを、なんとか公開可能レベルまでまとめられたので、リスト+BGM+oto.iniたたき台付きで配布してみようと思います。

    「おふとん式リズムVCVCリスト」をダウンロード
    (2017.8.29 Ver1.01更新、BGM新規追加)

    以下、解説とか諸々です。

    ●リズムVCVCとは
    利点のみ箇条書きにすると、主には以下の要素が挙げられます。
    ・一定のリズムに乗って、従来の連続音に近い形で録音できる
    ・リズムに乗せているので、従来の連続音のように原音の自動推定が使える
    ・非常に短い時間で録音できる
    ・従来のVCVCと同様に通常の喋りにかなり近いかたちで録音できる

    今までのVCVC音源は、散文を読み上げ原音設定で切り出す、という方式を採用していましたが、前述の通り原音設定の手間などの問題がありました。
    そこで、「自然な喋りで、なおかつリズムに乗せて喋ることが出来ないか」を考え、以下のような方法に落ち着きました。

    まず、この収録サンプルをお聞き下さい。

    従来通りBGMに乗せている形ですが、自然言語を「4モーラ、4モーラ、5モーラ」で組み合わせることで、自然なリズムを作っています。この現象は自分たちのよく知る所で見られ、
    「あめんぼあかいなあいうえお」「中華人民共和国」「墾田永年私財法」「エッチスケッチワンタッチ」等、モーラ数が偶数で合致した場合に発生することがあります。(モーラが足りない場合は、空白が挿入されるものと考えて下さい)

    この方法で録音した場合、BGMの1拍につき4モーラの割当になります。
    例:「あめんぼあかいなあいうえお」
       ●・・・●・・・●・・・●・・・

    なお、収録テンポ80の場合、すべてのリストをひとつづきに録音すると、おおよそ6分で録音が完了します。
    もちろん、噛まなければ、のお話です。自然言語でのリストですので、さほど難読はありませんが、リスト網羅の都合上、多少無理やりな文章も存在しますので、予めご了承下さい。


    ●Q&A
    ・VCVCって原音設定難しいの?
    原音設定の構造自体は、通常の連続音と変わりません。ただし、エイリアスのみ特殊エイリアスになっています。今回の配布ファイルにはエイリアス設定済みのoto.iniのベースがついていますので、そちらをご利用頂ければ、今まで通りsetparamなどで原音設定が可能です。なお、部分的なエイリアスの修正にはHaruqa様が配布している「HANASU用VCVC音源マニュアル」がございますので、参考資料としてお使い下さい。(リズム式VCVCでない前提で書かれていますので、一部実際と違う場合があります。)

    ・自動推定は絶対ずれないの?
    従来の連続音と同じくらいのズレは発生します。自然言語でも、特定のモーラ数でリズムが発生することは前述しましたが、この時、モーラ単位では微妙な長さの調整が成される場合があります。
    例:「これは(korewa)」
    想定しているもの→| こ | れ | わ |
    実際の発音すると→|こ|れ | わ |(最初が少し短い時間で発声される結果、自動推定がずれる)

    ・実際に録音したものがみたいです
    私がリスト作成時にテストとして作ったものでよければ、こちらからダウンロードできます。
    エイリアス、原音設定、全体的に不完全です。

    ・作った音源を使用するには?
    エイリアスはHaruqa様制作のVCVCリストと互換のものになっています。
    作者様のHPより、プラグイン等をダウンロードの上、ご利用頂くのが良いかと思います。
    HANASU用VCVC音源紹介ページ

    ・作った音源を公開したい!
    ご自由にどうぞ。公開の際、もしよろしければ私のTwitter(@joumonsugi)にご一報いただけると小躍りして喜びます。

    ・リストは改変していいの?
    改変OKです。改変したものを再配布する場合は、改変元のリスト名とバージョンを明記して下さい。(例:「おふとん式リズムVCVCリストVer1.0より改変」等)

    ・私もリストを作ってみたい!
    どうぞ作ってみて下さい。先程解説しました通り、基本は「4モーラ、4モーラ、5モーラ」の組み合わせです。網羅率の確認については、Haruqa様のHPに御座います「HANASU用VCVC音源用原音設定チェッカー」等をご利用下さい。


    おまけ
    ●なぜ作るに至ったのか

     そもそも、数年前から「HANASU用連続音」という名目でもっちゃもっちゃと作っていた私ですが、そんな中登場してきたのがVCVC音源というものでした。どちらもHANASUに向けて作られているものですが、私はあくまで「機械的なリスト」として作っていたのに対して、VCVCでは「自然言語の文章を読み上げる」という方法にて制作されていました。
    実際の喋りから切り出すのは、リアリティを求める上で非常に有効であることは昔から示唆されていましたが、リズムに乗せない(音素が一定の間隔にならない)故の原音設定の難しさ、難読文章の発声、収録方法(OREMOの利用の有無等)の違いやリスト完全網羅が非常に難しいなど、数々の問題があり、私は避けていた部分でした。
     しかしながら、いざ切り出しされたものはやはり完成度として高かったため、自分の制作していたリストを放り投げ、「VCVCをもっと簡単に録れて、簡単に設定できるものにしてみよう」という方向に踏み切りました。
    一部手動でエイリアスの変更は必要ですが、録音した状態のものに自動推定を当てるだけで、従来の連続音程度のズレに抑えることが出来ているかと思いますので、是非気軽に挑戦して頂ければと思います。

  • HANASU用連続音に求められる音素とは何か(発展編)

    2017-06-24 22:50
    思うことがあったので、走り書きですがまとめます。

    ●末尾の音について
    文章末のモーラの母音は、直前の子音の調音場所や開放度合いによって変化するのではないか、という仮説です。
    例えば、「~である」の「る」についてですが、語頭、語中の音よりも母音が短く、なおかつ「r」を発音後の舌の位置がほぼ維持された状態で発音されている場合があります。これは基本の「う」の母音と異なる響きを持っています。
    それ以外にも、「~なのか」の「か」の発音において、母音が短く、なおかつ子音が帯気化された場合、母音にも同様の掠れが付与される場合があります。
    もちろん、上記の例はいずれも丁寧に発音されれば解消されるものですが、音源の再現性を高めるにあたって非常に有用ではないかと考えています。

    さらに、「る」「く」や「か」「な」など、同じ母音をもつものでも、子音によって調音が変化するのであれば、語尾音は1パターンではすまないのではないか、ということです。

    ●現実的な対処
    現状、これに近いことは現行の音源でも起こることであり、「語尾息音源が上手くつながらない」「同じ母音なのに響きが違うせいで上手くなじまない」といったものがそれに当ります。
    これはつまり、鼻音化などにより母音の調音場所が微妙に変化することにより起こるものではないかと考えています。
    しかしながら、クロスフェードや音素の差し替えなどで、ある程度の対処が可能なため、さほど大きな問題にはならない事が多いように思います。「より厳密に」音源を制作したいのであれば、それぞれの響きに合わせて音素を用意すればよいのではないかと思います。

    ●まとめ
    語尾の母音は普通のよりちょっと違う気がする
    沼っぽいことしたいなら別音素にしたらいいんじゃないかな

    以上です。