• OИE(ONE)っちとの個人レッスン報告書

    2015-09-05 14:2910
    arctan_PことCHI-TAです。

    8/30 昼12時に新曲を投稿しました。

    曲名:両手には剣を、心には刃を
    トーク&ソング:ONE(CeVIO)製品版




    ONEっちの歌の練習で彼女の特徴やここを直せば良くなる!と思ったポイントをまとめてみました。↑の動画で聴きながらだとより、理解しやすいかと思います(露骨な宣伝)

    ポイント1. TMG

    CeVIOの一番の特色であるTMGパラメータ。
    各音素の発音タイミングを5本のラインで移動させることができます。
    ここまではご存知だと思いますが、具体的にはどう移動させればいいのでしょうか。

    【TMGのおおまかなイメージ】
    1本目~2本目の区間:前の音素からの遷移
    2本目~5本目の区間:定常
    5本目~次の音素の1本目の区間:次の音素への遷移(母音の場合は遷移の前に減衰が入る)
    ノートを長押しすると、そのノートだけが再生されるので試してみると、
    若干前後の音が聴こえると思います。これがHMMの特徴です。

    ※気をつけるべき前提
    TMGをイジると、その他すべてのパラメータ(PIT,VOL,VIA,VIF)も一緒に変化します。
    効率的に調整するには「まずTMGから」やることをオススメします。

    【子音のTMG】
    ONEは全体的に子音が短く発音されがちなので、以下のように子音の
    長さを変えてやるとより自然な歌い方になります。



    子音を左側に伸ばせば、その分立ち上がりが早くなります。
    これにより、いわゆる「走り」を表現できます。
    サ行、ハ行、マ行、ナ行でかなり効果を発揮します。
    上の画像の/s/a/はブレスの後なので、かなり前にのばして子音を強調しています。

    子音を右側に伸ばせば、子音が長くなりますがその後の母音が短くなります。
    これにより、短い音符のときにカ行やサ行が無声化気味になる歌い方を表現できます。
    ただし、基本的に人間の耳は「母音の始まりを音符の始まりと認識する」ので、
    子音を後ろの母音に食い込ませ過ぎるとモタった歌い方になるので注意です。

    これをあえてやることで「タメ」を表現したい場合はぜひやってください。
    自分の場合は、フレーズ内の強調したい場所(上の画像で言うと/r/o/])や音程が大きく動いた後の子音でよくやります。

    【母音のTMG】
    子音のTMGをイジるときに当然、前後の母音をイジることになります。
    母音は4本目と5本目の縦線を動かすことが重要です。
    先の説明で、
    5本目~次の音素の1本目の区間:次の音素への遷移(母音の場合は遷移の前に減衰が入る
    と書きました。
    ここ
    が短すぎたり長過ぎたりすると、特にロングトーンで母音の減衰が不自然になります。
    子音を左側に動かしたらその前の母音の5本目も同じだけ左側に動かしてあげると不自然さを回避できます。4本目~5本目の区間にも減衰が含まれているものがありましたので、
    念のため、母音の4本目と5本目はセットで平行移動させておきましょう

    この考え方は、CeVIOが自動で弾きだした母音の長さが気に入らないときにも役に立ちます。
    後ろに無音区間がある母音は、実際のノート長より短く発音されることが多いです。
    この場合も上と同じ考え方で、母音の4本目、5本目、そして無音区間の1本目を後ろに平行移動してあげましょう。こうすれば自然な減衰のまま母音を伸ばすことができます。

    ポイント2. PIT
    歌の要、ピッチです。ピッチは調整する人の個人差が出る所だと思っていますので、
    ここに書いたことに縛られる必要はありません。こうすると「味」が出るよ~くらいの
    認識でいいと思います。

    【オーバーシュート】
    「ピッチの遷移には慣性がある」と私は考えています。
    というわけで以下の画像のように、ピッチの変化が大きい所で目標ピッチを通り越して元に戻る曲線を描きます。



    【ノート内でのピッチ変動】
    ノート内でピッチを変えたい場合、ノートを分割すると、どうしてもぶつ切り感がでてしまいます。この場合はノートを分割せず、以下の通りにピッチを自由に書いてあげて下さい。
    自分は「かげろう」という歌詞で「かげろー」と発音されるとかっこわりー!と思ったのでこのようにしました。



    【高いピッチへの遷移(しゃくり)】
    高いピッチを出すには、人間は喉を力を入れるのでエネルギーが要ります。
    いきなりドン!とエネルギーが出るわけないので、徐々に力を入れていきます。
    そうすると、最初の区間では力が足りずに目標ピッチより下の状態がしばらく続く
    ことになります。



    【同じピッチが続く場合の味付け】
    同じピッチの歌詞が続く場合、歌い方がのっぺりとした印象を受けることがあります。
    この場合は、ピッチを半音下くらいから遷移するようにカーブを描いてあげるとのっぺり感がなくなります。



    【下降メロディでの味付け】
    下降メロディで暗さを出したいなーと思って以下のようにピッチを描いてみたら、わりと上手くいったので紹介します。
    フレーズの最初のピッチよりさらに半音高いところへ一瞬遷移し、すぐに戻るというものです。下降以外でも応用効くかもしれないですね。



    ポイント3. VOL

    VOLの調整は歌の抑揚を表現するのに役立ちます。
    具体的には、子音の強調と息の強調です。

    【子音・息の強調】
    ONEは子音が弱いので前述の通りTMGで子音を長くしてあげたあと、さらにVOLを上げて強調します。VOLカーブを見て子音が凹んでいたら押しあげてやりましょう。
    TMGの”文字部分”をクリックして後ろにTMGの線を表示させてやるとさらに効率があがります。
    一方、息はそのままではほとんど聞こえないので、画像の通り、大胆に押し上げてやりましょう。

    ただし、VOLの左右の境界は結構シビアです。ちょっとでも行き過ぎるとノイズが強調されてしまうので面倒でも再生して確かめた方がいいと思います。




    ポイント4. 小技(巻き舌、ミュート、裏声)

    ここでは、自分が調整で使った小技を紹介します。

    【巻き舌】
    今回自分が一番気に入っているところ。巻き舌です。
    全角の「’」を付けた音の母音が脱落することを利用します。
    (公式ページのユーザーマニュアルにもあります)
    一つのノートの中に「ら’ら’ら」や「れ’れ’れ」と入力することで、擬似的に巻き舌を表現しています。「ラ行’」の数は1~2くらいがちょうどいいです。



    気をつけるべきなのはTMGです。巻き舌っぽく聴こえるようにするために、以下のように母音が脱落した/r/をできるだけ短くします。



    後は、TMGの調整で変動したPITとVOLを滑らかになるように描きます。
    (あ、下のはPIT修正するの忘れてた…。)



    【ミュート】
    ここで言うミュートとは、フレーズの途中で意図的に喉を締め、声を出さないようにすることです。ノートを右クリックしてブレスにチェックを入れるとノートの後ろに「v」マークがつきます。これを使ってミュートを再現します。

    下の例ですとスタッカートっぽくなりました。



    こちらは意図的なミュートでフレーズにキレを出しています。



    【裏声(ファルセット)】
    CeVIOでは以下の通り、歌詞の後ろに「※」をつけることでその音を裏声にできます。
    (公式ページのユーザーマニュアルによると、裏声設定が比較的効果があるのはONEと黄咲愛里のようです)
    ONEの場合はG5くらいから裏声が効き始めます。

    以上、4つのポイントでONEっちのレッスン結果を報告しました。
    皆さんのCeVIO/ONEライフに役立てれば幸いです。

  • 広告
  • プレゼンマッチSinsy陣営&歌声合成技術サロンひとり反省会 (ボカコン2015)

    2015-03-02 22:481

    ボカコンの終わった次の週に体調がすってんころりんして、ろくに仕事もできなかったCHI-TAです。

    歌声合成技術を語る~VOCALOID vs UTAU vs Sinsy 三つ巴プレゼンマッチ~
    でSinsy陣営を担当してましたが、いかがでしたでしょうか?

    Dropboxにプレゼンマッチで使用したスライドをアップしておりますので、興味のある方は見てみて下さい(HMMについてはあまりつっこんだことは書いてません。あしからず)
    https://www.dropbox.com/s/jalqztlq0dmkyyh/%E3%83%9C%E3%82%AB%E3%82%B3%E3%83%B32015_Sinsy%E9%99%A3%E5%96%B6%E3%83%97%E3%83%AC%E3%82%BC%E3%83%B3%E8%B3%87%E6%96%99.pdf?dl=0

    スライドはCHI-TAさん結構がんばって作ったんですよ!いや…ほんと

    学会発表とは違うエンタメ重視で、なおかつSinsyがどんなものなのかふんわ~り分かってもらうのにはどうしたらよいか。そしてSinsyの魅力は何か。どうやって音源を作るのか…
    考え出したら15分じゃとても喋りきれないので結局ニコニコ動画のデモ重視にしました。
    やっぱり歌声合成は歌声を聴いてもらってなんぼですからね。学会でもなんでも。

    ミクさんの歌声を2曲聴いただけで声を「マネる」技術に歓声があがりましたね。
    壇上からニヤニヤしながら見てましたよ!すごいよね~声質変換の技術。

    あと、机に(自前の)CeVIO Creative Studioのパッケージを置いていたのにみなさん気づかれました?さとうささらさんとすずきつづみさんが眩しかったでしょう!?(あれ?タカハシ…)

    なんでそのパッケージを置いていたか。それはSinsyとCeVIOが同じ仕組みだから
    なんですよ!隠されたマルコフさんですよ奥さん!

    言ってみればSinsyは研究デモ、CeVIOは商業パッケージという位置付けです。

    Sinsyに比べてCeVIOの声質がかなり異なるのは、クライアントの要望によるところが大きいとかなんとか(アニメ声の方がウケがいいと考えてるのかな?)

    Sinsyはまだまだ研究途中なのでいろいろな人の声を必要としています。
    尾形社長のSinsy音源には個人的にも期待したい!!!実現するか!?


    そして、初めて企画側の立場となりました今回の歌声合成技術サロン。

    正直あんなに人がつめかけるとは思いませんでした!!!

    だってねぇ。隣はゆかり温泉だし、胸部装甲やOcuなどの楽しそうな儀式やってるし。
    技術のかたい話なんてみんな興味ないだろと、たかをくくっていたのは間違いでした。

    狭い思いをした方、そもそも部屋に入れなかった方。誠に申し訳ございません。
    すべて私の見通しの甘さが元凶です・・・・でも、

    2110部屋に運良く(根気よく)入ってこれた方々の中には、どう考えても素人じゃない人たちが何人もいて、それはそれはいい刺激になりましたね!私かなり飲んでましたけどちゃんと質問に答えられてたでしょうか?

    明け方4時まで、アツく語り合った思い出は生涯忘れられないものとなりました。みんなとにかくアツい。産総研の後藤さんほどではないけどアツかった!

    とりあえず感じたことを書き並べただけなので、とりとめもない感じですがこれにてOverです。

    あとは聴き専ラジオでしゃべりますか!3/7が楽しみ!
  • ボーカロイド技術論を論ずる 第6回(V3のTriphoneの恩恵)

    2014-11-24 22:501
    arctan_PことCHI-TAです。

    チャプター5.VOCALOID3の開発と機能
    をレビューしようと思いましたが、チャプター5と6で内容に関連が多いので、
    ャプター6.VOCALOID3に搭載された新技術
    も一緒に書きたいと思います。

    今回はVOCALOID3で追加された機能であるTriphone(トライフォン)機能について
    見ていきます。

    本書では、Triphoneは「3つの音素をつなぎ合わせた発音」と書かれていますね。
    音素ひとつひとつをがんばってつなぎ合わせるより、最初からある程度つながった単位で
    操作するほうが滑らかな発音になることは想像がつくかと思います。
    UTAUの連続音音源ですと、子音の前の母音まで含めた単位でつなげていますね。

    これまでの記事でも何度か書いていますが、VOCALOIDももちろんV1の時代から既に
    音素ひとつひとつではなく、C-V、V-Cのように2つの音素のつながりを単位としたDiphone(ダイフォン)で歌声ライブラリが作られています。
    「#a」や「a#」のような単独に見える素片も、無音から/a/、ないしは/a/から無音への
    遷移と見なせるのでDiphoneのひとつと言えるでしょう(というかその方が定義がラク)

    Triphone単位にすることで日本語の発音も滑らかになりますが、英語ではその違いが
    顕著にでます。英語の場合、子音が連続するDiphone(C-C)が存在するからですね。
    本書には「String」と「Tree」という英単語が
    例として挙げられていました。
    これらを子音に分割すると次のようになります。

    /s/、/t/、/r/、/i/、/ŋ/(注:/ŋ/はひとつの子音です ング
    /t/、/r/、/íː/ (注: /íː/は長母音です イー

    子音→C、母音→Vを割り当てると、それぞれ C-C-C-V-C、C-C-V ですね。
    「s-t」や「t-r」は子音が連続するDiphoneです。VOCALOIDの日本語ライブラリには
    存在しませんが、V1、V2の海外ボカロや巡音ルカの英語ライブラリには多く含まれているで
    しょう。

    これをTriphoneでは、「s-t-r」、「t-r-i」のように発音をまとめて扱うことができます。
    ただし、VOCALOID3で扱えるTriphoneは、真ん中の音素が子音のものだけということが
    書かれています。真ん中の母音を許してしまうとTriphoneの長さが歌詞によって大きく
    変わってしまい、扱いづらくなるからだそうです。

    扱いづらくなるという意味では、先のStringの「s-t-r」はすべて子音で構成されるまれなTriphoneであるため、エンジンで扱いやすいように「s-t」と「t-r-i」でわけてるかもしれませんね。そうすれば、組合せの中で出現数が多いC-C-VとV-C-Vに統一できるので。
    なお、最後がVであるのは母音を伸ばすときに、素片の最後の音素だと決まっていたほうが処理しやすいからですね。(最後の音素の最後のフレームを繰り返すという処理に統一できる)

    本当によく考えられて作られていますよね(偉そうですみません)

    V2でもTriphoneの導入は当初考えられていたそうなのですが、音素の組み合わせが増加しデータ量も大幅に増えるので見送られていたとのこと。今のPCスペックならTriphoneを導入してもそれほどHDDを圧迫…ドウカナー?

    ここまでの内容では日本語ではあまりTriphoneの恩恵を受けられないんじゃないかという
    印象になってしまうかもしれませんが、そんなことはありません。

    本書では、Triphoneの組み合わせの中で、その効果が顕著に現れるもののひとつに「a-h-o」と「a-h-a」があるそうです。音素/h/は次にくる母音によって、発音時の口の形が大きく異なることがわかっています。やってみれば確かにそうですね。

    /h/は口を閉じないで発音できるので口の形が"リセット"されないからでしょうか?
    もしそうならば、他にも口を閉じないで発音できる子音(/k/とか/g/とか)もTriphoneの
    効果が大きくでそうな気がしますね。

    最後に、VOCALOID3でもすべてがTriphoneになったわけではなく、基本は「Diphone」
    であるということを付け加えておきます。上の例のように、Triphoneの効果が大きいもの
    だけ適用する、ということです。そうしないといくらHDDの容量があっても足りませんので。

    今回はVOCALOID3の新機能「Triphone」について色々書きました。
    次回はVOCALOID3のもうひとつの大きな新機能「ピッチ間モーフィング」の記事を書きたい
    と思います。

    でぃばでぃば~♪