みーみーいうのをやめるのだ

ナズーリンはマーガリンではなくガガーリン

VOICEVOXハミングのアカペラにお戯れ

ふわシナさんのカオsig*1を嗜みにいったら、候補に出てきた公式MVで4周年とのこと めでてぇ
今回はその4周年を迎えたVOICEVOXの『ソング』機能にふれて綴ってみようと思います

★VOICEVOXハミングとは

ちょっとややこしいのでまずはツリーを
トーク
ソング
 ├ ソング
 └ ハミング

『ソング』機能の生成方式には2種類あり、「ハミング」「ソング」モードで歌声が変化します
※投稿時点では「ソング」スタイルに対応しているのは波音リツのみ(ベータ版で開発途上)
ボタンなどでスイッチするのではなく、キャラクター名でハミング/ソングが分けられています

「ソング」モードが現状ベータ版というのもあり、この記事では「ハミング」モードの歌声をおもに扱います

◇特徴

・UIがシンプル(CeVIOやNEUTRINO、ピアノロール型シーケンサーに触れたことがあるなら造作なし。初めて触る人でもとっつきやすい)
・動作が軽め
・30を超えるキャラ数+スタイル違いで選択肢が多い
・キャラのクセが強く出るので、誰が歌ってるかがわかりやすい
他ソフトより明らかに強い。その子らしさを重要視するなら長所かも

★VOICEVOXのアカペラ

歌だけを録るぶんには曲に合う・好きなキャラクターで出力して
別のオーディオ編集ソフトで音の加筆・編曲をしていく流れ。
ただこういったDTM話は(読み手側も書き手側も)ちょっと敷居が高いし、ソフトごとに操作も機能も違いすぎて語り尽くせない……

そこでVOICEVOXオンリーで曲作りができる方法として
ボイスだけで構成できる"アカペラ"というジャンルを提示します。

以降の項ではそのアカペラ歌唱を想定した内容を多分に含みます
※素人ゆえ知識に誤りがある場合がございます ご了承ください*2

★おすすめキャラ

ローンチ(1期生)で精練されているであろうオールラウンダー、四国めたんずんだもん以外の歌唱に良さそうなキャラクターボイスをメモしておく
すべて公式ページからDLできる

◎メロディを担いやすいキャラクター

// WhiteCUL - たのしい
母音あ行が得意 感情がこもってる
トークより歌向き

// 満別花丸 - ぶりっこ
高低音や音量を絞っても個性がつぶれない
"い"を全体的にうすく重ねたような声質

// もち子さん - 喜び/のーまる/怒り
囁き感と可愛さを付加できる リード向き
トーク時も共通するが "て"の震えに注意

// 春日部つむぎ
サラサラというか丁寧。ざらざらせず使いやすい
元ネタの声からして良い意味でギャルっぽくない感じ

◎伴奏に強そうなキャラクター

// 中国うさぎ - のーまる
吐息まじりの声(ウィスパーボイス)は 倍音成分が豊富
一般的に声より楽器のほうが倍音を含みやすいとされ
ドライ寄りのパーカッションなどもいけそう

// 猫使アル - のーまる
低音に強い貴重なベース要員
ちなみに基音が低い男性だと発音文字が聴き取れやすく調声ムズイ


音質と謳っているとおり、ひずみや震えがうっすら混ざることがあります
(声質/機材/収録環境の違いで)キャラクターごとに発生しやすさは異なるものの
トーク以上にソングではそういったノイズはよくあるので、役割・音域・パラメータはしっかり考えたい

単体では難しいキャラクターも組み合わせ次第で化けます。色々試してみましょう

★ピッチ編集

ピッチエンベローブともいう
VOICEVOXの生成は優秀なのでそのままでも結構聞けますが、機械で出力している以上、違和感や詰まりが必ず発生します
手動でピッチ(音程)を調整すれば解消するかも(しないこともある)
高音に跳ね上がるなど 目立つ波形にはとくに気を配ろう

ペンタブレットを用いるとグラフィカルに描画しやすく、持っている方は使ってみるのもオススメ

★音域・声量・L/R値

◎音域

数値が1変わるだけでそのトラック全体の出力結果が変わるので、シーケンスを配置した後に触る部分
音程によっては音域を変更してもうまくいかないため、ピッチ手直し、キャラ変更、音のアレンジを視野にいれます

◎声量

付属マニュアルに従ってかすれ時に上げるのが基本
が、声量上げると単体で聴けば綺麗でも、ハッキリし過ぎてボーカル他を消したり消されたり(マスキング現象)が起きることも
とくにボイボ単体で作ることを想定するなら注意したい点です

音程は取れてるから音域変えたくないけど、なんか声小さい…… そんなときに声量を増やすのはアリ!

◎L/R(Pan)

ステレオバランスは好みが出やすい箇所かと
人声のアカペラだとPanガッツリ振ってることが多く、極端なものは編集で L100/R100に振り分けたパートを含む楽曲さえあります

筆者は以下の考えから、
・声だけで構成すると少なからずリアリティが付随する
・ライヴ・オーケストラなどの生演奏は自分の真横から流れることがほぼない
周波が混雑しない範疇で中央寄り(50%超えない程度)としています 完全に好み!

ただ全トラック中央(デフォルト)配置だけは避けたい
混雑感(輻輳)で大変なことになっちゃう

左右どちらにどのトラックを割り振るかは 聞き心地で判断します
バンドや電子ミュージックでは
L:低音|R:高音 寄りのパートを置く場合が多い*3のですが
あまりアカペラには適用されないみたいです(?)

後述の拙作動画でも音の幅の広さからベースを右に寄せています
何かしらの基軸を考えておくと選びやすいよ

★プロジェクトファイルの内部

プロジェクトファイル[.vvproj]はテキストベースのプログラムで構成されており、メモ帳やテキストエディタで開いて編集できる

各キャラのパラメータの順番は保存時の並びに準拠している

// デフォ値

{"name":"無名トラック","singer":████,"notes":████"solo":false,"mute":false,"gain":1,"pan":0}  

↑各トラックの末尾にゲインとパンの設定値が記述

L/R(Pan)や音量(Gain)を細かく調整したいときは
テキスト検索[Ctrl+F]で gain
などと入力して飛び、対応した数値を書き換えます
◇"gain"
0,0.01……0.49,0.5,0.51……1
◇"pan"
-1,-0.99……-0.01,0,0.01……1

GUI(操作画面)のスライダー操作では音をキッチリ揃えたいとき厳しい……そんな悩みにお試しあれ。

編集前は複製するなりバックアップを取っておく
VOICEVOXに限らないお約束ぞなもし

★単語の選定

あくまでも喋るソフトですので、ボーカル以外のパートにも何かしら単語を割り当てなくてはなりません
まず母音[あいうえお]だけで試し、気になるようであれば子音も加えます

母音のイメージ
「a」・・・パワーがある("パワー"って文字も母音aですね)
「i」・・・裏声向き(尖る)
「u」・・・裏声向き(おだやか)
「e」・・・バランス
「o」・・・低め
現実の歌唱は指などを用いて変化を促したり、母音の発声方法にもバリエーション(uh~など)があるようですが、ソフト上は1種類ですのでざっくばらんに捉えます

子音では
ハイハット(クローズ)のようにリズムを刻む「た行」
両唇音で人が無意識に可愛さを刷り込まれている「ぱ行」
言語として聞き取られにくく母音以外で唯一周期性を保てる「ま行」「な行」(m/n:鼻音)が使いやすいです

同じ読みでもひらがなとカタカナで微妙に波形が変化します 微調整したいときに変えてみよう

注意したいポイントは2つ
・ノイジー過ぎない
歯擦音(サ行)や破裂音(bとかd)に当たる言葉はノイズ(ザラつき)が発生しやすいため、試聴して問題ないことを確かめる

・読みがハッキリしすぎない
母音は発声言語として認識しやすく、ボーカルをジャマしかねません
変に面白くなったり、聞き疲れるという不安もあります
例)「うー」と歌うと『う』だなと分かりやすいが、
  「ぬー」とか「るー」と歌うと『ぬ』にも『る』にも『う』にも聴こえる

脳は言語として曖昧なほうが単に音と振り分けるのでは? と推測しました
ワードの聞きやすさが必ずしもプラスに働くワケではないってコトね

★打ち込みのコツ

全キャラ共通で、少し長めにシーケンスを配置すると音を拾いやすくなる
長めにとっても(息継ぎの再現で)ポルタートぎみに発声されるため、音が連なってもまだるっこさは感じない

2つのシーケンス前後で音域が広すぎると、ノイズやしゃっくりみたいな声になってしまいます
そういう箇所はボイシング(転回)でお茶を濁しましょう
また高音すぎた場合にも使います。

VOICEVOX(少なくとも現行のハミング)では人間が出せないほどの超高低音をうまく発声できません
ドラム(ボイパ)表現などはかなり難しいです……

音域上限の目安は B5
C6 あたりから誰もスムーズな発声はできません
(それを逆手にとってSEを作ったりもできますが、用途が狭く難しいため省略)

人声から外れるような高低音が出せない≒周波数が集中しやすい
現実とは異なりいくらでも人数を増やせますが、ある程度にとどめます
同時発音数が増えるほど音がぶつかりやすく、またノイズや音割れの原因に(どうしても増やすなら別ソフトで波形をいじる)

ひとつ足したらひとつ減らす、くらいがちょうどいいと思います

映像・フォトジェニックな分野でもそうですが、解像度の高いものだけ配置するとメリハリのない、どれが主役か見失うハメに

★アカペラをつくってみる

サンプル*4です よかったら聴いてみて

コンセプトはソフト内で完結させること。
動画化に伴うラウドネス調整のみ、ダブリング*5(多重録音)やイコライザー(EQ)すら掛かっていません
あくまでVOICEVOX "だけ" で作ると決めていました


AM:313 『crime berry 03 -AM:313-』収録*6
曲:風波徹 歌:白羽美依 (crime berry records)

★サンプル詳細

16/8/16/16/2小節の構成
Aメロ ぱぱぱーとベースが気持ちいい
Bメロ 単音ながら存在感のあるコード
サビ1 "あ"行の発声にこだわり
サビ2 分散和音のタイプが変わる ぴぴぴる
アウトロ つむぎメロディとパーカッションとSE

すべてボイスで構成する関係上、帯域が近くなる点には気を配っています

ハモリはパート分けで音量調節のほか、
ヘルプの文脈を逆にとって「声量調整」を下げ、ハモリ音がぶつかり過ぎないようにサビにかすれを足しました

コードは思い切って単音にしています。
影分身して和音を表現する手もありますが、同キャラだとアカペラ(人声)っぽさが薄れてしまい、複数キャラだと混雑しやすい(厚みを増し目立つ、下に広がってボーカルの音域に近づく など)
コンセプトに沿って無調整でも聴きやすい、人工音声に合う構成を第一としました

本来コードは模型屋のもち子が担当していました
明瞭な歌声が生成できますが、鮮明すぎてボーカルに影響及ぼしそうと判断。
ハイトーンの声質が似ていた雨晴はうに代役をお願いしました
微々たる差で感じ方には個人差ありそう
はうともち子聴きくらべ⇒{そのうち}

単語の選定とは異なる分類ですが、ここも聞きやすさがネガティブに傾いたケースといえます
単体聴き・ミックス後 両方を確認して選択したい

現実のアカペラだと違和感に対し声色(こわいろ)を調節したり、"声にならない声"で鳴らせるから、自然と密度コントロールができているのだ……

母音とフォルマント周波数の関係とか、同じ音量でも人は3~4kHzがよく聞こえがちとか、研究がいろいろあって正解に悩ましい。
結局は難しいこと考えずに、詠んだときの音の可愛さで選んでしまうのだった

◇サムネ
さむねいる

ただでさえチラシの如く詰め込むから せめて絵柄は統一しよう
という理由で moikyさんの立ち絵をお借りしています
後発のボイボキャラも網羅されていてありがたい

没verも

ぼつさむね
jacket感あるけど縮図でごちゃるので思い切って消した


◇ユーザー投稿祭

niconicoのほうで『第11回ひじき祭』『2025初投稿動画祭』に参加しました

ひじき祭は過去InputPipePlugin*7紹介動画で知り、今回たまたま期間が合ったためタグ記述。
まあ今回の動画ベガスであびゅーとる使ってないけれど…… いろんなプロセスで作れると強くなった気がして楽しいデスゥ

2025初投稿動画祭 は関連動画として上がっていた、
投稿祭についての解説(sm45159267)がとても助かったのと
そういえばソフトトークメインの動画を投稿したことなかったなぁ、ということでこちらも記述。

作って満足したりエターなったり動画化するつもりなかったりで、未投稿の草案はたくさん眠っているのだ……

◇余談

上の動画はPC環境なら字幕がカラオケっぽく表示されます
携帯端末の人はブラウザの閲覧モード(UA)を変更すればいけるかも
ややこしい記法のため解説は省きます

★小話

現行verでは東北三姉妹も追加されたようです
VOICEVOXおよび派生ソフトが誕生したのは開発者らの尽力も勿論ですが、ITAコーパス(イタコーパス)という無償のデータベースモデルが生まれた影響は大きい
いわば始祖ともいえる東北イタコの実装は念願でした。めでてぇx2

◇ネタ案

数秒打ち込んだやつ
・silpheed
・味楽るミミカ
ギタルマン Stage2
・東方アレンジ+Tay Zonday
・HAPPY RAINBOW(OSTER project

次回作をにおわせて終わる可能性ほぼ100%


★結び

あまり開拓されていない人工音声のアカペラにアプローチしてみました

「NEUTRINO」制作ならぼちぼちあるようですが、VOICEVOXオンリーは少なく、ソフト外で手を加えていない楽曲がほとんど見つからない
一見すると敷居の高いジャンルに思えます

確かに複数ソフトを併用した本格的なものは多いんですが、実際やってみると気軽に作るだけならソフト単体で完結できます。
ボーカル(主旋律)を打ち込むだけでもカルチャーショックというか技術の進歩は体感できるので、VOICEVOXの『ソング』機能にも一度ふれてみてほしい
ボカロよりはシンプルでとっつきやすいです

アカペラや個性を前面に出した作品がもっと増えてほしいぞ~~


そりじゃえんいー


*1:sm969802「sigsigカオスアレンジ」 作者はふわふわシナモン(=OSTER project
曲中コロコロかわるメドレー式の曲が好きすぎて、ジャンル問わず定期的に聴いてしまう

*2:正確にいうならアカペラより「くちミュー」「全部声」
Smooth McGroove氏のゲーム曲再現など、動画から発想を得て作成しています

*3:ルーツや時期はハッキリしませんが、一般的にはベース(低音)が左、リード(高音)が右に配置されがち。
ドラムセットの配置に連動しているとか、波形機器(オシロとか心電図とか)の向きに倣ってとか、ちょっと考察してみましたがイマイチしっくりきません。たぶんプロミュージシャンや作曲編曲家でもなぜそうなっているか、根拠立てて説明できる方は少なさそう  まーじで謎

*4:バージョンが古い(※Ver.0.21.1)です
ためしに主旋律だけ打ち込んでいたプロジェクトを元に作成したため。
最新版は拍/BPM変化や操作面向上、リファクタリング等、声質にはさほど影響しないハズですが 念のため据え置き

*5:複数収録した同じパートのフレーズをずらして同時再生することで、エコーというかリバーブっぽさが掛かるテクニック。(作曲家の前で"エコー"などという曖昧な単語を使うと睨まれるので気をつけよう)
コピペしてずらす場合は含まれるか怪しいが、メジャー音楽やゲームなど当たり前に使われてはいるので、便宜上同じようにダブリングと筆者は呼ぶ。
植松伸夫氏ら作曲家に三浦大知氏が訪ねた、『ゲームゲノム』という番組の先日の回でも
悠久の風 (FF3/フィールドBGM) をエフェクターなどを介さず響かせられた技術として
(ダブリングなど固有名称は用いられていませんが)この手法が紹介されていたりします

*6:タイトルに込められた意味はおそらく「転回禁止」だと思います
国土交通省が定める道路標識のNo.313は転回禁止

*7:L-SMASH-Works(ファイル読み込み)を別プロセスに割り当てて32bitメモリ上限(フリーズ)を回避できる。AviUtlを使うなら入出力系プラグイン・修正パッチ(Patch.aul)と並んで必須級なプラグイン