国産の「歌声合成ツール」。
Windows用。
クローズドソースで、無料配布されている、シェアウエア(カンパウエア)。

作者本人による移植らしいMac版もある。操作系に関してはMac版の方が洗練されてたりもする。厳密な区別は不明だが(というか未定のような気がするが)Macへの移植版はUTAUではなく「UTAU synth」と呼ばれている。

概要

要は「ボーカロイドのようなソフト」で「ピアノロールで音を並べてそこに平仮名で歌詞を書くとそのように歌ってくれる」ものと考えてよい。と思う。

歌声は大雑把に言えば

  • 日本語の五十音を録音したWAVファイルを元に
  • ファイルの前後をフェードインフェードアウトさせたり
  • 音程を上げ下げしたり
  • 縮めたり伸ばしたり
  • したWAVファイルを作って、それを繋いでWAVファイルへ出力

という仕組みで作られる。「Audacityを使って手動でやってたのを自動化するためにできた」ソフトとかいう話らしい。

「音程の上げ下げ」、「縮めたり伸ばしたり」の部分は(前提となる元音声のfundamentalの抽出やらharmonicsの推定をしたり、子音部分を抽出して最低再生時間の保証したり、母音部分を抽出して元の音の意図しない音程変化を潰したりループないし伸張可能な部分を探したり、フォルマントのホウラク線を抽出してピッチ変更対象から外したり…をやってると思うが想像)けっこう大変な高等数学が必要となる話で、それを司るのがresampler.exeというコマンドラインツール。UTAUと呼ばれるプログラムはピアノロールを中心としたGUIツールだけど中ではresampler.exeを呼び出してるというか呼び出すためのwindowsバッチファイルを生成して呼び出すということをやってるらしくてUTAU実行時にも(作者の趣味なのか)「黒い画面」上でその様子を目で見ることができるようになっている。
最近はもうちょっと複雑なことをやってるらしいけどその辺は知らない。

ひたすらWAVファイル加工する仕組みなので、50音の音声WAVファイルを用意すればその声で歌うようにできるのが特徴。多分ピアノロール上の文字とファイル名のマッチングさえできてればいいはずなので、ピアノロールで使わないなら50音揃える必要もないし、人間の声である必要もないし、そもそもデフォルトで提供される音声はAquesTalkによる合成音声。

参考

原則的に「五十音を前提としている」にも関わらず、非日本語圏でも結構使われてるらしい。何と言うか「プリミティブな仕組みである」のも影響してるんじゃないかと思う。言語が持つ母音の数とかがシステムの根幹に関わらないからとかそんな。

MIDIデバイスからの入力は一応できるが、VSTとかAUとかそっち系は非対応、リアルタイム性はない。
音楽制作というより(二次)創作ツールとして広まってる。ような気がする。
「配布されてる音声にキャラ付けて歌わせる」とか、「何より機械が(タダで)歌ってくれるからうれしい」とかそんな切り口。
ユーザー層が広い一方、情報が偏在してコミュニティに閉じて見つかりにくかったり、ユーザーの知識分野の幅が広すぎて、適切な情報が手に入りにくかったりもしているような気がする。

多分これ( http://utau2008.web.fc2.com/ )が公式のホームページ。
ニコニコ動画へのリンクの二本目(「ボーカロイド持ってないので作ってみた(人力ボカロ支援ツールその2)」 http://www.nicovideo.jp/watch/sm2655706 )を見ると、開発経緯とか設計思想がわかる。

plug-in

pluginに関する一次情報は作者のBLOG記事。
http://utau2008.blog47.fc2.com/blog-entry-10.html

  • コマンドライン引数でファイル名を受け取ってUTAUの保存形式(.ustファイルの中味=Shift_JISのテキスト)に似たデータを書き換えてそのファイルへ書き出すWindowsプログラム
  • を、サンプルを参考にアーカイブしたもの

という仕様らしい。

関連項目

resampler.exe


トップ差分 バックアップ リロード  一覧 単語検索 最終更新 ヘルプ最終更新のRSS
Last-modified: 2013-02-07 (木) 14:04:17 (4328d)