日本語の音声コーパス V.S. ゆっくり声

タイパー的には速記入力タイピングってどうなんでしょうね。僕にとってタイピング練習は実用に効果を発揮できてなんぼの存在なので、速記入力タイピングはその最高位に位置する形態だと思っています。現実的に速記入力タイピングをする場面があるかってのはさておいて。

それもあって以前から「ゆっくり声」を使った速記入力タイピングソフトを作ろうかと思っていたのですが、「WEBで体験 タイピング検定」を見るとやっぱり「実際の音声データ」が良さそうに思えるんですよね−。

ゆっくり声は各種言語から使えるようにインターフェースを公開しているので基本技術的には問題なく実装できますし、速度も自由に変えることができます。もちろん、プログラム的に音声を作り出すので任意のテキストをしゃべらせることができます。
AquesTalk - テキスト音声合成ミドルウェア
楽天が運営するポータルサイト : 【インフォシーク】Infoseek(ゆっくり声生成ソフト@音声生成エンジンはAquesTalk)
一方で、実際の音声データを使うと「リアルに」速記入力をやっているという体感ができます。しかし、音声データ群(音声コーパス)とそのテキストを用意する必要がありますし、そのデータは固定的です。
こうやって比較してみると必ずしもどちらがいいということはなく、相互に補完し合う関係にあるわけですが、現状で実現が難しそうな音声データを使った方を実現することを考えます。まぁテキストは無くともとりあえず音声コーパスだけでもあればと思ってググってみたらこんな感じで量は少ない上に、ライセンス的にも手軽には扱えなさそうです。


手軽にたくさんのデータが手に入りそう。
そんな気がするのです。

・・・。

・・・・・・。


ニコニコだ!


ニコ動に行けば実況系とかたくさんしゃべってる動画があるではないですか。音声を抜き出していけば立派なコーパスになります(たぶん)。話している内容をテキスト化する必要はありますが、最初のうちは自分でやれば良いでしょう。音声データを勝手に使っていいのかって問題はありますが、そこはそれ。マッシュ・アップということで。ダメかなー。



こんなこと言ってる間に誰かが作ってるんじゃないかしら。
と思う今日この頃。