日本語n-gramデータが欲しい

AZIK拡張の余地を大幅に増やす方法 - tomoemonの日記の続きです。拡張スロットに空きができたのはいいのですが、そこに何を詰めればいいのか?という問題と向き合わないと、いつまでたっても拡張を増やすことができません。

だからといって思いつきに従ってテキトウに拡張を増やしていくのも気持ちの悪い話です。なによりAZIKもそうであるように、大量のデータを分析して効率の良い配列を目指している人をたくさん知っているのに、この段階でテキトウ拡張をかぶせるのは失礼な気がしておいそれと手が出せないという現状です。

タイプウェルに登録されている「打ちにくい単語」を登録するのもありといえばありですが、日本語の音声コーパス V.S. ゆっくり声 - tomoemonの日記で書いてるとおり、実用入力で頻度の低い単語を入力しやすくするよりも頻度の高いものを登録した方が僕の目的に適います。

そんなわけで僕自身が納得する意味でも、日本語n-gramデータの頻度を使って上位から割り当てていけばいいんじゃないかしらと考えているのですが、そう簡単にn-gramデータは転がってないわけで・・・。
Googleのデータを使うには個人で4万円必要ですorz(2000円払って学生会員になれば2万円)


Wikipedian-gramデータを作って公開している人はいてもおかしくないんじゃないかと思ったけど、ググっても見つからずorzあと、Wikipediaの記事って基本的に全部常体(である)で書かれてるからちょっと偏りがあるんですよね。


なんか上手いことできないかなー。同じようなことはすでにやられているはずなのでぽろっと見つかったりしそうな気はします。

リンク

Wikipediaを研究しているサイト。
Googleマップとのマッシュアップが面白い。
SIGWP