読者です 読者をやめる 読者になる 読者になる

Wikipediaに頻出する単語を調べてみた

タイピング

前にタイピング練習用のワードジェネレータ作ったときに「常用でない意味の分からない単語がたくさん入ってしまう」という問題があった.常用でない単語を除くなんて手作業じゃできないのでブログとかの文章をさらって頻出する単語のチェックができないかと思ったけど,ブログのデータって基本的にクローリングしないといけないので手間もかかるし効率も悪い.
そんなわけでコーパスに困ったときのWikipedia*1.日本語の全テキストをやるのはちょっと時間がかかりそうだったのでタイトルと概要だけの700MBのテキストをMeCabに突っ込んで単語の出現頻度順に並べてみた.個人的にはブログでもチェックしてみたいけど,どっかでまとめてないかな.
Wikipedia:データベースダウンロード - Wikipedia
頻度順単語データのダウンロード(zip, 1.1MB)

例:名詞

年,トシ:264126
月,ツキ:164173
日,ヒ:156884
県,ケン:129015
市,シ:95874
日本,ニッポン:68736
駅,エキ:43937
町,マチ:37714
こと,コト:35856
家,イエ:34219
号,ゴウ:31969

例:動詞(基本形)

する,スル:309158
れる,レル:128388
いる,イル:83782
ある,アル:73817
なる,ナル:18712
られる,ラレル:14097
行う,オコナウ:14011
呼ぶ,ヨブ:12125
ちる,チル:10579
いう,イウ:10401

例:形容詞

多い,オオイ:4923
ない,ナイ:4565
こい,コイ:4318
よい,ヨイ:2164
くい,クイ:1684
高い,タカイ:1635
うい,ウイ:1565
ながい,ナガイ:1510
広い,ヒロイ:1366
大きい,オオキイ:1354

*1:青空文庫も考えたけどあれも常用単語を使ってるとは言い難い