Wikipediaに頻出する単語を調べてみた
前にタイピング練習用のワードジェネレータ作ったときに「常用でない意味の分からない単語がたくさん入ってしまう」という問題があった.常用でない単語を除くなんて手作業じゃできないのでブログとかの文章をさらって頻出する単語のチェックができないかと思ったけど,ブログのデータって基本的にクローリングしないといけないので手間もかかるし効率も悪い.
そんなわけでコーパスに困ったときのWikipedia*1.日本語の全テキストをやるのはちょっと時間がかかりそうだったのでタイトルと概要だけの700MBのテキストをMeCabに突っ込んで単語の出現頻度順に並べてみた.個人的にはブログでもチェックしてみたいけど,どっかでまとめてないかな.
Wikipedia:データベースダウンロード - Wikipedia
頻度順単語データのダウンロード(zip, 1.1MB)
例:名詞
年,トシ:264126 月,ツキ:164173 日,ヒ:156884 県,ケン:129015 市,シ:95874 日本,ニッポン:68736 駅,エキ:43937 町,マチ:37714 こと,コト:35856 家,イエ:34219 号,ゴウ:31969
例:動詞(基本形)
する,スル:309158 れる,レル:128388 いる,イル:83782 ある,アル:73817 なる,ナル:18712 られる,ラレル:14097 行う,オコナウ:14011 呼ぶ,ヨブ:12125 ちる,チル:10579 いう,イウ:10401
例:形容詞
多い,オオイ:4923 ない,ナイ:4565 こい,コイ:4318 よい,ヨイ:2164 くい,クイ:1684 高い,タカイ:1635 うい,ウイ:1565 ながい,ナガイ:1510 広い,ヒロイ:1366 大きい,オオキイ:1354