ワードジェネレータ更新中

タイピング講座で受講生に練習してもらうためのワード抽出に使っている最中に改良したいポイントが出てきたのでいくつか修正.追加のアプリケーションも含めて,そのうち公開予定.

過去の版に関してはリンク先を参照のこと.
タイピング練習用ワードジェネレータver0.0.1公開 - tomoemonの日記

ワードジェネレータ修正内容

出力するファイル数の設定を削除
あまり使い道が無いってのと,何個も出力したいときは外部からgenerator.exeをその分動かせばいいって結論づけた.
抽出パターンの記述を順不同にした
今までは左手小指三段目だったら#LF5C3#と指定する必要があり,これ以外の記述は認められなかったけど,#F5C3L#でも#F5LC3#もOKにした.順番を確認する手間が省ける.
辞書フォーマットでinclude,excludeの記述を追加
今までは辞書ファイルのすべての行を使用することを前提にしていたが,動詞(Verb.csv)辞書だと同じ単語について基本形,未然形…とたくさんあって困る.基本形だけ使いたいときは「include: 基本形」と指定する.
使用する辞書ファイルのエイリアスを作成
毎回リスト形式で[Adj.csv,Adnominal.csv,...]と書くのは面倒なので,よく使う辞書ファイルのリストに名前を付けて使えるようにした.
コマンドラインオプションの追加
下の通り主要なパラメータをオプションで指定できるようにした.外部から利用する場合は主要なパラメータを設定ファイルに書いておいて,あとはコマンドラインオプションで上書きしてぶん回せば良い.
Options:
  -h, --help            show this help message and exit
  -p PATTERN, --pattern=PATTERN
                        検索する文字列のパターンを指定します
  -o OUTPUT_FILENAME, --output=OUTPUT_FILENAME
                        出力するファイル名を指定します
  -w WORD_NUM, --wordnum=WORD_NUM
                        一ファイルにつき出力する単語数を指定します
  -f LINE_FORMAT, --format=LINE_FORMAT
                        単語の出力フォーマットを指定します
  -d DICT, --dict=DICT  抽出元の辞書ファイルを指定します
  -t ARRANGE_TABLE, --table=ARRANGE_TABLE
                        配列表ファイルを指定します

増田式練習法テキスト自動作成ツール

話題はちょっと変わってワードジェネレータを使った新しいツールへ.
ローマ字入力における増田式の練習法は,例えば動かしやすい右手を使う「か行」を練習し,次に「は行」,「ま行」といった練習をしていく.飛鳥配列であれば,シフト無しの左手,右手,右シフトありの左手,右手といった感じで練習するのが効率が良いと考える.これはどちらもかな文字に順番を付けて練習していると捉えることができる.

このように,少しずつ新しい文字を追加していって練習すると言う意味ではローマ字入力でもかな入力でも同じなので,そういう風に順序立てて練習できる単語集を自動的に作るツールを作ってみた.(ワードジェネレータの正しい進化形)

例えば,以下のようなリストを用意する.コンマ区切りで10個の要素があるので10個のファイルを出力することになる.

#あ行#,#か行#,#は行#,#ま行#,#な行#,#や行#,#た行#,#ら行#,#わ行#,#さ行#

これでプログラムを動かすとそれぞれ以下のような単語のみで構成されるファイルが出力される.

  1. あ行だけの文字で構成される単語
  2. か行の文字を必ず含み,それ以外はあ行の文字で構成される単語
  3. は行の文字を必ず含み,それ以外はあ行・か行で構成される単語
  4. 以下同様...

この練習ファイルを順番にやっていけば,徐々に使用する文字の範囲を広げながら単語練習することができる.

##で囲んだ部分で指定できるコマンドはワードジェネレータと一緒.

プログラム内では次のような正規表現に変換していってるだけ.

1: ^(()*#あ行#+()*)+$
2: ^((#あ行#)*#か行#+(#あ行#)*)+$
3: ^((#あ行#|#か行#)*#は行#+(#あ行#|#か行#)*)+$
4: ^((#あ行#|#か行#|#は行#)*#ま行#+(#あ行#|#か行#|#は行#)*)+$

最初は下のようにしてたんだけど,これだと例えば,新たに「ま行」の練習をしようとしてるのに,「あ行」「か行」「は行」の単語ばかりが出力されるということになりかねない.というか,そうなってしまったので修正した.

^(#あ行#|#か行)+$
...
^((#あ行#|#か行#|#は行#|#ま行#)+$

というわけで,「こういう順番で練習するのが効率良い!」っていうそれぞれの信念に基づいた練習ワードセットを各種配列で簡単に作れるようになった.名前は増田式ワードジェネレータ?


っていうか,辞書から抽出するだけなので「ジェネレータ」という名前は変な気がしてきた今日このごろ.