[Tritonn-dev 113] 適当日本語生成プログラム

Back to archive index

Tetsuro IKEDA te.ik****@jpta*****
2008年 4月 21日 (月) 11:25:48 JST


こんにちは。池田です。

Tritonnの性能試験(N-gram)を手軽に行えるようにするため、
適当な日本語をでっちあげるプログラムを作りました。

以下からsvn coできます。
http://svn.sourceforge.jp/svnroot/tritonn/misc/data

閲覧はこちら。
http://svn.sourceforge.jp/cgi-bin/viewcvs.cgi/misc/data/?root=tritonn

checkoutするとdatagen.cというソースファイルがありますので、
コンパイルして以下のように実行すると日本語を生成できます。

※N-gram的に日本語っぽいやつが生成されるだけで、意味は通りません。

gcc -o datagen datagen.c
./datagen 100 100

引数1: 1行あたり何bytesの日本語を生成したいか
引数2: 何行生成したいか

上記の例ですと100bytes*100行=10KBのデータになります。

文字コードはEUC-JPのみです。
MySQLにimportするときにcharset指定でutf8等好きなものに変換できます。

最初、性能度外視でBash+MySQLで作ったら秒間100bytesしか生成できず、
反省してCで作り直したら秒間1MBくらいは生成できるようになりました。
3GBのデータを30分くらいで作れます。




Tritonn-dev メーリングリストの案内
Back to archive index