Tetsuro IKEDA
te.ik****@jpta*****
2008年 4月 21日 (月) 11:25:48 JST
こんにちは。池田です。 Tritonnの性能試験(N-gram)を手軽に行えるようにするため、 適当な日本語をでっちあげるプログラムを作りました。 以下からsvn coできます。 http://svn.sourceforge.jp/svnroot/tritonn/misc/data 閲覧はこちら。 http://svn.sourceforge.jp/cgi-bin/viewcvs.cgi/misc/data/?root=tritonn checkoutするとdatagen.cというソースファイルがありますので、 コンパイルして以下のように実行すると日本語を生成できます。 ※N-gram的に日本語っぽいやつが生成されるだけで、意味は通りません。 gcc -o datagen datagen.c ./datagen 100 100 引数1: 1行あたり何bytesの日本語を生成したいか 引数2: 何行生成したいか 上記の例ですと100bytes*100行=10KBのデータになります。 文字コードはEUC-JPのみです。 MySQLにimportするときにcharset指定でutf8等好きなものに変換できます。 最初、性能度外視でBash+MySQLで作ったら秒間100bytesしか生成できず、 反省してCで作り直したら秒間1MBくらいは生成できるようになりました。 3GBのデータを30分くらいで作れます。