Tetsuro IKEDA
ikdtt****@gmail*****
2008年 4月 21日 (月) 13:23:21 JST
池田です。 土曜日の昼にちょこっとつくったやつなのですごくやっつけです。 (コード書いてたら楽しくなってそのままDB研さぼってしまいましたすみません) アルゴリズムは単に、品詞 * 単語 の2次元配列からランダムにIDを決めて 連結して出力するだけの単純なものです。 一応、品詞ごと頻出度合いを制御するパラメータをコードに埋め込んで ますので、句読点を含む品詞(どれだろう・・・)の頻度をあげれば 句読点がもっとでてくると思います。 末尾に同じ単語がというのはバグかなぁ。。。 とりあえず急いで作って使う必要があったので。。 2008/04/21 13:14 SAKAI Kei <sak2****@artry*****>: > 坂井です > > こりゃすごい。生成させて思いっきり笑いました! > 本筋じゃない部分ですけど改良して何かもっともらいし文章を出すように > したいなーとか考えてしまったり(笑)。 > 行末に似た単語が並ぶケースが多いようですが、なんかアルゴリズム的 > にそうなるようになってるんですかね・・・ > > 200MB を1分弱で生成するし、速いですね〜。 > > $ time ./datagen 200 1000000 > z.txt > real 0m56.938s > user 0m26.930s > sys 0m29.122s > > > #適当に句読点希望(笑)。 > > 以上 > > > > On Mon, 21 Apr 2008 11:25:48 +0900 > Tetsuro IKEDA <te.ik****@jpta*****> wrote: > > こんにちは。池田です。 > > > > Tritonnの性能試験(N-gram)を手軽に行えるようにするため、 > > 適当な日本語をでっちあげるプログラムを作りました。 > > > > 以下からsvn coできます。 > > http://svn.sourceforge.jp/svnroot/tritonn/misc/data > > > > 閲覧はこちら。 > > http://svn.sourceforge.jp/cgi-bin/viewcvs.cgi/misc/data/?root=tritonn > > > > checkoutするとdatagen.cというソースファイルがありますので、 > > コンパイルして以下のように実行すると日本語を生成できます。 > > > > ※N-gram的に日本語っぽいやつが生成されるだけで、意味は通りません。 > > > > gcc -o datagen datagen.c > > ./datagen 100 100 > > > > 引数1: 1行あたり何bytesの日本語を生成したいか > > 引数2: 何行生成したいか > > > > 上記の例ですと100bytes*100行=10KBのデータになります。 > > > > 文字コードはEUC-JPのみです。 > > MySQLにimportするときにcharset指定でutf8等好きなものに変換できます。 > > > > 最初、性能度外視でBash+MySQLで作ったら秒間100bytesしか生成できず、 > > 反省してCで作り直したら秒間1MBくらいは生成できるようになりました。 > > 3GBのデータを30分くらいで作れます。 > > > > _______________________________________________ > > Tritonn-dev mailing list > > Trito****@lists***** > > http://lists.sourceforge.jp/mailman/listinfo/tritonn-dev > > _______________________________________________ > Tritonn-dev mailing list > Trito****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/tritonn-dev > -- Tritonn http://qwik.jp/tritonn/ hatena http://d.hatena.ne.jp/mir/ twitter http://twitter.com/_mir_