Takahito Yamada
shuir****@akane*****
2003年 10月 22日 (水) 22:56:02 JST
ども、山田です。 On Wed, 22 Oct 2003 22:23:07 +0900 Shigeki Moro <s-mor****@hanaz*****> wrote: >> 個別の語句の甲篇内での使用頻度 >> ――――――――――――――― × 1000 = 1000字あたりの使用頻度 >> 甲篇の総字数 総字数と言うよりも、共起頻度の総合計と言った方がいいかもしれません。 これだと、各項目(文献なり篇なり)における各変数(個別の共起関係)の出 現頻度が同じ土俵(変数の総合計が1000)になるはずなので、一定の正規化とい うレベルは達しているかと思います。 一般的な100分率ではなく1000分率にしたのは、データの見た目の問題だけで す。 但し、こういった相対度数ベースの場合、対象とする文献の長さが短い物ほど 個別の変数の出現頻度が上がるという、いわば正規化しているにもかかわらず一 定のウェイトがかかってしまうと言う問題があります。 例えば『尚書』の場合、各篇間において、100字足らずから1000字未満までと 言う10倍以上の差がありますので、単純に1000分率するのはまずかったかなあ〜 と思った次第です。 >>私の方法は同一円周上に乗りますが、千分率の場合だと散らばります。 >>この違いが何を意味するのか、私には俄かにはわかりません。ちょっと >>考えて見ます。ご存知の方は教えてください。 1000分率のグラフだけ見ると、相関係数が0.83になるので、「長さの異なる複 数の文献間おいて、共起aと共起bとの出現率に強い相関関係がある」とでも言え ちゃうのかなあ。多分単純に1000分率をする時点で間違っているんだと思います が。 ※すいませんが、師さんのベクトル100のスクリプト、添付して頂けますか。 こちらでいくつかの文献でやってみたいので。 それでは、失礼。 (^^)/~~ _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ _/ _/ _/ 山田 崇仁(Takahito Yamada) _/ _/ tyv07****@lt***** _/ _/ http://www.ritsumei.ac.jp/kic/~tyv07679/ _/ _/ _/ _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/