[morogram-users] Re: 1000〓〓〓¢〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓

Back to archive index

Takahito Yamada shuir****@akane*****
2003年 10月 22日 (水) 22:56:02 JST


ども、山田です。

On Wed, 22 Oct 2003 22:23:07 +0900
Shigeki Moro <s-mor****@hanaz*****> wrote:

>>   個別の語句の甲篇内での使用頻度
>>   ――――――――――――――― × 1000 = 1000字あたりの使用頻度
>>       甲篇の総字数

 総字数と言うよりも、共起頻度の総合計と言った方がいいかもしれません。

 これだと、各項目(文献なり篇なり)における各変数(個別の共起関係)の出
現頻度が同じ土俵(変数の総合計が1000)になるはずなので、一定の正規化とい
うレベルは達しているかと思います。

 一般的な100分率ではなく1000分率にしたのは、データの見た目の問題だけで
す。

 但し、こういった相対度数ベースの場合、対象とする文献の長さが短い物ほど
個別の変数の出現頻度が上がるという、いわば正規化しているにもかかわらず一
定のウェイトがかかってしまうと言う問題があります。

 例えば『尚書』の場合、各篇間において、100字足らずから1000字未満までと
言う10倍以上の差がありますので、単純に1000分率するのはまずかったかなあ〜
 と思った次第です。

>>私の方法は同一円周上に乗りますが、千分率の場合だと散らばります。
>>この違いが何を意味するのか、私には俄かにはわかりません。ちょっと
>>考えて見ます。ご存知の方は教えてください。

 1000分率のグラフだけ見ると、相関係数が0.83になるので、「長さの異なる複
数の文献間おいて、共起aと共起bとの出現率に強い相関関係がある」とでも言え
ちゃうのかなあ。多分単純に1000分率をする時点で間違っているんだと思います
が。

 ※すいませんが、師さんのベクトル100のスクリプト、添付して頂けますか。
こちらでいくつかの文献でやってみたいので。

それでは、失礼。 (^^)/~~

 _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
 _/                       _/
 _/ 山田 崇仁(Takahito Yamada)       _/
 _/ tyv07****@lt*****         _/
 _/ http://www.ritsumei.ac.jp/kic/~tyv07679/  _/
 _/                       _/
 _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/





morogram-users メーリングリストの案内
Back to archive index