Re: 1000〓〓〓¢〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓 (morogram-users) - morogram

ども、山田です。

On Wed, 22 Oct 2003 22:23:07 +0900
Shigeki Moro <s-mor****@hanaz*****> wrote:

>> 　　個別の語句の甲篇内での使用頻度
>> 　　――――――――――――――― × 1000 ＝ 1000字あたりの使用頻度
>> 　　　　　　甲篇の総字数

　総字数と言うよりも、共起頻度の総合計と言った方がいいかもしれません。

　これだと、各項目（文献なり篇なり）における各変数（個別の共起関係）の出
現頻度が同じ土俵（変数の総合計が1000）になるはずなので、一定の正規化とい
うレベルは達しているかと思います。

　一般的な100分率ではなく1000分率にしたのは、データの見た目の問題だけで
す。

　但し、こういった相対度数ベースの場合、対象とする文献の長さが短い物ほど
個別の変数の出現頻度が上がるという、いわば正規化しているにもかかわらず一
定のウェイトがかかってしまうと言う問題があります。

　例えば『尚書』の場合、各篇間において、100字足らずから1000字未満までと
言う10倍以上の差がありますので、単純に1000分率するのはまずかったかなあ〜
　と思った次第です。

>>私の方法は同一円周上に乗りますが、千分率の場合だと散らばります。
>>この違いが何を意味するのか、私には俄かにはわかりません。ちょっと
>>考えて見ます。ご存知の方は教えてください。

　1000分率のグラフだけ見ると、相関係数が0.83になるので、「長さの異なる複
数の文献間おいて、共起aと共起bとの出現率に強い相関関係がある」とでも言え
ちゃうのかなあ。多分単純に1000分率をする時点で間違っているんだと思います
が。

　※すいませんが、師さんのベクトル100のスクリプト、添付して頂けますか。
こちらでいくつかの文献でやってみたいので。

それでは、失礼。　(^^)/~~

　_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
　_/　　　　　　　　　　　　　　　　　　　　　　　_/
　_/　山田　崇仁（Takahito　Yamada）　　　　　　　_/
　_/　tyv07****@lt*****　　　　　　　　　_/
　_/　http://www.ritsumei.ac.jp/kic/~tyv07679/　　_/
　_/　　　　　　　　　　　　　　　　　　　　　　　_/
　_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/

morogram

[morogram-users] Re: 1000〓〓〓¢〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓