[morogram-users] 1000字あたりの使用頻度の実装化

Back to archive index

Yoichiro AKIYAMA akiya****@karit*****
2003年 10月 22日 (水) 20:27:13 JST


もろさま、山田さま、こんにちは。秋山です。

> 返す刀で「道具は自分で作らんとだめ!」とも説教されましたが…

 これは僕としても耳が痛いですね。(^ ^;ゞ
 これから少しずつ努力していくようにします。

 という訳で、手始めにこのMLに参加させていただくことにしました。
 どうぞ、お手柔らかによろしくお願いします。

> 千分率ですか。イメージが湧かないのであとで教えてください。私は同
> じ長さのベクトルとして正規化しました。これは、キーワードを使うや
> つですが、先行研究があったので。

 ご承知のように先秦古文献は『荀子』でも『韓非子』でも、通常、
 複数の人物の著作の寄せ集めとされているため、篇単位での断代が
 不可欠なんですが、一篇あたりの総字数がまちまちなため、出てきた
 篇ごとの頻度データをそのまま比較する訳にはいきません。そこで、

  個別の語句の甲篇内での使用頻度
  ――――――――――――――― × 1000 = 1000字あたりの使用頻度
      甲篇の総字数

 という風に1000字あたりの使用頻度を出してから比較しています。
 例えば..

 ┌───────────┬────────┬────────┐
 │                      │『戦国策』秦策三│『戦国策』楚策三│
 ├───────────┼────────┼────────┤
 │篇内総字数            │            6108│            1668│
 ├───────────┼────────┼────────┤
 │「也」字の述べ使用回数│             127│              48│
 ├───────────┼────────┼────────┤
 │1000字あたりの使用頻度│          20.792│          28.777│
 └───────────┴────────┴────────┘

 といった感じでしょうか。(適宜、説明を補正して下さい。>山田さん)

 計算式自体は単純なので、Excelなどから手動で出してますが、個人的
 にこれを morogram のオプションとして実装できたら幸せなのですが、
 いかがでしょうか?(^ ^;ゞ

> 正規化の手段やノイズデータも含めてクラスター分析をするのではなく、
> 間に何らかのフィルターを入れる必要があるのではないか? という点
> でした。ここらへんって永遠に悩む点ですねえ。

 「篇単位」と言ったばかりでそれを覆すのも何ですが、説話なら篇の
 中の個別の章単位で作者が異なりますし、『論語』や『老子』に至って
 は文単位で違うケースもありますからね。変なフィルターをかけてし
 まうと、かえって故人のパーソナリティを葬り去ってしまったり、分析
 結果に自分のパーソナリティが出現してしまったりしますから確かに
 難しいところですね。(^ ^;)

 こういうデリケートなところが先秦文献の魅力なのかも知れませんけど。


>  ┏━┓   ┏━┓   ┏━┓
>  ┃秋┃┏━┓┃陽┃┏━┓┃郎┃
>  ┗━┛┃山┃┗━┛┃一┃┗━┛
>     ┗━┛   ┗━┛
        akiya****@karit*****
       http://www.karitsu.org




morogram-users メーリングリストの案内
Back to archive index