1000字あたりの使用頻度の実装化 (morogram-users) - morogram

もろさま、山田さま、こんにちは。秋山です。

> 返す刀で「道具は自分で作らんとだめ！」とも説教されましたが…

　これは僕としても耳が痛いですね。(^ ^;ゞ
　これから少しずつ努力していくようにします。

　という訳で、手始めにこのＭＬに参加させていただくことにしました。
　どうぞ、お手柔らかによろしくお願いします。

> 千分率ですか。イメージが湧かないのであとで教えてください。私は同
> じ長さのベクトルとして正規化しました。これは、キーワードを使うや
> つですが、先行研究があったので。

　ご承知のように先秦古文献は『荀子』でも『韓非子』でも、通常、
　複数の人物の著作の寄せ集めとされているため、篇単位での断代が
　不可欠なんですが、一篇あたりの総字数がまちまちなため、出てきた
　篇ごとの頻度データをそのまま比較する訳にはいきません。そこで、

　　個別の語句の甲篇内での使用頻度
　　――――――――――――――― × 1000 ＝ 1000字あたりの使用頻度
　　　　　　甲篇の総字数

　という風に1000字あたりの使用頻度を出してから比較しています。
　例えば..

　┌───────────┬────────┬────────┐
　│                      │『戦国策』秦策三│『戦国策』楚策三│
　├───────────┼────────┼────────┤
　│篇内総字数            │            6108│            1668│
　├───────────┼────────┼────────┤
　│「也」字の述べ使用回数│             127│              48│
　├───────────┼────────┼────────┤
　│1000字あたりの使用頻度│          20.792│          28.777│
　└───────────┴────────┴────────┘

　といった感じでしょうか。（適宜、説明を補正して下さい。＞山田さん）

　計算式自体は単純なので、Excelなどから手動で出してますが、個人的
　にこれを morogram のオプションとして実装できたら幸せなのですが、
　いかがでしょうか？(^ ^;ゞ

> 正規化の手段やノイズデータも含めてクラスター分析をするのではなく、
> 間に何らかのフィルターを入れる必要があるのではないか？　という点
> でした。ここらへんって永遠に悩む点ですねえ。

　「篇単位」と言ったばかりでそれを覆すのも何ですが、説話なら篇の
　中の個別の章単位で作者が異なりますし、『論語』や『老子』に至って
　は文単位で違うケースもありますからね。変なフィルターをかけてし
　まうと、かえって故人のパーソナリティを葬り去ってしまったり、分析
　結果に自分のパーソナリティが出現してしまったりしますから確かに
　難しいところですね。(^ ^;)

　こういうデリケートなところが先秦文献の魅力なのかも知れませんけど。

>　　┏━┓　　　┏━┓　　　┏━┓
>　　┃秋┃┏━┓┃陽┃┏━┓┃郎┃
>　　┗━┛┃山┃┗━┛┃一┃┗━┛
>　　　　　┗━┛　　　┗━┛
　　　　　　　　akiya****@karit*****
　　　　　　 http://www.karitsu.org

morogram

[morogram-users] 1000字あたりの使用頻度の実装化