ChaKi.NET (3.16 Revision 653) | 2021-01-23 23:11 |
ChaMame (1.0.4) | 2020-01-14 17:04 |
Patch Files (TextFormatter for ChaKi.NET (2010/11/20)) | 2010-11-21 23:23 |
その他 (CaboCha-0.66/UniDic用モデルファイル) | 2013-02-18 17:00 |
旧版[ChaKi Legacy] (2.1.0 Build 202) | 2008-11-16 23:47 |
ChaKi.NETでは、文内の語や語群の生起情報に関して以下の各アルゴリズムによる 統計を取ることができます。
これらの統計は常にKWICリストに対して行われる点に注意が必要です。つまり、メモリ上に 配置されているデータに対してのローカルな統計処理であり、DBクエリによる他の検索処理とは 性格が異なっています。(コーパスに存在するすべての文に対して統計を取るためには 全文検索を行ってその結果に対して処理を行えばよいのですが、この方法はコーパスのサイズに よってはメモリ不足となる可能性が高くなります)。
まず、Collocation処理の(アルゴリズムによらない)共通手順を説明します。
次に、各アルゴリズムの詳細を説明します。
KWICのCenter語を基準として、左右にオフセットした各相対位置に存在する語の頻度リストを取ります。 この統計により、例えば「の」という語の2ワード左の位置にはどのような語が多く現れるか、といったデータを 知ることができます。
例えば、-5カラムの2列目が"10"であるということは、中心語から見て5語前の位置には、語「、(記号-読点)」が 10回現れていることを示します。
カラムヘッダをクリックすると、そのカラムでソートすることができます。2回続けて押すと逆順にソートされます。
※Raw Frequencyのパラメータ
ある語 n が中心語cの周囲一定のウィンドウ・スパンに出現する頻度(Fn,c)、 その中心語 n のコーパス全体での総出現頻度(Fn)、 およびその語 c のコーパス全体での総出現頻度(Fc)とを元に、 語の共起に関する各種統計情報量を算出します。
これらの統計量は、各語に対してすべて一度に計算され、1行に表示されます。 (画面は前節にあるので省略。)
※MI Scoreのパラメータ
n-gramには、中心語から見て左方向にサーチされる"N-gram(Left)"と右方向の"N-gram(Right)"の2種類がありますが、 基本的なアルゴリズムは同じもので、指定した方向への拡張語列の中で、指定した頻度以上の出現回数を持つものを すべて求めます。
本プログラムのN-gramアルゴリズムでは、Maximal Sequenceだけでなく、そのサブシーケンスについても、条件を 満たす限りリストに含められます。たとえば、
a b c a b c d a b c d eという3つの文(aが中心語)に対する右n-gramは、Maximal Sequenceとしては"a b c d"になりますが、そのサブシーケンスを含め
a b c d (2) a b c (3) a b (3)の3個すべてがリストされます。(括弧内は頻度)
※N-gramのパラメータ
なお、N-gramに限り、表層形のみを対象(他の属性は無視)としています。
このアルゴリズムは他と異なり、KWICに対する共起統計ではなく、文集合に対する頻出語列(パターン)のマイニングを行うものです。 元となるKWICの文脈情報(Left,Center,Rightの区切り)は使用しません。
本アルゴリズムは、工藤さんのprefix-span(http://chasen.org/~taku/software/prefixspan/ )を元にしています。 prefix-spanに加え、
という2点の拡張を行っています。
第1点については、N-gramの節で説明したものと同じ概念であり、FSMでは他系列を含むような最大のパターンのみを求めます。
第2点は、必ずしも連続して現れる語のシーケンスではなく、間に不特定の語列を指定した長さ・回数だけ含むような
「飛び石パターン」を求めることができることを意味します。
Sequenceカラムがパターンを表しています。"[...]"で区切られた部分が連続パターンを表します。 例えば次の
[ 広田 ] [ は ]は、Gapが1つ存在するようなパターンを意味します。
"IDs"カラムは、そのパターンが出現している文のIDをカンマ区切りで示す文字列です。
※FSMのパラメータ