ChaKi.NET (3.16 Revision 653) | 2021-01-23 23:11 |
ChaMame (1.0.4) | 2020-01-14 17:04 |
Patch Files (TextFormatter for ChaKi.NET (2010/11/20)) | 2010-11-21 23:23 |
その他 (CaboCha-0.66/UniDic用モデルファイル) | 2013-02-18 17:00 |
旧版[ChaKi Legacy] (2.1.0 Build 202) | 2008-11-16 23:47 |
ChaKiには、wordテーブルおよび各アノテーションタグを階層化することのできる"Project"という概念が存在します。 デフォルトではすべての要素はID=0のProject内に存在しますが、このデフォルトProject以外のProjectを作成することにより、 wordやアノテーションをProject毎にグルーピングすることが可能となります。
Projectの用途としては、下記のようなものがあります。
Projectを新たに作成するには、インポート(CreateCorpus)処理において、ID=0以外のProject IDを指定します。このとき、デフォルト プロジェクト(ID=0)が既に存在するコーパスを先に作成してあることが必要となります。
この例では、既に存在するコーパス"sample.db"に対してProject ID=1となる新規Projectを追加しています。
この入力となるソースには、通常のインポートと全く同じソースが使用可能ですが、その内容については、 既にデフォルトProject内にインポートされている内容と完全に同じDocument, Sentenceの出現順序に従っていて、 各文内のwordの構成やアノテーションタグ(Segment, Link, Group) のみが異なるものを与えます。
メインツールバーの"Proj"欄(下記)にProject IDを指定すると、検索時にそのProject IDに合致する結果のみを得ることができます。
Project=0(短単位)とProject=1(長単位)両方の検索結果を並べて表示したものを下図に示します。
検索結果に対してDependencyEditを行うとき、検索に用いたProject ID、すなわちその結果が属しているProject IDがDependencyEditに 伝えられます。そして、そのDependencyEditにおいて行われる編集(アノテーションタグの追加・削除等)は、そのProjectに対して 行われることとなります。
エクスポート処理においては、メインツールバーの"Proj"欄に指定した Project がエクスポート対象となります。(Ver. 3.16にて実装。)
ChaKiには、WordとWordとの間の対応関係を示すための特別なテーブル"word_word"が存在しており、対応するWord間の対応関係を格納することができるようになっています。現在の所このテーブルは、異なるProject間でWordとWordとの対応関係を記述するのに使用することが想定されています。例えば、
などの使い方が考えられます。
Word間マッピングをインポートするコマンドは、コマンドラインから"ImportWordRelation.exe"を実行します。 下記にUsageを示します。
Usage: ImportWordRelation [Options] <InputFile> <Output> Options (default): [-C] Do not pause on exit (false) [-b] Make relations bi-directional (false) [-a] Do not clear the mapping table; append mode (false) InputFile - TSV File Output - .db file for SQLite / .def file for Others
入力はProject, Sentence, WordNoの3つ組を基本として、From-word, To-wordを横に並べたTab-separated 形式となります。 すなわち、各行は、
というカラムから成ります。
関係は、デフォルトではFrom-wordからTo-wordの一方向ですが、"-b"オプションを付けることで双方向とすることも可能です。この場合、1つの入力それぞれについて、方向を逆にした2つのレコードが挿入されます。
下に入力ファイルの例を示します。
1 0 0 0 0 0 1 0 1 0 2 4 1 0 2 0 2 4 1 0 3 0 2 5 1 0 4 0 2 6 1 0 5 0 2 1 1 0 6 0 0 0 1 0 7 0 3 33 1 0 8 0 0 1 1 0 9 0 0 1 1 0 10 0 0 0 1 0 11 0 0 1 1 0 12 0 0 2 1 0 13 0 0 1 1 0 14 0 0 1 1 0 15 0 0 2