HanDic(한딕, ハンディク)은 현대 한국어 텍스트를 형태소로 분석하여 형태소 정보를 부여하기 위한 분석 사전입니다.
HanDic은 형태소분석 엔진 MeCab(메카브)로 이용할 수 있습니다.
분석 사전에 대한 자세한 정보는 MeCab를 이용한 한국어 형태소 분석, HanDic概要, HanDicの詳細情報 등을 참조하여 주시기 바랍니다. 한국어 문서는 준비되는 대로 공개할 예정입니다.
UTF-8エンコーディングの韓国語テキストのうち,完成型ハングル(U+AC00〜U+D7A3)を字母(U+1100~U+11F9)に分解するためのスクリプトです. 入力例として,完成型ハングルで記述したinput.txtも合わせて配布します.内容は韓国・国立国語院の『標準国語大辞典』(ウェブ版)から,「말01」(ことば)の定義1を引用したものです.
あるいは
のように使います. Pythonの場合,上記のperl部分を適宜書き換えてください.
UTF-8로 인코딩된 텍스트 중 완성형 한글(U+AC00-U+D7A3)을 자모(U+1100-U+11F9)로 나누어서 출력해 주는 스크립트입니다. 입력의 예로서 완성형 한글로 기술한 input.txt을 함께 배포합니다. 내용은 "표준국어대사전"에서 '말01'의 정의 1을 인용한 것입니다.
혹은
처럼 사용합니다. Python으로 처리할 경우 위의 perl 부분을 바꾸면 됩니다.