UJIS形式辞書ファイル ― UJIS形式辞書ファイルの形式
- UJIS形式辞書ファイルは、バイナリ形式の固定形式辞書と登録可能形式辞書
をUJIS形式で表現したものである。
UJIS形式辞書ファイルと固定形式辞書,および登録可能形式辞書間の相互変
換は、辞書ユーティリティを用いて行う。
バイナリ形式に変換する場合、単語は読みでソートされていなければならない。
UJIS辞書ファイルに対する語句の追加,削除,及び変更は、vi
等のエディ
タで行う。
ファイルの形式
\comment コメント(CR)
\total 総頻度(CR)
\hinsi (CR)
読み(SP)単語(SP)品詞(SP)頻度(SP)[コメント](CR)
読み(SP)単語(SP)品詞(SP)頻度(SP)[コメント](CR)
読み(SP)単語(SP)品詞(SP)頻度(SP)[コメント](CR)
| | | |
| | | |
| | | |
(EOF)
- コメント
- 辞書全体に付けられたコメントである。
- 総頻度
- 辞書全体の頻度(その辞書が経験した単文節変換の回数)である。int
型。
- 読み
- 単語の読み。256文字までの長さで、ユーザ辞書はひらがな・
「ー」・半角英数字、固定形式辞書はひらがな・「ー」で逆順に表現する。
なお、半角英字は大文字・小文字の区別をしない。
ソート時の文字の大小関係は、「ー」・ひらがな・半角英数字の順である。
- 単語
- 256文字までの半角文字・全角文字・外字など全ての文字表現が可能。
スペース、改行文字などの制御文字は
に続く2桁の8進数で表す。\
に 続く 0
以外の文字はその文字になる(\\
→ \)。
- 品詞
- 品詞名で、直接表現する。
名詞
固有名詞
品詞名は、/usr/local/lib/wnn/hinsi.data
参照。
- 頻度
- 各単語の頻度である。
- コメント
- 512文字まで。