變換 옵션

이 플래그들은 變換 中에 適用되는 言語學的 規則을 制御합니다.

프리셋

--preset은 미리 構成된 基本값 組合을 選擇합니다:

프리셋辭典頭音法則同音異義 窓用途
ko-kr (基本)內藏 stdict켜짐블록 單位南韓 正書法
ko-kp없음꺼짐北朝鮮 正書法
gukhanmun --preset ko-kp input.txt

아래의 個別 플래그들은 프리셋의 基本값을 덮어씁니다.

分割 戰略

--segmentation은 單語 境界를 찾는 方式을 制御합니다:

  • lattice (基本): 動的 計劃法으로 每 位置의 모든 辭典 一致를 評價하여 全域的으로 最適인 分割을 찾습니다. 正確度에 가장 適合합니다.
  • eager: 왼쪽에서 오른쪽으로 가장 긴 一致를 取하는 貪慾 方式. 더 빠르지만 合成語를 잘못 分割할 수 있습니다.
gukhanmun --segmentation eager input.txt

數詞 處理

--numerals는 漢字 數詞를 렌더링하는 方式을 制御합니다:

戰略二〇一六年十一月一千二百三十四
hangul-phonetic (基本)이공일륙년십일월일천이백삼십사
positional-arabic2016년
additive-arabic11월1234
smart2016년11월1234
gukhanmun --numerals smart input.txt

頭音法則

頭音法則은 ko-kr에서는 基本으로 켜지고 ko-kp에서는 꺼집니다. 이는 어떤 辭典에서도 찾지 못한 文字에 對한 文字別 fallback 讀音에 影響을 줍니다; 辭典 項目은 이미 그 올바른 讀音을 담고 있습니다.

入力法則 켜짐 (ko-kr)法則 꺼짐 (ko-kp)
來日내일래일
理由이유리유
女子여자녀자

明示的 플래그로 덮어씁니다:

gukhanmun --no-initial-sound-law input.txt  # 끄기
gukhanmun --initial-sound-law input.txt     # 켜기 (ko-kr에서는 重複)

同音異義 區別

서로 다른 漢字語가 같은 한글 讀音을 共有할 수 있습니다(例를 들어 連霸와 連敗는 둘 다 연패입니다). 基本 hangul-only 렌더링 모드에서, Gukhanmun은 讀者가 그것들을 區別할 수 있도록 그런 單語의 漢字를 括弧 안에 維持할 수 있습니다. --disambiguation은 한 讀音이 模糊하다고 看做되는 範圍를 設定합니다:

動作
off區別 안 함
per-block (ko-kr의 基本)段落/리스트/헤딩 境界에서 再設定
per-section헤딩 境界에서 再設定
per-document入力 全體에 걸쳐 追跡
gukhanmun --disambiguation per-section input.txt

--homophone-detection은 窓 안에서 어떤 讀音을 模糊한 것으로 셀지를 選擇합니다:

動作
context-local (基本)窓 안에 뜻이 다른 同音異義語가 實際로 나타날 때에만 그 單語를 倂記합니다.
dictionary-wide辭典 안 어디서든 다른 漢字 形態와 共有되는 讀音도 倂記합니다.
gukhanmun --homophone-detection dictionary-wide input.txt

context-local은 한글 專用 出力을 깔끔하게 維持합니다. dictionary-wide는 더 넓지만, 內藏 《標準國語大辭典》으로는 거의 모든 흔한 讀音에 어떤 同音異義語가 있으므로 大部分의 漢字語를 倂記하게 됩니다. 文脈과 無關하게 特定 單語를 恒常 倂記하려면, 대신 --require-hanja 플래그를 使用합니다(〈使用者 指示〉 參照).

認識된 單語만 區別된다

同音異義 區別은 辭典이 單位로 認識하는 單語에 對해 動作합니다. 自體 辭典 項目이 없는 漢字 連續은 하나의 單語로 다뤄지지 않으며, 그 fallback(非辭典) 文字는 결코 倂記되지 않습니다; 그 안에 있는, 認識되는 한 글자 項目(例컨대 )은 여전히 따로 處理됩니다. 例를 들어 自由子游는 둘 다 자유로 읽히는 內藏 項目이므로 自由와 子游자유(自由)와 자유(子游)가 됩니다; 그러나 紫楡는 自體 項目이 없으므로, 基本 context-local 戰略에서 自由와 紫楡는 倂記 없이 자유와 자유가 되는데, 이는 엔진이 自由와 衝突할 두 番째 자유 單位를 결코 보지 못하기 때문입니다. 全體 用語를 區別하려면, 그것을 使用者 定義 辭典에 追加하고 --dictionary로 불러와(〈辭典〉 參照) 엔진이 그것을 하나의 單位로 다루게 합니다.

最初 出現 解除

--first-occurrence는 窓에서 앞서 이미 表示가 強制된 文字로부터 倂記를 除去합니다:

動作
off (基本)결코 解除 안 함
per-block段落/블록 안에서 解除
per-section섹션 안에서 解除
per-document文書 全體에 걸쳐 解除
gukhanmun --first-occurrence per-section input.txt

誤謬 復舊

--recovery는 復舊 不可能한 構文 分析 誤謬가 發生했을 때의 動作을 制御합니다(現在는 HTML 入力에만 該當):

  • strict (基本): 誤謬와 함께 中斷
  • lenient: 問題가 되는 斷片을 건너뛰고 繼續
gukhanmun -f text/html --recovery lenient input.html