變換 옵션

이 플래그들은 變換中에 適用되는 言語學的規則을 制御합니다.

프리셋

--preset은 미리 構成된 基本값 組合을 選擇합니다:

프리셋	辭典	頭音法則	同音異義窓	用途
`ko-kr` (基本)	內藏 stdict	켜짐	블록 單位	南韓正書法
`ko-kp`	없음	꺼짐	끔	北朝鮮正書法

gukhanmun --preset ko-kp input.txt

아래의 個別 플래그들은 프리셋의 基本값을 덮어씁니다.

分割戰略

--segmentation은 單語境界를 찾는 方式을 制御합니다:

lattice (基本): 動的計劃法으로 每位置의 모든 辭典一致를 評價하여 全域的으로 最適인 分割을 찾습니다. 正確度에 가장 適合합니다.
eager: 왼쪽에서 오른쪽으로 가장 긴 一致를 取하는 貪慾方式. 더 빠르지만 合成語를 잘못 分割할 수 있습니다.

gukhanmun --segmentation eager input.txt

數詞處理

--numerals는 漢字數詞를 렌더링하는 方式을 制御합니다. CLI는 基本값으로 smart를 使用합니다. 六月 같은 曆法單語를 Seonbi式音價 그대로 두려면 --numerals hangul-phonetic을 넘기면 됩니다.

戰略	二〇一六年	十一月	一千二百三十四
`hangul-phonetic`	이공일륙년	십일월	일천이백삼십사
`positional-arabic`	2016년	(不適用)	(不適用)
`additive-arabic`	(不適用)	11월	1234
`smart` (基本)	2016년	11월	1234

gukhanmun --numerals hangul-phonetic input.txt

頭音法則

頭音法則은 ko-kr에서는 基本으로 켜지고 ko-kp에서는 꺼집니다. 이는 어떤 辭典에서도 찾지 못한 文字에 對한 文字別 fallback 讀音에 影響을 줍니다; 辭典項目은 이미 그 올바른 讀音을 담고 있습니다.

入力	法則 켜짐 (`ko-kr`)	法則 꺼짐 (`ko-kp`)
來日	내일	래일
理由	이유	리유
女子	여자	녀자

明示的 플래그로 덮어씁니다:

gukhanmun --no-initial-sound-law input.txt  # 끄기
gukhanmun --initial-sound-law input.txt     # 켜기 (ko-kr에서는 重複)

括弧讀音註釋

混用入力은 때때로 한 單語를 明示的인 括弧註釋과 함께 적습니다. 漢字가 앞에 오기도(庫間(곳간)) 하고 한글이 앞에 오기도(곳간(庫間)) 합니다. Gukhanmun은 基本的으로 그런 註釋을 알아보고, 이제 重複이 된 括弧를 除去하며, 單語를 두 文字體系로 모두 보여 줍니다:

入力	基本出力	`--no-collapse-parens`
`庫間(곳간)`	`곳간(庫間)`	`곳간(곳간)`
`곳간(庫間)`	`곳간(庫間)`	`곳간(곳간)`

括弧는 代案讀音을 固定할 수도 있습니다. 數字는 普通 숫자로 읽지만, 數字(수자)는 그 자리에서 讀音을 수자로 固定합니다:

echo '數字(수자)' | gukhanmun  # 수자(數字)

讀音註釋은 두 規則으로 뜻풀이와 區別됩니다. 單語의 讀音과 正確히 一致하는 括弧는 늘 합쳐집니다(庫間(곳간) 같은 사이시옷 讀音을 包括합니다). 그렇지 않으면, 代案讀音은 漢字 한 글자마다 한글 한 音節이 對應하고 各音節이 그 글자의 有效한 韓國漢字音일 때에만 받아들여집니다(數字(수자)처럼). 뜻풀이는 두 規則 어디에도 該當하지 않아 그대로 通過합니다:

echo '庫間(물건을 간직하여 두는 곳)' | gukhanmun
# 곳간(물건을 간직하여 두는 곳)

外來語音譯도 마찬가지로 건드리지 않습니다. 文字別有效한 讀音이 아니기 때문입니다(例를 들어 蔣介石(장제스)에서 介는 제가 아니라 개로 읽습니다). 이 動作全體를 끄려면 --no-collapse-parens를 쓰십시오.

同音異義區別

서로 다른 漢字語가 같은 한글 讀音을 共有할 수 있습니다(例를 들어 連霸와 連敗는 둘 다 연패입니다). 基本 hangul-only 렌더링 모드에서, Gukhanmun은 讀者가 그것들을 區別할 수 있도록 그런 單語의 漢字를 括弧 안에 維持할 수 있습니다. --disambiguation은 한 讀音이 模糊하다고 看做되는 範圍를 設定합니다:

값	動作
`off`	區別 안 함
`per-block` (`ko-kr`의 基本)	段落/리스트/헤딩 境界에서 再設定
`per-section`	헤딩 境界에서 再設定
`per-document`	入力全體에 걸쳐 追跡

gukhanmun --disambiguation per-section input.txt

--homophone-detection은 窓 안에서 어떤 讀音을 模糊한 것으로 셀지를 選擇합니다:

값	動作
`context-local` (基本)	窓 안에 뜻이 다른 同音異義語가 實際로 나타날 때에만 그 單語를 倂記합니다.
`dictionary-wide`	辭典 안 어디서든 다른 漢字形態와 共有되는 讀音도 倂記합니다.

gukhanmun --homophone-detection dictionary-wide input.txt

context-local은 한글 專用出力을 깔끔하게 維持합니다. dictionary-wide는 더 넓지만, 內藏《標準國語大辭典》으로는 거의 모든 흔한 讀音에 어떤 同音異義語가 있으므로 大部分의 漢字語를 倂記하게 됩니다. 文脈과 無關하게 特定單語를 恒常倂記하려면, 대신 --require-hanja 플래그를 使用합니다(〈使用者指示〉參照).

認識된 單語만 區別된다

同音異義區別은 辭典이 單位로 認識하는 單語에 對해 動作합니다. 自體辭典項目이 없는 漢字連續은 하나의 單語로 다뤄지지 않으며, 그 fallback(非辭典) 文字는 결코 倂記되지 않습니다; 그 안에 있는, 認識되는 한 글자 項目(例컨대 紫)은 여전히 따로 處理됩니다. 例를 들어 自由와 子游는 둘 다 자유로 읽히는 內藏項目이므로 自由와 子游는 자유(自由)와 자유(子游)가 됩니다; 그러나 紫楡는 自體項目이 없으므로, 基本 context-local 戰略에서 自由와 紫楡는 倂記 없이 자유와 자유가 되는데, 이는 엔진이 自由와 衝突할 두 番째 자유 單位를 결코 보지 못하기 때문입니다. 全體用語를 區別하려면, 그것을 使用者定義辭典에 追加하고 --dictionary로 불러와(〈辭典〉參照) 엔진이 그것을 하나의 單位로 다루게 합니다.

最初出現解除

--first-occurrence는 窓에서 앞서 이미 表示가 強制된 文字로부터 倂記를 除去합니다:

값	動作
`off` (基本)	결코 解除 안 함
`per-block`	段落/블록 안에서 解除
`per-section`	섹션 안에서 解除
`per-document`	文書全體에 걸쳐 解除

gukhanmun --first-occurrence per-section input.txt

誤謬復舊

--recovery는 復舊不可能한 構文分析誤謬가 發生했을 때의 動作을 制御합니다(現在는 HTML 入力에만 該當):

strict (基本): 誤謬와 함께 中斷
lenient: 問題가 되는 斷片을 건너뛰고 繼續

gukhanmun -f text/html --recovery lenient input.html

#變換 옵션

#프리셋

#分割 戰略

#數詞 處理

#頭音法則

#括弧 讀音 註釋

#同音異義 區別

#認識된 單語만 區別된다

#最初 出現 解除

#誤謬 復舊