變換 옵션

모든 옵션은 .build()를 呼出하기 前에 Builder에 設定합니다.

프리셋

Builder::with_preset(preset)은 一貫된 基本값 集合을 構成합니다:

프리셋	辭典	頭音法則	同音異義窓
`Preset::KoKr`	內藏 stdict	`true`	`ContextWindow::PerBlock`
`Preset::KoKp`	없음	`false`	`ContextWindow::Off`

아래의 個別 옵션들은 프리셋을 덮어씁니다.

分割戰略

use gukhanmun::SegmentationStrategy;

builder.segmentation(SegmentationStrategy::Lattice);  // 基本
builder.segmentation(SegmentationStrategy::Eager);

Lattice는 動的計劃法으로 全域的으로 最適인 分割을 찾습니다. Eager는 왼쪽에서 오른쪽으로 가장 긴 一致를 取하는 貪慾方式입니다; 더 빠르지만 合成語에는 덜 正確합니다.

數詞處理

NumeralStrategy는 二〇一六 같은 漢字數詞文字를 렌더링하는 方式을 制御합니다. 漢字式數詞는 文脈에 따라 位置記數法이나 加算記數法으로 數를 나타낼 수 있습니다:

變種	二〇一六年	十一月	一千二百三十四
`HangulPhonetic`	이공일륙년	십일월	일천이백삼십사
`PositionalArabic`	2016년	(不適用)	(不適用)
`AdditiveArabic`	(不適用)	11월	1234
`Smart`	2016년	11월	1234

use gukhanmun::NumeralStrategy;

builder.numerals(NumeralStrategy::HangulPhonetic);   // 基本: 이공일륙
builder.numerals(NumeralStrategy::PositionalArabic); // 2016 (年度 形)
builder.numerals(NumeralStrategy::AdditiveArabic);   // 11 (加算)
builder.numerals(NumeralStrategy::Smart);            // 文脈마다 最適을 選擇

Smart는 年度 같은 네 자리 連續에는 位置記數法을, 분명한 數量에는 加算記數法을 고르되 百濟나 十長生처럼 單語처럼 보이는 애매한 列은 音讀 폴백으로 둡니다.

頭音法則

builder.initial_sound_law(true);   // 켜짐 (Preset::KoKr 基本)
builder.initial_sound_law(false);  // 꺼짐 (Preset::KoKp 基本)

어떤 辭典에서도 찾지 못한 文字의 fallback 讀音에 南韓의 音韻規則(頭音法則)을 適用합니다:

入力	法則 켜짐 (`KoKr`)	法則 꺼짐 (`KoKp`)
來日	내일	래일
理由	이유	리유
女子	여자	녀자

括弧讀音註釋

builder.collapse_redundant_parens(true);   // 켜기 (基本)
builder.collapse_redundant_parens(false);  // 括弧를 그대로 둠

한 單語가 明示的인 括弧讀音註釋을 漢字가 앞에(庫間(곳간)) 또는 한글이 앞에(곳간(庫間)) 달고 있으면, Gukhanmun은 重複된 括弧를 除去하고 그 註釋을 모든 렌더링 모드에서 두 文字體系로 보이도록 標示합니다(HangulOnly에서는 곳간(庫間), Original에서는 庫間(곳간)). 代案讀音을 固定하는 括弧는 그 자리의 辭典讀音을 덮어씁니다. 그래서 辭典이 數字를 숫자로 읽더라도 數字(수자)는 수자(數字)로 렌더링됩니다.

讀音註釋은 두 規則으로 뜻풀이와 區別됩니다. 單語의 讀音과 正確히 一致하는 括弧는 늘 합쳐집니다(庫間(곳간) 같은 사이시옷 讀音을 包括합니다). 그렇지 않으면, 代案讀音은 漢字 한 글자마다 한글 한 音節이 對應하고 各音節이 그 글자의 有效한 韓國漢字音일 때에만 받아들여집니다(數字(수자)처럼). 뜻풀이 庫間(물건을 간직하여 두는 곳)이나 外來語音譯 蔣介石(장제스)(여기서 介는 제가 아니라 개)는 두 規則 어디에도 該當하지 않아 건드리지 않습니다. RedundantParenCollapser 미들웨어는 同音異義標示보다 먼저 實行되어, 고쳐진 讀音과 플래그가 파이프라인의 나머지로 흘러갑니다.

同音異義區別窓

서로 다른 漢字語가 같은 한글 讀音을 共有할 수 있습니다(例를 들어 連霸와 連敗는 둘 다 연패입니다). RenderMode::HangulOnly에서, Gukhanmun은 讀者가 그것들을 區別할 수 있도록 그런 單語의 漢字를 括弧 안에 維持할 수 있습니다. homophone_window는 한 讀音이 模糊하다고 看做되는 範圍를 設定합니다:

값	動作
`ContextWindow::Off`	區別追跡 안 함
`ContextWindow::PerBlock` (KoKr 基本)	段落·리스트·헤딩 境界에서 再設定
`ContextWindow::PerSection`	헤딩 境界에서만 再設定
`ContextWindow::PerDocument`	入力全體에 걸쳐 追跡

use gukhanmun::ContextWindow;

builder.homophone_window(ContextWindow::Off);
builder.homophone_window(ContextWindow::PerBlock);    // KoKr의 基本
builder.homophone_window(ContextWindow::PerSection);
builder.homophone_window(ContextWindow::PerDocument);

더 넓은 窓은 讀音이 여러 섹션에 걸쳐 反復되는, 漢字密度가 높은 텍스트에 適合합니다.

同音異義探知戰略

homophone_detection은 窓 안에서 어떤 讀音을 模糊한 것으로 셀지를 選擇합니다:

값	動作
`HomophoneDetection::ContextLocal` (基本)	窓 안에 뜻이 다른 同音異義語가 實際로 나타날 때에만 그 單語를 倂記합니다.
`HomophoneDetection::DictionaryWide`	辭典 안 어디서든 다른 漢字形態와 共有되는 讀音도 倂記합니다.

use gukhanmun::HomophoneDetection;

builder.homophone_detection(HomophoneDetection::ContextLocal);    // 基本
builder.homophone_detection(HomophoneDetection::DictionaryWide);

ContextLocal은 한글 專用出力을 깔끔하게 維持합니다: 單語는 周邊 텍스트가 그것을 眞짜로 模糊하게 만들 때에만 倂記됩니다. DictionaryWide는 더 넓지만, 內藏《標準國語大辭典》 같은 큰 參照辭典으로는 거의 모든 흔한 讀音에 어떤 同音異義語가 있으므로 大部分의 漢字語를 倂記하게 됩니다. 文脈과 無關하게 特定單語를 恒常倂記하려면, 대신 DirectiveAction::RequireHanja 指示를 使用합니다(〈使用者指示〉參照).

認識된 單語만 區別된다

同音異義區別은 辭典이 單位로 認識하는 單語에 對해 動作합니다. 自體辭典項目이 없는 漢字連續은 하나의 單語로 다뤄지지 않으며, 그 fallback(非辭典) 文字는 결코 倂記되지 않습니다; 그 안에 있는, 認識되는 한 글자 項目(例컨대 紫)은 여전히 따로 處理됩니다. 例를 들어 自由와 子游는 둘 다 자유로 읽히는 內藏項目이므로 自由와 子游는 자유(自由)와 자유(子游)로 렌더링됩니다; 그러나 紫楡는 自體項目이 없으므로, 基本 context-local 戰略에서 自由와 紫楡는 倂記 없이 자유와 자유로 렌더링되는데, 이는 엔진이 自由와 衝突할 두 番째 자유 單位를 결코 보지 못하기 때문입니다. 全體用語를 區別하려면, 그것을 使用者定義辭典에 追加하여 엔진이 그것을 하나의 單位로 다루게 합니다.

最初出現解除窓

켜져 있으면, 最初出現解除는 窓 안에서 漢字의 첫 出現以後 그 漢字의 倂記를 멈춥니다. 이는 各文字를 한 番紹介한 뒤 自由롭게 使用하는 文書에 有用합니다; 後續出現은 括弧漢字 없이 純粹 한글로 남습니다.

값	動作
`ContextWindow::Off` (基本)	결코 解除 안 함; 모든 出現을 倂記
`ContextWindow::PerBlock`	같은 段落/블록 안에서 解除
`ContextWindow::PerSection`	같은 섹션 안에서 解除
`ContextWindow::PerDocument`	文書全體에 걸쳐 解除

builder.first_occurrence_window(ContextWindow::Off);        // 基本
builder.first_occurrence_window(ContextWindow::PerBlock);
builder.first_occurrence_window(ContextWindow::PerSection);
builder.first_occurrence_window(ContextWindow::PerDocument);

誤謬復舊

use gukhanmun::Recovery;

builder.recovery(Recovery::Strict);   // 基本: 誤謬 時 中斷
builder.recovery(Recovery::Lenient);  // 問題가 되는 斷片을 건너뜀

HTML 變換에서 該當합니다; 平文 텍스트와 Markdown은 復舊可能한 誤謬를 내지 않습니다.

#變換 옵션

#프리셋

#分割 戰略

#數詞 處理

#頭音法則

#括弧 讀音 註釋

#同音異義 區別 窓

#同音異義 探知 戰略

#認識된 單語만 區別된다

#最初 出現 解除 窓

#誤謬 復舊