사전
Gukhanmun은 한자의 한글 독음을 찾기 위하여 사전을 사용합니다. 기본적으로 내장된 《표준국어대사전》과 함께 배포됩니다.
내장 《표준국어대사전》
내장 사전은 자동으로 불러와집니다. 대부분의 한국어 텍스트에는 추가 플래그가 필요하지 않습니다.
이를 끄려면, 예를 들어 사용자 정의 사전에 전적으로 의존하고 싶을 때는
--no-stdict를 넘깁니다:
사용자 정의 사전
-d(또는 --dictionary)로 하나 이상의 사용자 정의 사전을 제공합니다. 이
플래그는 반복할 수 있습니다:
Gukhanmun은 두 가지 바이너리 사전 형식을 지원합니다:
사전은 명령줄에 나타난 순서대로 시도되며, 내장 사전이 마지막으로 참조됩니다. 처음 일치한 것이 채택됩니다.
사용자 정의 사전 구축
.gukfst와 .gukcdb 파일은 컴파일된 산출물이며, 손으로 편집하는 것이 아닙니다.
항목은 순수 텍스트 표로 작성하여 gukhanmun-mkdict로 컴파일합니다.
gukhanmun-mkdict 빌더는 mise를 통한 설치이든
미리 빌드된 아카이브 내려받기든
gukhanmun과 함께 설치됩니다. 대신 crates.io에서 빌드했다면, 빌더도 같은
방식으로 설치합니다:
항목을 hanja 키 열과 hangul 독음 열을 가진 탭 구분 파일로 작성합니다:
두 개의 선택적 열이 렌더러가 각 항목을 어떻게 다룰지를 제어합니다:
require_hanja를 true로 설정하면 (구별이 필요한 동음이의어를 위하여) 출처
한자를 보이게 유지하고, require_hangul을 true로 설정하면 원 표기 렌더링
모드에서 한글 병기를 강제합니다.
표를 FST 사전(기본 형식)으로 컴파일합니다:
대신 .gukcdb 파일을 만들려면 --format cdb를 넘깁니다. 여러 입력 파일을 줄
수 있으며, 순서대로 병합됩니다; --merge는 중복 키를 어떻게 해결할지(error,
first-wins, last-wins)를 선택합니다. 출력을 다시 열어 모든 항목이
왕복(round-trip)됨을 확인하려면 --validate를, 출처나 라이선스 같은 내력을
심으려면 --metadata KEY=VAL을 더합니다.
그런 다음 결과를 다른 사용자 정의 사전과 마찬가지로 불러옵니다:
CSV와 JSON Lines 입력도 받아들이며, 몇 가지 더 진보된 옵션이 있습니다. 전체 사전 파일 형식 명세은 내부 구조 섹션을 참조하십시오.