사전

Gukhanmun은 한자의 한글 독음을 찾기 위하여 사전을 사용합니다. ko-kr 프리셋은 내장된 《표준국어대사전》을 사용하고, ko-kp 프리셋은 《우리말샘》 북한어 분류를 사용합니다.

내장 사전

프리셋이 고른 내장 사전은 자동으로 불러와집니다. 대부분의 한국어 텍스트에는 추가 플래그가 필요하지 않습니다.

모든 내장 사전을 끄려면, 예를 들어 사용자 정의 사전에 전적으로 의존하고 싶을 때는 --no-bundled-dictionaries를 넘깁니다:

gukhanmun --no-bundled-dictionaries -d my-dict.gukfst input.txt

북한어 표기를 기본값으로 쓰려면 ko-kp 프리셋을 사용합니다. 이 프리셋은 두음법칙을 끄고 《우리말샘》 북한어 사전을 내장 사전으로 사용합니다:

gukhanmun --preset ko-kp input.txt

사용자 정의 사전

-d(또는 --dictionary)로 하나 이상의 사용자 정의 사전을 제공합니다. 이 플래그는 반복할 수 있습니다:

gukhanmun -d legal.gukfst input.txt
gukhanmun -d legal.gukfst -d names.gukcdb input.txt

Gukhanmun은 두 가지 바이너리 사전 형식을 지원합니다:

형식	확장자	찾기	비고
FST	.gukfst	$O(\\text{키 길이})$	래티스(lattice) 분할에 적합; 디스크에서 더 작음
CDB	.gukcdb	$O(1)$	더 단순한 배치; 손으로 감사하기 쉬움

사전은 명령줄에 나타난 순서대로 시도되며, 내장 사전이 마지막으로 참조됩니다. 처음 일치한 것이 채택됩니다.

사용자 정의 사전 구축

.gukfst와 .gukcdb 파일은 컴파일된 산출물이며, 손으로 편집하는 것이 아닙니다. 항목은 평문 텍스트 표로 작성하여 gukhanmun-mkdict로 컴파일합니다.

gukhanmun-mkdict 빌더는 mise를 통한 설치이든 미리 빌드된 아카이브 내려받기든 gukhanmun과 함께 설치됩니다. 대신 crates.io에서 빌드했다면, 빌더도 같은 방식으로 설치합니다:

cargo install gukhanmun-mkdict

항목을 hanja 키 열과 hangul 독음 열을 가진 탭 구분 파일로 작성합니다:

hanja	hangul
北京	베이징
學校	학교

두 개의 선택적 열이 렌더러가 각 항목을 어떻게 다룰지를 제어합니다: require_hanja를 true로 설정하면 (구별이 필요한 동음이의어를 위하여) 출처 한자를 보이게 유지하고, require_hangul을 true로 설정하면 원 표기 렌더링 모드에서 한글 병기를 강제합니다.

hanja	hangul	require_hanja	require_hangul
北京	베이징	false	false
色깔論	색깔론	false	true

표를 FST 사전(기본 형식)으로 컴파일합니다:

gukhanmun-mkdict --output legal.gukfst legal.tsv

대신 .gukcdb 파일을 만들려면 --format cdb를 넘깁니다. 여러 입력 파일을 줄 수 있으며, 순서대로 병합됩니다; --merge는 중복 키를 어떻게 해결할지(error, first-wins, last-wins)를 선택합니다. 출력을 다시 열어 모든 항목이 왕복(round-trip)됨을 확인하려면 --validate를, 출처나 라이선스 같은 내력을 심으려면 --metadata KEY=VAL을 더합니다.

그런 다음 결과를 다른 사용자 정의 사전과 마찬가지로 불러옵니다:

gukhanmun -d legal.gukfst input.txt

CSV와 JSON Lines 입력도 받아들이며, 몇 가지 더 진보된 옵션이 있습니다. 전체 사전 파일 형식 명세은 내부 구조 섹션을 참조하십시오.

#사전

#내장 사전

#사용자 정의 사전

#사용자 정의 사전 구축

사전

내장 사전

사용자 정의 사전

사용자 정의 사전 구축