Blog | HDIC project

Blog

--itaiji-json 用JSONファイル目録（更新版: 集韻異体字ペア追加）

July 11, 2026

廣韻, 集韻, 音韻学, 漢字データベース, Python, 宋本廣韻, HDIC, DHSJR, KRM, データ統合, 異体字, Unicode

gy_dhsjr_link.py の --itaiji-json に指定する異体字ペアJSONの目録。2026-07-04版（itaiji-json-inventory.md）に、集韻の headword_run 異体字列記から抽出した jy_itaiji_pairs.json を追加した更新版。

宋本廣韻の音韻データをHDICやDHSJRにつなぐ方法(7)

July 11, 2026

デジタル人文学, 日本古辞書

廣韻, 集韻, 音韻学, 漢字データベース, Python, 宋本廣韻, HDIC, DHSJR, KRM, データ統合, 異体字, Unicode

前回(6)は廣韻側の字頭差分やCJKVI variantsから異体字JSONを作りました。今回(7)は、廣韻とは別の宋代韻書である集韻（Jiyun）のOCRテキストを取得・構造化し、その見出し字列記から異体字ペアを抽出して –itaiji-json に加えた結果をまとめます。

--itaiji-json 用JSONファイル目録

July 4, 2026

デジタル人文学, 日本古辞書

廣韻, 音韻学, 漢字データベース, Python, 宋本廣韻, HDIC, DHSJR, KRM, データ統合, 異体字, Unicode

gy_dhsjr_link.py の --itaiji-json に指定する異体字ペアJSONを、由来・件数・位置づけ・利用上の注意とともに整理した目録。安全寄りの組み合わせと、unmatched 減少と multi 増加のトレードオフを踏まえた運用方針も示す。

宋本廣韻の音韻データをHDICやDHSJRにつなぐ方法(6)

July 4, 2026

デジタル人文学, 日本古辞書

廣韻, 音韻学, 漢字データベース, Python, 宋本廣韻, HDIC, DHSJR, KRM, データ統合, 異体字, Unicode

前回の連載(5)では、DHSJR側のunmatched例を精査し、IDS表記のUCS変換や一部の入力修正を行いました。今回の(6)では、–itaiji-json に指定する異体字JSONを整理し、修正後データに gy_dhsjr_link.py を再実行した結果を検討します。

宋本廣韻の音韻データをHDICやDHSJRにつなぐ方法(5)

July 1, 2026

デジタル人文学, 日本古辞書

廣韻, 音韻学, 漢字データベース, Python, Awk, 宋本廣韻, HDIC, DHSJR, KRM, データ統合, 異体字, IDS, Unicode

前回の連載(4)では、DHSJR全74文献への gy_dhsjr_link.py 適用と複数の異体字マップの段階追加により、unmatched を22,012→7,523行まで削減しました。今回の(5)では、残る unmatched 例を精査します。

宋本廣韻の音韻データをHDICやDHSJRにつなぐ方法(4)

June 30, 2026

デジタル人文学, 日本古辞書

廣韻, 音韻学, 漢字データベース, Python, 宋本廣韻, HDIC, DHSJR, KRM, データ統合, 異体字

連載(3)の続き。DHSJR全74文献に gy_dhsjr_link.py を適用し、itaiji_gy_compare.json・itaiji_jisx0213.json・CJKV異体字表・jp-old-style.txt・KRM未検証ペアを --itaiji-json で段階追加。unmatched は 22,012→7,523 行（約66%減）まで減る一方 multi は増加するトレードオフを定量。次回は unmatched 例を精査予定。

宋本廣韻の音韻データをHDICやDHSJRにつなぐ方法(3)

June 28, 2026

デジタル人文学, 日本古辞書

廣韻, 音韻学, 漢字データベース, Python, 宋本廣韻, HDIC, DHSJR, KRM, データ統合, 異体字

宋本廣韻の音韻データをHDICやDHSJRにつなぐ方法(2)の続き。廣韻.csvにsbgy.xmlの異体字情報を加え、--itaiji-jsonオプションでさらに照合率を高める方法を解説します。

宋本廣韻の音韻データをHDICやDHSJRにつなぐ方法(2)

June 27, 2026

デジタル人文学, 日本古辞書

廣韻, 音韻学, 漢字データベース, Python, 宋本廣韻, HDIC, DHSJR, KRM, データ統合, 異体字

宋本廣韻の音韻データをHDICやDHSJRにつなぐ方法(1)の続き。Pythonスクリプト gy_dhsjr_link.py により出力した未収録・異体字の扱いについて解説します。

宋本廣韻の音韻データをHDICやDHSJRにつなぐ方法(1)

June 8, 2026

デジタル人文学, 日本古辞書

廣韻, 音韻学, 漢字データベース, Python, 宋本廣韻, HDIC, DHSJR, KRM, データ統合

廣韻.csvをHDIC（KRM）やDHSJRの音注データに接続する基本手順を解説します。Pythonスクリプト gy_dhsjr_link.py による音韻地位の付与と出力の読み方を示し、未収録・異体字問題は(2)に委ねます。

宋本廣韻の音韻データをAIエージェントで整備する

May 26, 2026

デジタル人文学, AIエージェント活用

廣韻, 音韻学, 漢字データベース, AIエージェント, Claude, Python, 宋本廣韻, データ統合

公開データ（sbgy.xml・廣韻.csv）を使い、AIエージェントへの日本語指示だけで廣韻の音韻統合 JSON 辞書を自律的に生成する手順を解説します。さらに研究者が自作した手元データを加えて照合精度を高めるための5つの要件を具体例とともに示します。