宋本廣韻データの利用の仕方
May 25, 2026
漢字データベース公開の宋本広韻データの利用 #
宋本広韻データの入手 #
川幡太一氏公開の「漢字データーベースプロジェクト 」に「宋本廣韻データベース」の情報が公開されている。
https://kanji-database.sourceforge.net/
上記にアクセスして漢字字書データベース→宋本廣韻データと たどればよい。
https://kanji-database.sourceforge.net/dict/sbgy/index.html
冒頭に次のようにあり、村越貴代美氏の科研費の成果を利用しているとのことである。
宋本広韻データは、周祖謨「校正宋本廣韻」(澤存堂複製※)をUCSで符号化することを目指します。本データは、日本学術振興会科学研究費・基盤研究C「次世代古典文献データベース構築の基礎的研究」(平成14~16年度、課題番号:14510494、研究代表者:村越貴代美)による成果の一部を利用させてもらっています。
このページには「宋本広韻データ」で使用される声母、韻母、声調の一覧があり、データ処理に必要となるので、適宜名前をつけて保存しておく。
私は宋本廣韻データ.htmlとして保存した。
GitHubでデータをダウンロード #
宋本廣韻データのデータ本体はGitHubにて公開されている。
https://github.com/cjkvi/cjkvi-dict
cjkv、sbgy、kawabataなどをキーにしてGoogle検索しても上記のページにたどり着ける。
git になれていれば、
git clone https://github.com/cjkvi/cjkvi-dict
で入手できる。
緑色のCodeのプルダウンメニューから
Download ZIPを選んでもダウンロード可能である。
各種のファイルがあるが、当面、必要となる 宋本廣韻データは次のものである。
- sbgy.xml 本文データ(XMLマークアップ)
- sbgy.css CSSスタイルシート
- sbgy.rnc RelaxNG スキーマ定義
- sbgy.xsl HTML変換用XSLTスタイルシート
これに先ほど保存した次を利用する。
- 宋本廣韻データ.html プロジェクト説明ページ(解説・声母・韻母表付き)
生成AIの利用 #
前述の宋本廣韻データ関連のファイルを生成AIに 読み込ませて、内容を解析してもらう。
生成AIは、Chat GPT か Claude を推奨する。このふたつ ならだいたい同じ手順で進めることができる。 以下では、Claudeでの作業を紹介する。
Claudeでは、プロジェクトを作成する。 左側のメニューの「プロジェクト」を選び、 「宋本廣韻データ」とか「漢字音」とか自分の好きな 名前をつける。 チャット欄でこのプロジェクトでどんなことをやりたいか、 大雑把なところと、簡単な自己紹介をしておくと よい。
次に「ファイル」というところがあって、関連ファイルを アップロードできる。ここで先程の「宋本廣韻データ」を アップロードしておく。
Chat GPTもだいたい同様だが、Claudeの「ファイル」に 相当するのは、「情報源」なので、それを利用する。
プロンプト例:全体像の把握 #
プロンプトは、いろんな流儀があると思うが、私の場合は、 まず、アップロードしたファイルの全体像を把握してもらう こととして、次を依頼した。
宋本廣韻データ.htmlとsbgy.xmlと関連ファイルを参照して、内容を確認してください。
そうすると、かなり詳細な内容を報告してくれる。 詳細は割愛するが、「宋本廣韻データ(sbgy関連ファイル)の内容」 として以下の項目の説明があった。
- 宋本廣韻データ(sbgy関連ファイル)の内容
- 概要
- ファイル構成
- sbgy.xml の構造とデータ量
- 5巻の構成
- XMLの階層構造(sbgy.rnc より)
- voice_part の属性例
- word_head の id体系
- HTML説明ページ(宋本廣韻データ.html)の内容
- 利用目的・活用方法
最後に「何か特定の韻・漢字・音韻カテゴリについて詳しく調べますか?」とあった。必要なら調べてもらう。
プロンプトの例:スクリプト作成依頼 #
せっかちなので、次のように早速本題に入る。
「例えば「凍」は"tuŋ˥˩"なので、声母は「舌頭音・全清・端」、韻母は「通攝・東・一等・開口」、声調は「平声」となります。」とのことなので、各漢字について、声母、韻母、声調を出力するシステムを作ることができるかと思いました。どのような手順で進めればそれができますか。
そうすると、実現手順の説明があって、およそ次の4ステップが 示される。
- XML解析
- IPA解析テーブルの構築
- 辞書データの生成
- 検索UIの実装
どこから始めるかと聞かれたので、以下のように依頼した。
Step 1→2→3をPythonスクリプトで一気に実装(JSON辞書を生成)が可能ならそれを可能にするPythonスクリプトの作成をお願いします。
すると、 一気にPythonスクリプトの作成と、 加工したデータ(JSON形式の辞書)を提供してもらえた。
次にサンプルを示す。
{
"東": [
{
"ipa": "tuŋ˥˩",
"shengmu": "端",
"wuyun": "舌頭音",
"qingzhuo": "全清",
"yunmu": "東",
"she": "通攝",
"deng": "一等",
"kaihe": "開口",
"shengdiao": "平声",
"fanqie": "德紅切",
"onyomi": "トウ",
"volume": "v1",
"rhyme_id": "sp01",
"rhyme_num": "一",
"word_id": "w107b0601",
"is_head": true
}
],
...
後は、これをそのまま利用したり、エクセル形式に変換してもらったりして、各自の目的に合わせて利用すればよい。
追記 #
GitHub (nk2028/tshet-uinh-data)というデータも公開されている。
https://github.com/nk2028/tshet-uinh-data
廣韻の他に、切韻残巻の王一、王三も公開されているようだ。