宋本廣韻データの利用の仕方

May 25, 2026

データ利用, 文献学

廣韻, 宋本, データ利用, デジタル人文学

漢字データベース公開の宋本広韻データの利用 #

宋本広韻データの入手 #

川幡太一氏公開の「漢字データーベースプロジェクト 」に「宋本廣韻データベース」の情報が公開されている。

https://kanji-database.sourceforge.net/

上記にアクセスして漢字字書データベース→宋本廣韻データとたどればよい。

https://kanji-database.sourceforge.net/dict/sbgy/index.html

冒頭に次のようにあり、村越貴代美氏の科研費の成果を利用しているとのことである。

宋本広韻データは、周祖謨「校正宋本廣韻」（澤存堂複製※）をUCSで符号化することを目指します。本データは、日本学術振興会科学研究費・基盤研究C「次世代古典文献データベース構築の基礎的研究」（平成14～16年度、課題番号：14510494、研究代表者：村越貴代美）による成果の一部を利用させてもらっています。

このページには「宋本広韻データ」で使用される声母、韻母、声調の一覧があり、データ処理に必要となるので、適宜名前をつけて保存しておく。私は宋本廣韻データ.htmlとして保存した。

GitHubでデータをダウンロード #

宋本廣韻データのデータ本体はGitHubにて公開されている。

https://github.com/cjkvi/cjkvi-dict

cjkv、sbgy、kawabataなどをキーにしてGoogle検索しても上記のページにたどり着ける。

git になれていれば、

git clone https://github.com/cjkvi/cjkvi-dict

で入手できる。緑色のCodeのプルダウンメニューから Download ZIPを選んでもダウンロード可能である。

各種のファイルがあるが、当面、必要となる宋本廣韻データは次のものである。

sbgy.xml 本文データ（XMLマークアップ）
sbgy.css CSSスタイルシート
sbgy.rnc RelaxNG スキーマ定義
sbgy.xsl HTML変換用XSLTスタイルシート

これに先ほど保存した次を利用する。

宋本廣韻データ.html プロジェクト説明ページ（解説・声母・韻母表付き）

生成AIの利用 #

前述の宋本廣韻データ関連のファイルを生成AIに読み込ませて、内容を解析してもらう。

生成AIは、Chat GPT か Claude を推奨する。このふたつならだいたい同じ手順で進めることができる。以下では、Claudeでの作業を紹介する。

Claudeでは、プロジェクトを作成する。左側のメニューの「プロジェクト」を選び、「宋本廣韻データ」とか「漢字音」とか自分の好きな名前をつける。チャット欄でこのプロジェクトでどんなことをやりたいか、大雑把なところと、簡単な自己紹介をしておくとよい。

次に「ファイル」というところがあって、関連ファイルをアップロードできる。ここで先程の「宋本廣韻データ」をアップロードしておく。

Chat GPTもだいたい同様だが、Claudeの「ファイル」に相当するのは、「情報源」なので、それを利用する。

プロンプト例：全体像の把握 #

プロンプトは、いろんな流儀があると思うが、私の場合は、まず、アップロードしたファイルの全体像を把握してもらうこととして、次を依頼した。

宋本廣韻データ.htmlとsbgy.xmlと関連ファイルを参照して、内容を確認してください。

そうすると、かなり詳細な内容を報告してくれる。詳細は割愛するが、「宋本廣韻データ（sbgy関連ファイル）の内容」として以下の項目の説明があった。

宋本廣韻データ（sbgy関連ファイル）の内容
- 概要
- ファイル構成
- sbgy.xml の構造とデータ量
- 5巻の構成
- XMLの階層構造（sbgy.rnc より）
- voice_part の属性例
- word_head の id体系
HTML説明ページ（宋本廣韻データ.html）の内容
利用目的・活用方法

最後に「何か特定の韻・漢字・音韻カテゴリについて詳しく調べますか？」とあった。必要なら調べてもらう。

プロンプトの例：スクリプト作成依頼 #

せっかちなので、次のように早速本題に入る。

「例えば「凍」は"tuŋ˥˩"なので、声母は「舌頭音・全清・端」、韻母は「通攝・東・一等・開口」、声調は「平声」となります。」とのことなので、各漢字について、声母、韻母、声調を出力するシステムを作ることができるかと思いました。どのような手順で進めればそれができますか。

そうすると、実現手順の説明があって、およそ次の4ステップが示される。

XML解析
IPA解析テーブルの構築
辞書データの生成
検索UIの実装

どこから始めるかと聞かれたので、以下のように依頼した。

Step 1→2→3をPythonスクリプトで一気に実装（JSON辞書を生成）が可能ならそれを可能にするPythonスクリプトの作成をお願いします。

すると、一気にPythonスクリプトの作成と、加工したデータ（JSON形式の辞書）を提供してもらえた。

次にサンプルを示す。

{
  "東": [
    {
      "ipa": "tuŋ˥˩",
      "shengmu": "端",
      "wuyun": "舌頭音",
      "qingzhuo": "全清",
      "yunmu": "東",
      "she": "通攝",
      "deng": "一等",
      "kaihe": "開口",
      "shengdiao": "平声",
      "fanqie": "德紅切",
      "onyomi": "トウ",
      "volume": "v1",
      "rhyme_id": "sp01",
      "rhyme_num": "一",
      "word_id": "w107b0601",
      "is_head": true
    }
  ],
  ...

後は、これをそのまま利用したり、エクセル形式に変換してもらったりして、各自の目的に合わせて利用すればよい。

追記 #

GitHub (nk2028/tshet-uinh-data)というデータも公開されている。

https://github.com/nk2028/tshet-uinh-data

廣韻の他に、切韻残巻の王一、王三も公開されているようだ。