宋本廣韻データの利用の仕方

宋本廣韻データの利用の仕方

May 25, 2026
データ利用, 文献学
廣韻, 宋本, データ利用, デジタル人文学

漢字データベース公開の宋本広韻データの利用 #

宋本広韻データの入手 #

川幡太一氏公開の「漢字データーベースプロジェクト 」に「宋本廣韻データベース」の情報が公開されている。

https://kanji-database.sourceforge.net/

上記にアクセスして漢字字書データベース→宋本廣韻データと たどればよい。

https://kanji-database.sourceforge.net/dict/sbgy/index.html

冒頭に次のようにあり、村越貴代美氏の科研費の成果を利用しているとのことである。

宋本広韻データは、周祖謨「校正宋本廣韻」(澤存堂複製※)をUCSで符号化することを目指します。本データは、日本学術振興会科学研究費・基盤研究C「次世代古典文献データベース構築の基礎的研究」(平成14~16年度、課題番号:14510494、研究代表者:村越貴代美)による成果の一部を利用させてもらっています。

このページには「宋本広韻データ」で使用される声母、韻母、声調の一覧があり、データ処理に必要となるので、適宜名前をつけて保存しておく。 私は宋本廣韻データ.htmlとして保存した。

GitHubでデータをダウンロード #

宋本廣韻データのデータ本体はGitHubにて公開されている。

https://github.com/cjkvi/cjkvi-dict

cjkvsbgykawabataなどをキーにしてGoogle検索しても上記のページにたどり着ける。

git になれていれば、

git clone https://github.com/cjkvi/cjkvi-dict

で入手できる。 緑色のCodeのプルダウンメニューから Download ZIPを選んでもダウンロード可能である。

各種のファイルがあるが、当面、必要となる 宋本廣韻データは次のものである。

  • sbgy.xml 本文データ(XMLマークアップ)
  • sbgy.css CSSスタイルシート
  • sbgy.rnc RelaxNG スキーマ定義
  • sbgy.xsl HTML変換用XSLTスタイルシート

これに先ほど保存した次を利用する。

  • 宋本廣韻データ.html プロジェクト説明ページ(解説・声母・韻母表付き)

生成AIの利用 #

前述の宋本廣韻データ関連のファイルを生成AIに 読み込ませて、内容を解析してもらう。

生成AIは、Chat GPT か Claude を推奨する。このふたつ ならだいたい同じ手順で進めることができる。 以下では、Claudeでの作業を紹介する。

Claudeでは、プロジェクトを作成する。 左側のメニューの「プロジェクト」を選び、 「宋本廣韻データ」とか「漢字音」とか自分の好きな 名前をつける。 チャット欄でこのプロジェクトでどんなことをやりたいか、 大雑把なところと、簡単な自己紹介をしておくと よい。

次に「ファイル」というところがあって、関連ファイルを アップロードできる。ここで先程の「宋本廣韻データ」を アップロードしておく。

Chat GPTもだいたい同様だが、Claudeの「ファイル」に 相当するのは、「情報源」なので、それを利用する。

プロンプト例:全体像の把握 #

プロンプトは、いろんな流儀があると思うが、私の場合は、 まず、アップロードしたファイルの全体像を把握してもらう こととして、次を依頼した。

宋本廣韻データ.htmlとsbgy.xmlと関連ファイルを参照して、内容を確認してください。

そうすると、かなり詳細な内容を報告してくれる。 詳細は割愛するが、「宋本廣韻データ(sbgy関連ファイル)の内容」 として以下の項目の説明があった。

  • 宋本廣韻データ(sbgy関連ファイル)の内容
    • 概要
    • ファイル構成
    • sbgy.xml の構造とデータ量
    • 5巻の構成
    • XMLの階層構造(sbgy.rnc より)
    • voice_part の属性例
    • word_head の id体系
  • HTML説明ページ(宋本廣韻データ.html)の内容
  • 利用目的・活用方法

最後に「何か特定の韻・漢字・音韻カテゴリについて詳しく調べますか?」とあった。必要なら調べてもらう。

プロンプトの例:スクリプト作成依頼 #

せっかちなので、次のように早速本題に入る。

「例えば「凍」は"tuŋ˥˩"なので、声母は「舌頭音・全清・端」、韻母は「通攝・東・一等・開口」、声調は「平声」となります。」とのことなので、各漢字について、声母、韻母、声調を出力するシステムを作ることができるかと思いました。どのような手順で進めればそれができますか。

そうすると、実現手順の説明があって、およそ次の4ステップが 示される。

  1. XML解析
  2. IPA解析テーブルの構築
  3. 辞書データの生成
  4. 検索UIの実装

どこから始めるかと聞かれたので、以下のように依頼した。

Step 1→2→3をPythonスクリプトで一気に実装(JSON辞書を生成)が可能ならそれを可能にするPythonスクリプトの作成をお願いします。

すると、 一気にPythonスクリプトの作成と、 加工したデータ(JSON形式の辞書)を提供してもらえた。

次にサンプルを示す。

{
  "東": [
    {
      "ipa": "tuŋ˥˩",
      "shengmu": "端",
      "wuyun": "舌頭音",
      "qingzhuo": "全清",
      "yunmu": "東",
      "she": "通攝",
      "deng": "一等",
      "kaihe": "開口",
      "shengdiao": "平声",
      "fanqie": "德紅切",
      "onyomi": "トウ",
      "volume": "v1",
      "rhyme_id": "sp01",
      "rhyme_num": "一",
      "word_id": "w107b0601",
      "is_head": true
    }
  ],
  ...

後は、これをそのまま利用したり、エクセル形式に変換してもらったりして、各自の目的に合わせて利用すればよい。

追記 #

GitHub (nk2028/tshet-uinh-data)というデータも公開されている。

https://github.com/nk2028/tshet-uinh-data

廣韻の他に、切韻残巻の王一、王三も公開されているようだ。