川幡太一@NTTさんのご指摘により、付録のradical.txtを修正。1998/07/08
※HTML形式にして見やすく直した。どれだけの読者がいるか分からないが、過去の記録です。 2001/05/17

漢字字書データベースの作成とその利用


池田 証寿(信州大学人文学部) shikeda@gipac.shinshu-u.ac.jp
[ 内容 ]
1 漢字字書データベースとその種類
2 情報処理のための文字表に採用された漢字についてのデータベース
3 漢字字書の掲出漢字と注文についてのデータベース
4 漢字字書データベース作成のためのソフトウェア
5 漢字字書データベースの公開の意義
6 漢字字書データベースの拡張
7 漢字字書データベースの応用
8 終わりに
9 付録

1 漢字字書データベースとその種類

漢字字書データベースとは、各種漢字字書掲載の漢字について、その字体・字 形、字(辞)書における所在、所属部首、総画数、部首内画数、情報処理のため の文字表の種類とそのコード番号、などに関する情報を得ることができるデータ ベースとする。

[注]広義には、各種の漢字文献に用いられた漢字の頻度表も、漢字字書デー タベースに含めることができよう。しかし、本稿では、上記の意味に狭く 限定して用いることにする。

本稿では、漢字字書データベースの種類を次の二種に分けて考えてみたい。

2 情報処理のための文字表に採用された漢字についてのデータベース

日本のコンピュータのための文字コード表は、現在

であり、これには

のあわせて、6,355字の漢字が含まれている(以下、JIS X0208 と略すことがある)。

また、

では、5,801字の漢字が含まれている(以下、JIS X0212 と略すことがある)。し かし、JIS X0212を利用するには、ユーザ定義文字(外字)として利用するなどの 方法を採らねばならず、事実上、日本のコンピュータに採用されなかった規格で ある。

[注]JIS 漢字については、旧JIS(JIS C6226-1978)と新JIS(JIS X0208)と で字体の入替えや変更を行っているなど、さまざまな問題がある。が、本 稿では、JIS漢字そのものの問題点を論ずることはしない。

JIS X0208 に採用された漢字 6,350 余字を一覧し、その JIS コード番号、現 代通行の漢和辞典の検字番号、部首、画数などの情報を表示したコンピュータ用 の漢字字書には、以下のものがある。

YDIC は、PCVAN の ORIENT で公開されており、JALLC(情報処理語学文学研究 会)会員には、知る人が多いであろう。筆者がよく利用するのは、

である。これは、JIS X0208-1983 の漢字について、その所属部首、その部首の画 数、部首内画数、総画数、「新字源」(角川書店、常用漢字版)番号、諸橋「大 漢和辞典」(大修館書店、旧版、索引篇所載の補遺は除く)番号を得ることがで きる(四角号碼付 Ydicなどもある)。

KANJIDIC は、internet 上に公開されており、anonymous FTP で入手が可能で ある( monu6.cc.monash.edu.au の /pub/nihongo や ftp.phys.keio.ac.jp の /pub/misc など)。JIS X0208 の漢字の所属部首、部首画数、諸橋「大漢和辞典」 番号、四角号碼、現代中国語の標準音( PinYin )、「新漢英字典」(研究社、 Jack Halpern 著)番号、「ネルソン最新漢英辞典」( タトル出版 )番号、 Unicode の16進コードなどの情報を得ることができる。もちろんこれらのデータ のすべてを作者の Jim Breen 氏が作成したわけではない。例えば諸橋「大漢和辞 典」と四角号碼は Urs APP 氏(花園大学)の提供したデータの基づいている。

YDIC や KANJIDIC 以外にも公開された JIS の漢字字書データベースがあると 思われし、未公開のものもかなりあるであろう。同種のものであっても、解釈が 問題になることはあり、データの仕様も当然異なるであろうから、公開されるこ とが望ましいと思う。

例えば、「垈(ぬた)」の諸橋「大漢和辞典」番号を、YDIC、KANJIDIC ともに 5056 とするが、5056 は「垈」の「代」を「伐」に作る字である。「垈」は「大 漢和辞典」に見えない。もちろん、このような例があるからといって、YDIC や KANJIDIC の価値はいささかも減じない。情報公開の姿勢こそ高く評価されるべき で、利用者はそれに応える責務があろう。

補助漢字(JIS X0212)については、筆者が作成したものがあり、JALLC のテキ ストアーカイブに登録済みである。JIS 補助漢字の区点番号と「大漢和辞典」番 号の情報を得ることができる。

多国語に対応したコンピュータのための文字コード表に、Unicode がある。こ の規格で同一の漢字は、同じコードポイントが宛てられており、各国(中・台・ 日・韓)の漢字コード表の統合が実現している。Unicode は、ISO/IEC 10646-1 の BMP(Basic Multilingal Plane)に採用され、そのJIS化の公開レビューも終 了している。

[注]詳しくは、以下の規格書を参照。
ISO/IEC 10646-1 は日本規格協会(FAX:03-3586-2029)から入手できる。

Unicode と ISO/IEC 10646-1 における統合漢字(Han-unification)に関して は、賛否両論がある。またこれがJIS化されたからといって一般に普及するかどう かは、分からない。Microsoft の WindowsNT は内部コードとして Unicode を採 用するが、その日本語版で標準で使える漢字は JIS X0208 の範囲内である。しか し、中国・台湾・日本・韓国の漢字コードが統合された表は、これを漢字字書と して見た時、すこぶる興味深いものである。Unicode,Inc. からは Unicode と他 漢字コードとの対照マップ(CJKXREF.FIX)が公開されており、これは漢字字書デ ータベースと呼んでも差し支えないであろう。CJKXREF.FIXは anonymous FTP で 入手可能。unicode.org(IP Address 192.195.185.2)。

ところで、Unicode と他漢字コードとの対照マップ(CJKXREF.FIX)には、字形 情報は表示されない。また、Unicode に JIS X0208 と JIS X0212 はすべて含ま れるが、この二つの規格に無い漢字で、Unicode にある漢字がどのような漢字な のか、簡単に知ることができない。そこで、JIS X0208 部分は YDIC を利用し、 JIS X0212 部分は拙作の補助漢字データ(JISH.DAT)を用いて諸橋「大漢和辞典」 番号を付し、さらに JIS X0208/0212 に無い漢字は「大漢和辞典」と照合してそ の番号を付したデータを作成した。これを

と名付け、日経 mix の fp/archive の63-66番にアップした。

情報処理のための文字表に採用された漢字のデータベースは、文字表の漢字に ついて種々の情報を示したものである。そのデータベースで、画数を算定したり、 漢和辞典の番号付けを行う際の基準は、文字表に示された字形である。

3 漢字字書の掲出漢字と注文についてのデータベース

漢字字書は、狭い意味で、単漢字を見出し字(掲出字)として、その字形・発 音・意味などを記した字書をいうこととする。具体的には、中国の「説文解字」 (後漢・許慎)、「玉篇」(梁・顧野王)、「康煕字典」(清・張玉書等)のよ うな字書、及び「広韻」(宋・陳彭年等)のような韻書である。掲出字に異体字 の併記を主体とする「干禄字書」(唐・顔元孫)もこれに含まれよう。日本の漢 字字書としては、「篆隷万象名義」(弘法大師空海[774-835]撰)、「新撰字鏡」 (昌泰年中[89801]成立、昌住撰)、原本系「類聚名義抄」(院政初期成立、法 相・真言を兼学する僧侶か)、広益本「類聚名義抄」(院政末か鎌倉初期成立、 真言宗の僧侶か)などの古字書をはじめとして、諸橋「大漢和辞典」(大修館)、 「新字源」(角川書店)などの現代通行の漢和辞典までが含まれる。

[注]広義には、熟語中心の辞書を含めることになるが、ここではそこまで考 えない。

さて、「康煕字典」については、勝村哲也氏の「漢籍の情報処理に於ける電子 漢字の効用」(学術情報センターニュースNo.22、1992年12月)によると、京都大 学で作成した「康煕字典文字セット」49,188字がある由だが、詳しい情報を得て いない。

日本の漢字字書である「類聚名義抄」(院政期、撰者未詳)については、デー タベースの試みが既になされている。田島毓堂氏の「類聚名義抄の注釈的研究− 電算機利用による−」(平成元年度科学研究費報告書63301058、1990年3月)がそ れで、広益本系「類聚名義抄」の一伝本である蓮成院本「類聚名義抄」をデータ ベース化している。注文の解読に力を注いでいるのが特徴である。JIS X0208 に 無い漢字は「現段階は検討段階にあるので、とりあえず「○」をいれておく」と する。処理の困難さがうかがえる。漢字索引、字体注記索引、和訓索引、仮名音 注索引、反切索引、和音注索引、義注索引などからなる由である。報告書には字 体注記索引が掲載されている。全体の完成とその公開が期待される。

現代の漢和辞典に基づく漢字字書データベースとしては、田嶋一夫氏の漢字シ ソーラスが有名である(「漢字シソーラスの構想と課題」(日本語学3-3 明治書 院、1984年3月など)。「大漢和辞典」の異体字情報をデータベース化したもので、 将来の文字コードで異体字の統合が必須であることを念頭においた研究であり、 その着想は画期的であると思う。問題点を敢えて指摘すれば、その依拠した資料 が「大漢和辞典」という二次資料であることであろう。「大漢和辞典」とて完璧 ではなく、特に使用頻度の少なく、単一の出典による用例には注意が必要である。

[注]諸橋「大漢和辞典」の編纂過程や問題点については、原田種成氏の「漢 文のすゝめ−諸橋『大漢和』編纂秘話−」(新潮社、1992年)が詳しい。

次に、筆者作成のデータで、JALLC のテキストアーカイブに登録したのは、以 下の二つである。

図書寮本の「類聚名義抄」は、原本系「類聚名義抄」唯一の伝本である。零本 であるが、辞書史、漢文訓読史、日本漢字音史、アクセント史、語彙史の上で、 その資料的価値は極めて高く評価されている。「図書寮本類聚名義抄」の掲出字 の索引には、酒井憲二氏の「図書寮本類聚名義抄漢字索引」(訓点語と訓点資料 47、1972年。「図書寮本類聚名義抄」勉誠社、1976年 に再録)がある。筆者は酒 井氏とは別個に索引を作成し、いったんできあがったデータを酒井氏の「漢字索 引」と照合して、筆者の誤認を訂正するという方法を採用した。

「篆隷万象名義」は、弘法大師空海(774-835)の撰にかかり、顧野王の「玉篇」 をダイジェストした漢字字書である。「玉篇」は古代中世の日本の文芸・学問に 多大の影響力をもった中国の漢字字書であるが、僅かにその残巻を残すに過ぎな い。「玉篇」の姿をダイジェストしたかたちであるにしろ忠実に伝える点に「篆 隷万象名義」の存在価値がある。また「篆隷万象名義」は「類聚名義抄」の根幹 資料となるなど日本の辞書史に占める意義は大きい。

この二つの漢字字書データベースは、古字書の掲出漢字について、不充分なが らその字体情報を表示しており、この点に田島毓堂氏の蓮成院本類聚名義抄のデ ータベースや、田嶋一夫氏の漢字シソーラスに無い特色がある。

古字書の漢字索引を作成する場合、異体字の類をいったん「康煕字典」の字体 に直した上で配列していく。異体字のままでは、通行の漢和辞典に掲載の無い字 が多く、一定の基準により配列することは困難だからである(音によるという方 法もあるが、その文献における音を確定するのは相当に難しいのである)。

したがって、「大漢和辞典」番号を付ける場合には、古字書に用いられる異体 字の類をいったん「康煕字典体」に直し、その康煕字典体に同一か、ほとんど同 じ字体のJIS X0208の漢字を宛てることになる。篆隷万象名義データベースでは、 諸橋「大漢和辞典」番号に対応する「大漢和辞典」の字体が、筆者の「篆隷万象 名義」の掲出漢字の解釈結果である。もちろんJIS X0208 の漢字を添えるが、そ の字体と諸橋「大漢和辞典」の字体に小異がある場合(しんにゅうの点が一つな のか、二つなのかなど)は、諸橋「大漢和辞典」の字体が優先されるという方針 で作成したのである。

4 漢字字書データベース作成のためのソフトウェア

次には、筆者がどのような手順で上記の漢字字書データベースを作成したのか を述べるべきかもしれない。しかし、正直いって具体的な手順の詳細は忘れてし まっている。また、付属の説明書を見てもらえば、どのようにして作成したか、 おおよそ検討がつくかとも思う。そこで、ここでは、漢字字書データベースを作 成する際に用いたソフトウェアについて述べることにする。

筆者が漢字字書データベースを作成するにあたって用いた市販のソフトウェア は次のものである。

いずれもMS-DOSで、よく使われているものである。Vzは文書作成とデータの修 正用、松はもっぱら印刷用、桐はデータの入力用である(コンピュータを使った ことの無い学生に入力のアルバイトを依頼した時には、Macintosh ClassicII を 利用した。ワープロで数字データのみ入力)。ワードプロセッサー松の FEPであ る松茸も使っているが、これは単漢字変換が早く、選択画面で表示される字数が ATOK や VJE よりも多いので、漢字字書のデータの入力・校正に愛用している。

フリーウェアでは、以下のソフトを主に用いている。

sortf、join、jgawkがあれば、市販のデータベースソフトの桐などいらないよ うなものである。しかし、sortf、join、jgawkで、自分の思ったとおりにデータ を処理できないこと、あるいは処理の結果に自信の無いことがあり、そうした場 合に、桐を併用している。桐で処理してテキストデータに書き出したり、桐の上 で処理の結果の確認をしたりするのである。

篆隷万象名義データベースは、テキストファイルで現在876,766バイトあるが、 これを桐に読み込んで、ソートをかけたりすると軽く1MBを超えてしまい、フロッ ピーディスクにバックアップがとれない。桐を中心に作業しない理由はこの点に ある。

この他に、JIS X0208 のための漢字字書が必須であるが、これは前述した。

漢字字書データベースを作成するためのソフトウェアは、作成者の使い慣れた ものであれば何でもよいと思う。作成に用いるソフトウェア(プログラム)は手 段であって目的でない。質の高いソフトウェア(データ)を作成することが目的 であり、これを忘れないようにしたい。と同時に、優れたソフトウェア(プログ ラム・データ)を対価を求めること無く、無料で公開されている作者の方に対す る感謝を忘れてはならない。

5 漢字字書データベースの公開の意義

YDIC や KANJIDIC などの JIS X0208 のための漢字字書は、コンピュータで処 理できる漢字の一覧であって、こうした基本データを公開することの意義につい て、あれこれいう必要もあるまい。多方面での活用が可能である。

では、筆者が作成した「類聚名義抄」や「篆隷万象名義」の漢字字書データベ ースを公開する意義はどのような点にあるであろうか。

古字書の研究を行っている立場からすると、通常の論文では

という難点があった。漢字字書データベースの公開によりこれらを克服すること ができる。すなわち、

図書寮本「類聚名義抄」は零本なのでその掲出項は少ないが、それでも 3,600 項目以上ある。「篆隷万象名義」の掲出字は、16,000字以上である。こうした資 料について、論の根拠となる用例を全例示すには一冊の本を書くくらいの紙数が 必要であり、またそのために互換性の無い外字を一々作成していかねばならない。 外字作成の労苦と追試を可能にする論の信頼性。この二つを天秤に掛ければ後者 に傾くのが自然であろう。

さらに、JIS X0208(補助漢字)や Unicode のコード番号を付けておけば、将 来それらを採用したコンピュータが普通に使えるようになった時、一括して置換 してしまえばよいのである。無駄な努力はしたくない。

最近の漢字コードの国際標準化の動きなどが急速に展開してる状況を見ると、 漢字使用の実態について基礎的な研究を積み重ねておく必要性がいちだんと強ま っている。詳しくは後述するが、漢字字書データベースはそのような状況も射程 に入れておかねばならないだろう。

6 漢字字書データベースの拡張

「篆隷万象名義データベース試作版[図書寮本類聚名義抄対応]」は、次のよ うな内容をもっている。


    M2722100,27425,糸,g,6/126-51,0-2769

    M2722100,27425,糸,z,6=126-61,0-2769

    M2722101,27425,糸λ,z,6/126-61,4-0000

    M2744800,27425,絲,z,6@126-61,0-6915

    M2794400,27425,繭,z,6/126-62,0-4390

    M2746600,27425,見χ,z,6/127+11,1-5178

    M2784700,27425,慘ω,z,6=127+12,1-5246

    M2785400,27425,巣χ,z,6/127+12,1-5248

    M2780200,27425,▼,z,6/127+21,4-0000

    M2785400,27425,巣χ,z,6=127+21,1-5248

    M2797500,27425,繹,g,6/127+22,0-6972

    M2763300,27425,緒,n,6/127+31,0-2979

    M2767400,27425,緬,g,6/127+32,0-4443

    M2727400,27425,眄ω,z,6/127+41,4-0000

    M2727700,27425,純,g,6/127+42,0-2967

各フィールドは半角カンマ(,)で区切られ、順に諸橋「大漢和辞典」番号、 「玉篇」の巻数と部首番号、「篆隷万象名義」の掲出字、図書寮本「類聚名義抄」 との対応、「篆隷万象名義」での所在、JIS 区点コード番号を示している。

[注]JIS X0208に無い漢字の表示方法は、以下の通り。

        M2785400,巣χ  糸偏に巣

        M2746600,見χ  糸偏に見

        M3545200,洲ω  言偏に州

        M3542500,察λ  察の古字(通用・譌字等)

        M0487300,経μ  経の旁の部分の字

        M2273500,百2  百を二つ並べた字

        M1082600,心3  心を三つ並べた字

        M2806300,▼    以上で駄目な時

この方法は、かつて岡田希雄が「類聚名義抄の研究」(一條書房、1944年) などで難字を×(糸偏に見)のように示したことや、豊島正之「「JISに無い 字」をめぐって」(しにか3-2 大修館書店、1992年)に示された考え方など を参考にしたものである。

今年(1994年)の五月中旬に「篆隷万象名義」の全掲出字の入力が一通り終了 し、これを「篆隷万象名義データベース暫定版」とした。この「暫定版」では、 「試作版」の仕様が次のように変更されている。


    M2722100,糸,27425,糸,糸,6/126-51,0-2769,7CF8

    M2722100,糸,27425,糸,糸,6=126-61,0-2769,7CF8

    M2722101,糸,27425,糸,糸λ,6/126-61,*,*

    M2744800,糸,27425,糸,絲,6@126-61,0-6915,7D72

    M2794400,糸,27425,糸,繭,6/126-62,0-4390,7E6D

    M2746600,糸,27425,糸,見χ,6/127+11,1-5178,7D78

    M2784700,糸,27425,糸,慘ω,6=127+12,1-5246,7E3F

    M2785400,糸,27425,糸,巣χ,6/127+12,1-5248,7E45

    M2780200,糸,27425,糸,▼,6/127+21,*,*

    M2785400,糸,27425,糸,巣χ,6=127+21,1-5248,7E45

    M2797500,糸,27425,糸,繹,6/127+22,0-6972,7E79

    M2763300,糸,27425,糸,緒,6/127+31,0-2979,7DD2

    M2767400,糸,27425,糸,緬,6/127+32,0-4443,7DEC

    M2727400,糸,27425,糸,眄ω,6/127+41,*,*

    M2727700,糸,27425,糸,純,6/127+42,0-2967,7D14

各フィールドの内容は、順に諸橋「大漢和辞典」番号、「大漢和辞典」部首、 「玉篇」の巻数と部首番号、「玉篇」部首、「篆隷万象名義」の掲出字、「篆隷 万象名義」での所在、JIS 区点コード番号、ISO/IEC 10646-1 のコード番号を示 している。

篆隷万象名義データベースの「試作版」と「暫定版」の相違点を整理すると次 のようになる。データの有無を + と - で示す。


(表1)

------------------------------------------------------------

                                      「試作版」 「暫定版」

------------------------------------------------------------

  (1) 諸橋「大漢和辞典」番号               +          +

◎(2) 「大漢和辞典」部首                   -          +

  (3) 「玉篇」の巻数と部首番号             +          +

◎(4) 「玉篇」部首                         -          +

  (5) 「篆隷万象名義」の掲出字             +          +

●(6) 図書寮本「類聚名義抄」との対応       +          -

  (7) 「篆隷万象名義」での所在             +          +

△(8) JIS 区点コード番号                   +          +

◎(9) ISO/IEC 10646-1 のコード番号         -          +

------------------------------------------------------------

「暫定版」で追加したデータに◎、削除したデータに●、注記方法を変更した データに△を付しておいた。

(2) 「大漢和辞典」部首の追加は、ちょっと厄介であった。これは筆者が採っ た方法を後で詳しく述べることにする。

(4) 「玉篇」部首の追加は、「玉篇」部首を一覧したデータを作成しておき、 (3)をキーにして結合(merge)すればよい。joinでもできるし、桐の「併合」の 機能を使ってもよい(dBASEIV、ACCESS、PRADOXなど、リレーショナル・データベ ースと銘打ったソフトであれば、同様の機能が必ずついている)。

(8) JIS 区点コード番号の変更は、JIS X0208/X0212 に無いことを示す4-0000 を * にしたことである。データ量を小さくするためである。

(6) 図書寮本「類聚名義抄」との対応の削除は、このフィールドを出力しなけ ればよいだけである。

(9) ISO/IEC 10646-1 のコード番号の追加は、筆者作成の「Unicode と JIS漢 字ないし諸橋大漢和辞典番号との対照表」を利用する。join と桐の「併合」の機 能を用いてデータの追加を行い、両者の結果を照合し、遺漏無きを期した。

[注]篆隷万象名義データベースの完成版は、できるだけ早い時期に公開した いと考えているが、その際、仕様が変更になる可能性もある。

さて、(2)「大漢和辞典」部首の追加について、少し詳しく述べよう。

篆隷万象名義データベースの点検・校正は未了であり、データを追加・訂正し た後でも簡単に「大漢和辞典」の部首情報を表示しなおせることが望ましい。マ ニュアルで入れたくないので、一括処理できることが条件である。

そこでまず、次のような諸橋「大漢和辞典」各部首の最初と最後の検字番号の 一覧表を作成した。


# radical.txt 「大漢和辞典各部首の最初と最後の検字番号」 94/05/25 池田証寿(c)

# 順に

#   部首,部首番号,部首画数,大漢和巻数,最初の番号,最後の番号,補遺の最初の番号,

#   補遺の最後の番号

# を示す。部首、部首番号、部首画数は、ydicbus.01n(mtoyo氏作)による。

# 大漢和の214部首の中に、JIS X 0208 に無い字がある。これらは、その部首に所属

# する漢字を任意に選んで示す。すなわち

#   たてぼうは、「中」で

#   やまいだれは、「病」で

#   ぐうのあしは、「禹」で

#   しんにゅうは、「述」で

# それぞれ示した。

# 再配付自由。

一,001,1,1,1,66,48903,48904

中,002,1,1,67,90,48905,48905

丶,003,1,1,91,105,,

丿,004,1,1,106,160,48906,48911

乙,005,1,1,161,223,,

亅,006,1,1,224,246,,

(以下、省略。全体は付録を参照)

上のデータに基づき、次のようなの awk のスクリプトを書いた。




# adrdclmr.awk - 諸橋大漢和番号によって部首名を追加(add radical morohashi)

# 1994/05/25 (c)池田証寿

BEGIN { FS = OFS = ",";

        s001 = "M0000100" ; e001 = "M0006699" ; # 一

        s002 = "M0006700" ; e002 = "M0009099" ; # 中

        s003 = "M0009100" ; e003 = "M0010599" ; # 丶

        s004 = "M0010600" ; e004 = "M0016099" ; # 丿

        s005 = "M0016100" ; e005 = "M0022399" ; # 乙

        s006 = "M0022400" ; e006 = "M0024699" ; # 亅

----------------------(中略)----------------------

        s213 = "M4884700" ; e213 = "M4888199" ; # 龜

        s214 = "M4888200" ; e214 = "M4890299" ; # 龠

        s215 = "M4890300" ; e215 = "M4996499" ; # 補遺

}

{

if($1 >gt;= s001 && $1 <= e001  ) {

        print $1,"一",$2,$3,$4,$5,$6 ;

        }

if($1 >= s002 && $1 <= e002  ) {

        print $1,"中",$2,$3,$4,$5,$6 ;

        }

if($1 >= s003 && $1 <= e003  ) {

        print $1,"丶",$2,$3,$4,$5,$6 ;

----------------------(中略)----------------------

if($1 >= s213 && $1 <= e213  ) {

        print $1,"龜",$2,$3,$4,$5,$6 ;

        }

if($1 >= s214 && $1 <= e214  ) {

        print $1,"龠",$2,$3,$4,$5,$6 ;

        }

if($1 >= s215 && $1 <= e215  ) {

        print $1,"補",$2,$3,$4,$5,$6 ; # 補遺

        }

}

篆隷万象名義データベースで諸橋「大漢和辞典」番号の表示方法は、 8桁の固 定長であり、最初の 1桁が諸橋の意の M、次の 5桁が「大漢和番号」、最後の 2 桁が付加情報である。付加情報は、「大漢和辞典」に掲載の無い漢字を、該当す る所属部首の、適切な位置に配列するために必須である。

BEGIN 部分で、まず

BEGIN { FS = OFS = ",";

のようにフィールドの区切子(デリミタ、delimiter)を半角カンマ(,)とし、次 いで、各部首の最初と最後の番号を

s001 = "M0000100" ; e001 = "M0006699" ; # 一

のように変数に代入する。変数の名前は、数字からは始まらない英数字と下線の 列でなければならない。sxxx が最初の番号、exxx が最後の番号である。xxx に は数字が入り、これは部首番号を採る。

スクリプトの本体では、

if($1 >= s001 && $1 <= e001 ) { print $1,"一",$2,$3,$4,$5,$6 ; }

のような処理をしている。ここでは、篆隷万象名義データベースの第1のフィール ド($1、諸橋「大漢和辞典」番号が入っている)を文字列として比較し、「一」 部の最初の番号以上であり、かつ「一」部の最後の番号以下であれば、第2フィー ルドに「一」を出力するという具合である。

これは、一見して判るように

という欠点がある。データエラーの処理が無い点は、どのみち篆隷万象名義デー タベース全体に対してデータエラーが無いかどうか、チェックしなければならな いので、これは後回しにした。

処理に要する時間が長いのは、かなり気に掛るところで、もう少しエレガント なやり方がありそうなものであるが、思い浮かばなかった。もっとも、処理が遅 いといっても、CPU が i486DX2 の 66MHz、ハードディスクが IDE の 360MB の DOS/V マシンで処理して数分であった。awk はもともと遅いし(とくれば「英和 辞典の gawk の項を見よ」が決まり文句)、20,000件以上ある篆隷万象名義デー タベースの処理としてまあまあのところかもしれない。

[注] awk については以下の文献を参照されたい。
A.V.エイホ他著(足立高徳訳)「プログラミング言語 AWK 」(トッパン、 1989年)
JALLC の会報にも awk に関連した有益な論説が多い。

では、諸橋「大漢和辞典」部首と「玉篇」部首の情報を追加すると、どのよう な利点があるであろうか。例えば、次のデータを眺めて欲しい。


大漢和番号  大漢和部首  玉篇  玉篇部首  掲出字  所在        JIS      ISO10646

M0092791        人      03023   人      胄χ    1/065-52    *           *

M0089800        人      03023   人      偵      1/065-61    0-3669      5075

M0130400        人      03023   人      ▼      1/065-62    *           5136

M0049500        人      03023   人      但      1/066+11    0-3502      4F46

M0089200        人      03023   人      哀χ    1/066+12    *           506F

M0969800        弓      03023   人      弔      1/066+21    0-3604      5F14

M0058200        人      03023   人      夷χ    1/066+22    *           4F87

M0113400        人      03023   人      棘χ    1/066+31    *           50F0

M0111300        人      03023   人      僥      1/066+32    0-4907      50E5

M0059200        人      03023   人      侏      1/066+41    0-4845      4F8F

M0040100        人      03023   人      今χ    1/066+42    1-1644      4EF1

M0076400        人      03023   人      戻χ    1/066+51    *           *

ここでは「篆隷万象名義」人部からその一部分を抜出し、デリミタを半角カン マから半角スペースに変えて少し見やすいようにした。また注文の中の異体字も 篆隷万象名義データベースには採録してあるが、これは削除して示した。

JIS X0208 にある漢字は全体として少なく、部首情報を示すことで、掲出字が どのような字形なのか、判断を容易にしてくれる。これが第一の利点である。

第二の利点は、漢字字書によって所属部首を異にする漢字を抽出することがで きるという点である。上の例を見ると、「弔」字がそれで、諸橋「大漢和辞典」 では、弓部に所属しているが、「篆隷万象名義」(=「玉篇」)では人部に所属 している。「弔」字は、「説文解字」(後漢・許慎)で人部に所属し、「人」と 「弓」の会意の字である。「玉篇」は「説文解字」を踏襲したのである。このよ うに漢字字書によって所属の部首を異にする例が少なからず存し、そのような例 の処理の仕方に、それぞれの漢字字書の学問的な姿勢や引きやすさの工夫を読み 取ることができる。

[注]「弔」字は観智院本「類聚名義抄」で、人部に所属しており、これに関 して山田健三氏に鋭い解釈があった。詳しくは氏の「観智院本類聚名義抄 の凡例と部首立てについて」(国語学176集、1994年3月)を参照されたい。

7 漢字字書データベースの応用

篆隷万象名義データベースは、古字書の研究に役立てるために作成したもので あるが、JIS X0212(補助漢字)のコード番号や、ISO/IEC 10646-1のコード番号 も追加するに及んで、多方面に応用が利くことが判ってきた。

「篆隷万象名義」に掲出される漢字は、その依拠した「玉篇」に存在していた ということである。「玉篇」三十巻は、梁・顧野王の撰、大同九年[543]の成立。 以後、隋、唐における標準的な字書の位置を占める。日本の古代・中世も中国と 同様で、「玉篇」が漢字字書の基準であった。「玉篇」を基準として各時代に編 纂された中国・日本の漢字字書をデータベース化し、さらに各種文献の漢字の頻 度表を追加すれば、どの時代に、どの地域で、どれだけの漢字が用いられていた か、具体的に証明できる。そのためには、異体字の処理をはじめとして難問が山 積みであるが、このような研究分野(漢字使用の記述的研究)は、それを開拓し ていくだけの価値が充分にある。

また、近時、漢字コードの国際標準化の動きが急速に進展している。そうした 状況に対して、JIS 漢字の欠陥や Unicode における Han-unification の不備を 論うだけでよいとは思われない。文字は人類の文化そのものであり、その遺産を 後世に伝える責務が現代の我々にはある。ISO/IEC 10646-1のJIS化は既定の方針 だが、その内容を様々な観点から検討しておくことは決して無駄にならない。

そこで、ここでは一、二の基本的データを挙げてみたいと思う。

まず、JIS X0208/X0212 と ISO/IEC 10646-1でどれだけの漢字が処理できるの か、これを「篆隷万象名義データベース暫定版」について調べた結果を次に掲げ る。


(表2)

---------------------------------------------------------

(1) JIS X0208 の第一水準に有り             2,336 (14.26%)

(2) JIS X0208 の第二水準に有り             2,375 (14.49%)

(3) JIS X0212(補助漢字)に有り            3,470 (21.18%)

(4) JIS X0208/0212 に無し、ISO10646に有り  2,574 (15.71%)

(5) JIS X0208/0212 に無し、ISO10646に無し  5,632 (34.37%)

---------------------------------------------------------

合計                                      16,387

---------------------------------------------------------



[注]目録部分を除く。

JIS X0208 で約三割、JIS X0208/X0212 で約五割、ISO/IEC 10646-1 で約六割 五分というところである。20,000 字以上の漢字を有する ISO/IEC 10646-1 でも 「篆隷万象名義」の掲出漢字のすべてを処理することができない。外字の作成も 個人レベルでは事実上不可能である。

次に観点を替えて、JIS X0208/X0212 と ISO/IEC 10646-1 の漢字の中で、「篆 隷万象名義」にある漢字がどれだけあるのか、これを調べてみよう。


(表3)

-----------------------------------------

JIS X0208-1990       4,612/6,355 (72.57%)

JIS X0212-1990       3,398/5,801 (58.58%)

JIS X0208/0212       8,010/12,156(65.89%)

ISO/IEC 10646-1     10,541/20,902(50.43%)

-----------------------------------------

例えば、JIS X0208-1990 には、6,355字の漢字があるが、この中で「篆隷万象 名義」に見える漢字は、4,612字、全体の約七割を占める。JIS X0212 は、約六割、 JIS X0208 と JIS X0212 との合計では、六割五分である。

[注]「篆隷万象名義」には、脱落している掲出字が若干あるとみられるし、 異体字の数えかたによって比率はもう少し上がるであろう。

JIS X0208 が七割、JIS X0212 が約六割で、両者の比率に一割以上の開きがあ る。JIS X0208の比率が高い点から、基本的な漢字は「篆隷万象名義」以後あまり 変っていないことが推測される。JIS X0212 の比率が低い点は、その内容を詳し く検討していないので、憶測は慎んでおきたい。

一方、ISO/IEC 10646-1 では、約五割を占める。「篆隷万象名義」の全掲出字 が約16,00字であること、ISO/IEC 10646-1 には中国の簡体字が大量に含まれるこ となどを考えあわせると、決して低い比率ではない。

参考までに、中国、台湾、日本、韓国の規格の中に「篆隷万象名義」の漢字が どれくらいあるか、概算した結果を対照して次に掲げる。


(表4)

-----------------------------------------

中国(GB)           9,532/17,124(55.73%)

台湾(CNS)         10,169/17,248(58.92%)

日本(JIS)          8,010/12,156(65.89%)

韓国(KSC)          5,662/7,476 (75.74%)

-----------------------------------------

[注]中国(GB)は以下のサブセットによる。

      GB 2312-80

      GB 12345-90 with 58 Hong Kong and 92 Korean "Idu" characters

      GB 7589-87 unsimplified forms

      GB 7590-87 unsimplified forms

      General Purpose Hanzi list for Modern Chinese language

      GB 8565-89

    台湾(CNS)は以下のサブセットによる。

      TCA-CNS 11643 1st plane with some additional characters

      TCA-CNS 11643 2nd plane

      TCA-CNS 11643 14th plane with some additional characters

    韓国(KSC)は以下のサブセットによる。

      KSC 5601-1987

      KSC 5657-1991

おおむね六割から七割程度の漢字が、すでに「篆隷万象名義」(=「玉篇」) に存在していたことが分かる。では、各国のコード表にあって「篆隷万象名義」 に見えない漢字は、どのような性格の漢字なのであろうか。このようなテーマは 大変興味深いものであるが、それを検証するデータを充分に有していない。この 点は今後の課題としておこう。

次に、ISO/IEC 10646-1 の漢字表で、実際の文献(漢字字書以外)がどの程度 まで処理できるか、この問題について若干の調査を行った研究があるので紹介し ておきたい。すなわち、

という論文である。王氏の論文での調査対象は、日本書紀、続日本紀、法華経、 史記、文選の五つの文献であり、結果は次の通りである。数字は異なり字数であ る。


(表5)

----------------------------------------------------------------------

            JIS X 0208-1990     JIS X 0212-1990      ISO/IEC 10646-1

----------------------------------------------------------------------

日本書紀   3,115/3,534(88.1%)    303/3,534( 8.6%)   3,461/3,534(97.9%)

続日本紀   2,951/3,123(94.5%)    151/3,123( 4.8%)   3,112/3,123(99.6%)

法 華 経   1,618/1,748(92.6%)    105/1,748( 6.0%)   1,735/1,748(99.3%)

史    記   3,543/4,883(72.6%)    957/4,883(19.6%)   4,750/4,883(97.3%)

文    選   4,321/6,917(62.5%)  1,670/6,917(24.1%)   6,579/6,917(95.1%)

----------------------------------------------------------------------

例えば、日本書紀には異なり字数で 3,534字の漢字が用いられていて、そのう ち JIS X 0208 にある漢字が 3,115 字、日本書紀の異なり字数の全体の 88.1% を占める。

確かに、ISO/IEC 10646-1 はかなりの漢字をカバーしている。しかし、たとえ ISO/IEC 10646-1 の文字をすべて用いることのできるコンピュータが使えるよう になったとしても、それによって上記の五書のデータをすべて処理することはで きない。「外字」の作成が必須となる。上記の五書はいずれも著名な古典で印刷 される機会も多い。こうした古典の漢字をサポートした文字表をなんらかの形で 実現して欲しいものである。いや、本当は実現しなければならないというべきな のである。

8 終わりに

国語学会の平成五年度秋季大会(北海道大学学術交流会館、1993年10月30日) において、「電子化テキストの国際的共有」(コンヴィナー:豊島正之氏)と題 するテーマ別研究発表会があった。発表者名と題目を記すと次の通りである。

文字コードに関しては、豊島氏と芝野氏の発表が有益であり、本稿にも当然引 用すべきなのであるが、まだ活字化されていないので、言及を控えることとした (「国語学」178集〈1994年9月刊予定〉に掲載の由)。

また、筆者も発表の機会を与えられ、篆隷万象名義データベースに関して、そ の作成の目的、作成上の問題点、古字書研究への応用などを述べた。本稿では、 その後の調査・考察などを加味し、「漢字字書データベース」という観点から私 見をまとめたものである。

漢字字書データベースに関する研究・調査は未開拓である。コンピュータに強 く、古文献にも明るい研究者がこの分野に参入されることを期待したい。 (1994年5月30日)

9 付録

jgawk と yax.bat を用いて次のようにするか、エディタなどで切出して下さい。

jgawk -f yax.bat このファイル名

------^ radical.txt

# radical.txt 「大漢和辞典各部首の最初と最後の検字番号」 94/05/25 池田証寿(c)

# 順に

#   部首,部首番号,部首画数,大漢和巻数,最初の番号,最後の番号,補遺の最初の番号,

#   補遺の最後の番号

# を示す。部首、部首番号、部首画数は、ydicbus.01n(mtoyo氏作)による。

# 大漢和の214部首の中に、JIS X 0208 に無い字がある。これらは、その部首に所属

# する漢字を任意に選んで示す。すなわち

#   たてぼうは、「中」で

#   やまいだれは、「病」で

#   ぐうのあしは、「禹」で

#   しんにゅうは、「述」で

# それぞれ示した。

# 再配付自由。

一,001,1,1,1,66,48903,48904

中,002,1,1,67,90,48905,48905

丶,003,1,1,91,105,,

丿,004,1,1,106,160,48906,48911

乙,005,1,1,161,223,,

亅,006,1,1,224,246,,

二,007,2,1,247,285,,

亠,008,2,1,286,343,48912,48914

人,009,2,1,344,1335,48915,48924

儿,010,2,1,1336,1414,48925,48930

入,011,2,1,1415,1449,,

八,012,2,2,1450,1505,48931,48931

冂,013,2,2,1506,1564,48932,48935

冖,014,2,2,1565,1606,,

冫,015,2,2,1607,1736,,

几,016,2,2,1737,1799,,

凵,017,2,2,1800,1844,48936,48936

刀,018,2,2,1845,2287,48937,48941

力,019,2,2,2288,2492,48942,48944

勹,020,2,2,2493,2569,,

匕,021,2,2,2570,2594,48945,48947

匚,022,2,2,2595,2671,,

匸,023,2,2,2672,2694,48948,48949

十,024,2,2,2695,2773,48950,48950

卜,025,2,2,2774,2835,48951,48951

卩,026,2,2,2836,2889,48952,48952

厂,027,2,2,2890,3056,48953,48955

厶,028,2,2,3057,3114,48956,48959

又,029,2,2,3115,3226,48960,48968

口,030,3,2,3227,4674,48969,48985

囗,031,3,3,4675,4866,48986,48987

土,032,3,3,4867,5637,48988,49001

士,033,3,3,5638,5690,49002,49003

夂,034,3,3,5691,5707,,

夊,035,3,3,5708,5748,49004,49004

夕,036,3,3,5749,5830,49005,49007

大,037,3,3,5831,6035,49008,49012

女,038,3,3,6036,6929,49013,49019

子,039,3,3,6930,7053,49020,49022

宀,040,3,3,7054,7410,49023,49030

寸,041,3,4,7411,7472,49031,49031

小,042,3,4,7473,7537,49032,49032

尢,043,3,4,7538,7628,49033,49042

尸,044,3,4,7629,7824,49043,49044

屮,045,3,4,7825,7868,49045,49046

山,046,3,4,7869,8668,49046,49062

巛,047,3,4,8669,8713,49063,49065

工,048,3,4,8714,8741,,

己,049,3,4,8742,8770,49066,49066

巾,050,3,4,8771,9164,49067,49071

干,051,3,4,9165,9188,49072,49073

幺,052,3,4,9189,9220,49074,49075

广,053,3,4,9221,9565,49076,49078

廴,054,3,4,9566,9582,,

廾,055,3,4,9583,9655,49079,49082

弋,056,3,4,9656,9691,,

弓,057,3,4,9692,9907,49083,49087

彑,058,3,4,9908,9961,49088,49091

彡,059,3,4,9962,10036,,

彳,060,3,4,10037,10294,49092,49092

心,061,4,4,10295,11529,49093,49118

戈,062,4,5,11530,11695,49119,49124

戸,063,4,5,11696,11767,49125,49125

手,064,4,5,11768,13060,49126,49140

支,065,4,5,13061,13107,49141,49141

攴,066,4,5,13108,13449,49142,49147

文,067,4,5,13450,13488,,

斗,068,4,5,13489,13533,,

斤,069,4,5,13534,13619,49148,49148

方,070,4,5,13620,13715,,

旡,071,4,5,13716,13732,,

日,072,4,5,13733,14277,49149,49156

曰,073,4,5,14278,14329,49157,49157

月,074,4,5,14330,14414,49158,49158

木,075,4,6,14415,15990,49159,49191

欠,076,4,6,15991,16252,49192,49193

止,077,4,6,16253,16358,49194,49197

歹,078,4,6,16359,16612,49198,49198

殳,079,4,6,16613,16720,49199,49200

毋,080,4,6,16721,16742,,

比,081,4,6,16743,16771,49201,49202

毛,082,4,6,16772,17025,49203,49203

氏,083,4,6,17026,17042,49204,49204

气,084,4,6,17043,17082,49205,49205

水,085,4,6,17083,18849,49206,49242

火,086,4,7,18850,19652,49243,49272

爪,087,4,7,19653,19720,49273,49276

父,088,4,7,19721,19736,,

爻,089,4,7,19737,19757,,

爿,090,4,7,19758,19812,49277,49281

片,091,4,7,19813,19908,49282,49282

牙,092,4,7,19909,19921,,

牛,093,4,7,19922,20233,49283,49290

犬,094,4,7,20234,20813,49291,49298

玄,095,5,7,20814,20820,,

玉,096,5,7,20821,21370,49299,49319

瓜,097,6,7,21371,21437,49320,49321

瓦,098,5,7,21438,21642,49322,49327

甘,099,5,7,21643,21669,,

生,100,5,7,21670,21702,49328,49328

用,101,5,7,21703,21722,49329,49330

田,102,5,7,21723,21993,49331,49343

疋,103,5,7,21994,22014,49344,49345

病,104,5,7,22015,22656,49346,49352

癶,105,5,7,22657,22677,49353,49353

白,106,5,8,22678,22822,49354,49355

皮,107,5,8,22823,22940,49356,49359

皿,108,5,8,22941,23104,49360,49361

目,109,5,8,23105,23845,49362,49384

矛,110,5,8,23846,23928,49385,49385

矢,111,5,8,23929,24023,49386,49386

石,112,5,8,24024,24622,49387,49397

示,113,5,8,24623,24883,49398,49405

禹,114,5,8,24884,24905,,

禾,115,5,8,24906,25405,49406,49411

穴,116,5,8,25406,25720,49412,49417

立,117,5,8,25721,25840,49418,49423

竹,118,6,8,25841,26831,49424,49456

米,119,6,8,26832,27220,49457,49466

糸,120,6,8,27221,28107,49467,49496

缶,121,6,9,28108,28198,49497,49498

网,122,6,9,28199,28424,49499,49506

羊,123,6,9,28425,28613,49507,49514

羽,124,6,9,28614,28841,49515,49520

老,125,6,9,28842,28870,,

而,126,6,9,28871,28897,,

耒,127,6,9,28898,28998,,

耳,128,6,9,28999,29214,49521,49523

聿,129,6,9,29215,29235,49524,49524

肉,130,6,9,29236,30067,49525,49555

臣,131,7,9,30068,30094,49556,49556

自,132,6,9,30095,30141,49557,49557

至,133,6,9,30142,30172,49558,49558

臼,134,6,9,30173,30276,49559,49570

舌,135,6,9,30277,30337,,

舛,136,6,9,30338,30349,49571,49573

舟,137,6,9,30350,30595,49574,49576

艮,138,6,9,30596,30601,,

色,139,6,9,30602,30637,,

艸,140,6,9,30638,32673,49577,49677

虍,141,6,9,32674,32803,49678,49678

虫,142,6,10,32804,33963,49679,49700

血,143,6,10,33964,34028,49701,49702

行,144,6,10,34029,34090,,

衣,145,6,10,34091,34761,49703,49710

襾,146,6,10,34762,34795,49711,49712

見,147,7,10,34796,35002,49713,49715

角,148,7,10,35003,35204,49716,49719

言,149,7,10,35205,36181,49720,49729

谷,150,7,10,36182,36244,,

豆,151,7,10,36245,36333,,

豕,152,7,10,36334,36495,49730,49732

豸,153,7,10,36496,36655,49733,49734

貝,154,7,10,36656,36992,49735,49741

赤,155,7,10,36993,37033,49742,49742

走,156,7,10,37034,37364,49743,49745

足,157,7,10,37365,38033,49746,49753

身,158,7,10,38034,38171,,

車,159,7,10,38172,38629,49754,49763

辛,160,7,10,38630,38681,,

辰,161,7,10,38682,38699,,

辺,162,7,11,38700,39268,49764,49773

邑,163,7,11,39269,39762,49774,49786

酉,164,7,11,39763,40114,49787,49795

釆,165,7,11,40115,40130,49796,49799

里,166,7,11,40131,40151,49800,49802

金,167,8,11,40152,41099,49803,49835

長,168,8,11,41100,41207,49836,49837

門,169,8,11,41208,41533,49838,49845

阜,170,8,11,41534,41922,49846,49850

隶,171,8,11,41923,41936,,

隹,172,8,11,41937,42209,49851,49865

雨,173,8,12,42210,42563,49866,49871

青,174,8,12,42564,42584,49872,49872

非,175,8,12,42585,42617,,

面,176,9,12,42618,42709,49873,49875

革,177,9,12,42710,43107,49876,49881

韋,178,9,12,43108,43235,,

韭,179,9,12,43236,43264,49882,49882

音,180,9,12,43265,43332,,

頁,181,9,12,43333,43755,49883,49894

風,182,9,12,43756,43999,49895,49895

飛,183,9,12,44000,44013,,

食,184,9,12,44014,44488,49896,49899,#川幡太一@NTTさんのご指摘により、修正。1998/07/08

首,185,9,12,44489,44517,49900,49901

香,186,9,12,44518,44571,,

馬,187,10,12,44572,45097,49902,49909

骨,188,10,12,45098,45312,49910,49911

高,189,10,12,45313,45354,49912,49912

髟,190,10,12,45355,45631,49913,49914

鬥,191,10,12,45632,45660,,

鬯,192,10,12,45661,45671,49915,49917

鬲,193,10,12,45672,45757,49918,49921

鬼,194,10,12,45758,45955,49922,49923

魚,195,11,12,45956,46633,49924,49927

鳥,196,11,12,46634,47527,49928,49942

鹵,197,11,12,47528,47585,49943,49943

鹿,198,11,12,47586,47716,49944,49947

麦,199,11,12,47717,47886,49948,49949

麻,200,11,12,47887,47925,,

黄,201,11,12,47926,47990,49950,49950

黍,202,12,12,47991,48037,49951,49954

黒,203,11,12,48038,48247,49955,49958

黹,204,12,12,48248,48256,,

黽,205,13,12,48257,48314,49959,49960

鼎,206,13,12,48315,48329,,

鼓,207,13,12,48330,48389,,

鼠,208,13,12,48390,48497,49961,49961

鼻,209,14,12,48498,48559,,

齊,210,14,12,48560,48582,,

齒,211,15,12,48583,48817,49962,49964

龍,212,16,12,48818,48846,,

龜,213,16,12,48847,48881,,

龠,214,17,12,48882,48902,,

------$ radical.txt




[→このページの最初] [→雑文] [→JIS漢字] [→古辞書] [→ホームページ]
池田 証寿(いけだ しょうじゅ) Copyright (C) 1994,1998,2001 IKEDA Shoju, All rights reserved.
E-mail shikeda@Lit.Let.hokudai.ac.jp/KGH01365@nifty.ne.jp