※川幡太一@NTTさんのご指摘により、付録のradical.txtを修正。1998/07/08
※HTML形式にして見やすく直した。どれだけの読者がいるか分からないが、過去の記録です。 2001/05/17

漢字字書データベースの作成とその利用

池田証寿（信州大学人文学部） shikeda@gipac.shinshu-u.ac.jp

［内容］

１漢字字書データベースとその種類

２情報処理のための文字表に採用された漢字についてのデータベース

３漢字字書の掲出漢字と注文についてのデータベース

４漢字字書データベース作成のためのソフトウェア

５漢字字書データベースの公開の意義

６漢字字書データベースの拡張

７漢字字書データベースの応用

８終わりに

９付録

１漢字字書データベースとその種類

漢字字書データベースとは、各種漢字字書掲載の漢字について、その字体・字形、字（辞）書における所在、所属部首、総画数、部首内画数、情報処理のための文字表の種類とそのコード番号、などに関する情報を得ることができるデータベースとする。

[注]広義には、各種の漢字文献に用いられた漢字の頻度表も、漢字字書データベースに含めることができよう。しかし、本稿では、上記の意味に狭く限定して用いることにする。

本稿では、漢字字書データベースの種類を次の二種に分けて考えてみたい。

情報処理のための文字表に採用された漢字についてのデータベース
漢字字書の掲出漢字と注文についてのデータベース

２情報処理のための文字表に採用された漢字についてのデータベース

日本のコンピュータのための文字コード表は、現在

JIS X0208-1990 情報交換用漢字符号

であり、これには

第一水準漢字集合 2,965字
第二水準漢字集合 3,390字

のあわせて、6,355字の漢字が含まれている（以下、JIS X0208 と略すことがある）。

また、

JIS X0212-1990 情報交換用漢字符号－補助漢字

では、5,801字の漢字が含まれている（以下、JIS X0212 と略すことがある）。しかし、JIS X0212を利用するには、ユーザ定義文字（外字）として利用するなどの方法を採らねばならず、事実上、日本のコンピュータに採用されなかった規格である。

[注]JIS 漢字については、旧JIS（JIS C6226-1978）と新JIS（JIS X0208）とで字体の入替えや変更を行っているなど、さまざまな問題がある。が、本稿では、JIS漢字そのものの問題点を論ずることはしない。

JIS X0208 に採用された漢字 6,350 余字を一覧し、その JIS コード番号、現代通行の漢和辞典の検字番号、部首、画数などの情報を表示したコンピュータ用の漢字字書には、以下のものがある。

YDIC 豊島正之・金水敏・古田啓の三氏の作
KANJIDIC Jim Breen 氏（Monash University）作

YDIC は、PCVAN の ORIENT で公開されており、JALLC（情報処理語学文学研究会）会員には、知る人が多いであろう。筆者がよく利用するのは、

YDICCHR 01N 142652 88-09-13 10:37

である。これは、JIS X0208-1983 の漢字について、その所属部首、その部首の画数、部首内画数、総画数、「新字源」（角川書店、常用漢字版）番号、諸橋「大漢和辞典」（大修館書店、旧版、索引篇所載の補遺は除く）番号を得ることができる（四角号碼付 Ydicなどもある）。

KANJIDIC は、internet 上に公開されており、anonymous FTP で入手が可能である（ monu6.cc.monash.edu.au の /pub/nihongo や ftp.phys.keio.ac.jp の /pub/misc など）。JIS X0208 の漢字の所属部首、部首画数、諸橋「大漢和辞典」番号、四角号碼、現代中国語の標準音（ PinYin ）、「新漢英字典」（研究社、 Jack Halpern 著）番号、「ネルソン最新漢英辞典」（タトル出版）番号、 Unicode の16進コードなどの情報を得ることができる。もちろんこれらのデータのすべてを作者の Jim Breen 氏が作成したわけではない。例えば諸橋「大漢和辞典」と四角号碼は Urs APP 氏（花園大学）の提供したデータの基づいている。

YDIC や KANJIDIC 以外にも公開された JIS の漢字字書データベースがあると思われし、未公開のものもかなりあるであろう。同種のものであっても、解釈が問題になることはあり、データの仕様も当然異なるであろうから、公開されることが望ましいと思う。

例えば、「垈（ぬた）」の諸橋「大漢和辞典」番号を、YDIC、KANJIDIC ともに 5056 とするが、5056 は「垈」の「代」を「伐」に作る字である。「垈」は「大漢和辞典」に見えない。もちろん、このような例があるからといって、YDIC や KANJIDIC の価値はいささかも減じない。情報公開の姿勢こそ高く評価されるべきで、利用者はそれに応える責務があろう。

補助漢字（JIS X0212）については、筆者が作成したものがあり、JALLC のテキストアーカイブに登録済みである。JIS 補助漢字の区点番号と「大漢和辞典」番号の情報を得ることができる。

多国語に対応したコンピュータのための文字コード表に、Unicode がある。この規格で同一の漢字は、同じコードポイントが宛てられており、各国（中・台・日・韓）の漢字コード表の統合が実現している。Unicode は、ISO/IEC 10646-1 の BMP（Basic Multilingal Plane）に採用され、そのJIS化の公開レビューも終了している。

[注]詳しくは、以下の規格書を参照。

ISO/IEC 10646-1:1993 Information Technology - Universal Multi- Octet Coded Character Set (UCS) - Part 1: Architechture and Basic Multilingual Plane. 1993.
The Unicode Consortium. The Unicode Standard: Worldwide Character Encoding Version 1.0, Volume 1-2. Addison-Wesley. 1991-92.
ISO/IEC 10646-1 は日本規格協会（FAX:03-3586-2029）から入手できる。

Unicode と ISO/IEC 10646-1 における統合漢字（Han-unification）に関しては、賛否両論がある。またこれがJIS化されたからといって一般に普及するかどうかは、分からない。Microsoft の WindowsNT は内部コードとして Unicode を採用するが、その日本語版で標準で使える漢字は JIS X0208 の範囲内である。しかし、中国・台湾・日本・韓国の漢字コードが統合された表は、これを漢字字書として見た時、すこぶる興味深いものである。Unicode,Inc. からは Unicode と他漢字コードとの対照マップ（CJKXREF.FIX）が公開されており、これは漢字字書データベースと呼んでも差し支えないであろう。CJKXREF.FIXは anonymous FTP で入手可能。unicode.org(IP Address 192.195.185.2)。

ところで、Unicode と他漢字コードとの対照マップ（CJKXREF.FIX）には、字形情報は表示されない。また、Unicode に JIS X0208 と JIS X0212 はすべて含まれるが、この二つの規格に無い漢字で、Unicode にある漢字がどのような漢字なのか、簡単に知ることができない。そこで、JIS X0208 部分は YDIC を利用し、 JIS X0212 部分は拙作の補助漢字データ（JISH.DAT）を用いて諸橋「大漢和辞典」番号を付し、さらに JIS X0208/0212 に無い漢字は「大漢和辞典」と照合してその番号を付したデータを作成した。これを

「Unicode と JIS漢字ないし諸橋大漢和辞典番号との対照表」

と名付け、日経 mix の fp/archive の63-66番にアップした。

情報処理のための文字表に採用された漢字のデータベースは、文字表の漢字について種々の情報を示したものである。そのデータベースで、画数を算定したり、漢和辞典の番号付けを行う際の基準は、文字表に示された字形である。

３漢字字書の掲出漢字と注文についてのデータベース

漢字字書は、狭い意味で、単漢字を見出し字（掲出字）として、その字形・発音・意味などを記した字書をいうこととする。具体的には、中国の「説文解字」（後漢・許慎）、「玉篇」（梁・顧野王）、「康煕字典」（清・張玉書等）のような字書、及び「広韻」（宋・陳彭年等）のような韻書である。掲出字に異体字の併記を主体とする「干禄字書」（唐・顔元孫）もこれに含まれよう。日本の漢字字書としては、「篆隷万象名義」（弘法大師空海[774-835]撰）、「新撰字鏡」（昌泰年中[89801]成立、昌住撰）、原本系「類聚名義抄」（院政初期成立、法相・真言を兼学する僧侶か）、広益本「類聚名義抄」（院政末か鎌倉初期成立、真言宗の僧侶か）などの古字書をはじめとして、諸橋「大漢和辞典」（大修館）、「新字源」（角川書店）などの現代通行の漢和辞典までが含まれる。

[注]広義には、熟語中心の辞書を含めることになるが、ここではそこまで考えない。

さて、「康煕字典」については、勝村哲也氏の「漢籍の情報処理に於ける電子漢字の効用」（学術情報センターニュースNo.22、1992年12月）によると、京都大学で作成した「康煕字典文字セット」49,188字がある由だが、詳しい情報を得ていない。

日本の漢字字書である「類聚名義抄」（院政期、撰者未詳）については、データベースの試みが既になされている。田島毓堂氏の「類聚名義抄の注釈的研究－電算機利用による－」（平成元年度科学研究費報告書63301058、1990年3月）がそれで、広益本系「類聚名義抄」の一伝本である蓮成院本「類聚名義抄」をデータベース化している。注文の解読に力を注いでいるのが特徴である。JIS X0208 に無い漢字は「現段階は検討段階にあるので、とりあえず「○」をいれておく」とする。処理の困難さがうかがえる。漢字索引、字体注記索引、和訓索引、仮名音注索引、反切索引、和音注索引、義注索引などからなる由である。報告書には字体注記索引が掲載されている。全体の完成とその公開が期待される。

現代の漢和辞典に基づく漢字字書データベースとしては、田嶋一夫氏の漢字シソーラスが有名である（「漢字シソーラスの構想と課題」（日本語学3-3 明治書院、1984年3月など）。「大漢和辞典」の異体字情報をデータベース化したもので、将来の文字コードで異体字の統合が必須であることを念頭においた研究であり、その着想は画期的であると思う。問題点を敢えて指摘すれば、その依拠した資料が「大漢和辞典」という二次資料であることであろう。「大漢和辞典」とて完璧ではなく、特に使用頻度の少なく、単一の出典による用例には注意が必要である。

[注]諸橋「大漢和辞典」の編纂過程や問題点については、原田種成氏の「漢文のすゝめ－諸橋『大漢和』編纂秘話－」（新潮社、1992年）が詳しい。

次に、筆者作成のデータで、JALLC のテキストアーカイブに登録したのは、以下の二つである。

「図書寮本類聚名義抄掲出字索引」
「篆隷万象名義データベース試作版［図書寮本類聚名義抄対応］」

図書寮本の「類聚名義抄」は、原本系「類聚名義抄」唯一の伝本である。零本であるが、辞書史、漢文訓読史、日本漢字音史、アクセント史、語彙史の上で、その資料的価値は極めて高く評価されている。「図書寮本類聚名義抄」の掲出字の索引には、酒井憲二氏の「図書寮本類聚名義抄漢字索引」（訓点語と訓点資料 47、1972年。「図書寮本類聚名義抄」勉誠社、1976年に再録）がある。筆者は酒井氏とは別個に索引を作成し、いったんできあがったデータを酒井氏の「漢字索引」と照合して、筆者の誤認を訂正するという方法を採用した。

「篆隷万象名義」は、弘法大師空海（774-835）の撰にかかり、顧野王の「玉篇」をダイジェストした漢字字書である。「玉篇」は古代中世の日本の文芸・学問に多大の影響力をもった中国の漢字字書であるが、僅かにその残巻を残すに過ぎない。「玉篇」の姿をダイジェストしたかたちであるにしろ忠実に伝える点に「篆隷万象名義」の存在価値がある。また「篆隷万象名義」は「類聚名義抄」の根幹資料となるなど日本の辞書史に占める意義は大きい。

この二つの漢字字書データベースは、古字書の掲出漢字について、不充分ながらその字体情報を表示しており、この点に田島毓堂氏の蓮成院本類聚名義抄のデータベースや、田嶋一夫氏の漢字シソーラスに無い特色がある。

古字書の漢字索引を作成する場合、異体字の類をいったん「康煕字典」の字体に直した上で配列していく。異体字のままでは、通行の漢和辞典に掲載の無い字が多く、一定の基準により配列することは困難だからである（音によるという方法もあるが、その文献における音を確定するのは相当に難しいのである）。

したがって、「大漢和辞典」番号を付ける場合には、古字書に用いられる異体字の類をいったん「康煕字典体」に直し、その康煕字典体に同一か、ほとんど同じ字体のJIS X0208の漢字を宛てることになる。篆隷万象名義データベースでは、諸橋「大漢和辞典」番号に対応する「大漢和辞典」の字体が、筆者の「篆隷万象名義」の掲出漢字の解釈結果である。もちろんJIS X0208 の漢字を添えるが、その字体と諸橋「大漢和辞典」の字体に小異がある場合（しんにゅうの点が一つなのか、二つなのかなど）は、諸橋「大漢和辞典」の字体が優先されるという方針で作成したのである。

４漢字字書データベース作成のためのソフトウェア

次には、筆者がどのような手順で上記の漢字字書データベースを作成したのかを述べるべきかもしれない。しかし、正直いって具体的な手順の詳細は忘れてしまっている。また、付属の説明書を見てもらえば、どのようにして作成したか、おおよそ検討がつくかとも思う。そこで、ここでは、漢字字書データベースを作成する際に用いたソフトウェアについて述べることにする。

筆者が漢字字書データベースを作成するにあたって用いた市販のソフトウェアは次のものである。

Vzエディタ（ビレッジセンター）エディタ
松（管理工学研究所）ワードプロセッサー
桐（管理工学研究所）データベース管理システム

いずれもMS-DOSで、よく使われているものである。Vzは文書作成とデータの修正用、松はもっぱら印刷用、桐はデータの入力用である（コンピュータを使ったことの無い学生に入力のアルバイトを依頼した時には、Macintosh ClassicII を利用した。ワープロで数字データのみ入力）。ワードプロセッサー松の FEPである松茸も使っているが、これは単漢字変換が早く、選択画面で表示される字数が ATOK や VJE よりも多いので、漢字字書のデータの入力・校正に愛用している。

フリーウェアでは、以下のソフトを主に用いている。

bu（管理工学研究所作）バックアップ
comm（kon_yasu氏作）二つのファイルの比較
fin（SYOHEI氏）テキスト・フォーマッター
jgawk（FSF製、serow氏補綴）プログラミング言語awk
join（MASSAN氏作）二つのファイルを関係付けて結合
lha（吉崎栄泰氏作）高圧縮書庫管理
putdic（太郎冠者氏）漢字辞書用ユーティリティ
sed（FSF製、serow氏補綴） sed 日本語版
sortf（mtoyo氏作）フィールド対応高速ソート

sortf、join、jgawkがあれば、市販のデータベースソフトの桐などいらないようなものである。しかし、sortf、join、jgawkで、自分の思ったとおりにデータを処理できないこと、あるいは処理の結果に自信の無いことがあり、そうした場合に、桐を併用している。桐で処理してテキストデータに書き出したり、桐の上で処理の結果の確認をしたりするのである。

篆隷万象名義データベースは、テキストファイルで現在876,766バイトあるが、これを桐に読み込んで、ソートをかけたりすると軽く1MBを超えてしまい、フロッピーディスクにバックアップがとれない。桐を中心に作業しない理由はこの点にある。

この他に、JIS X0208 のための漢字字書が必須であるが、これは前述した。

漢字字書データベースを作成するためのソフトウェアは、作成者の使い慣れたものであれば何でもよいと思う。作成に用いるソフトウェア（プログラム）は手段であって目的でない。質の高いソフトウェア（データ）を作成することが目的であり、これを忘れないようにしたい。と同時に、優れたソフトウェア（プログラム・データ）を対価を求めること無く、無料で公開されている作者の方に対する感謝を忘れてはならない。

５漢字字書データベースの公開の意義

YDIC や KANJIDIC などの JIS X0208 のための漢字字書は、コンピュータで処理できる漢字の一覧であって、こうした基本データを公開することの意義について、あれこれいう必要もあるまい。多方面での活用が可能である。

では、筆者が作成した「類聚名義抄」や「篆隷万象名義」の漢字字書データベースを公開する意義はどのような点にあるであろうか。

古字書の研究を行っている立場からすると、通常の論文では

用例が膨大でその全例を示すことができない。そのため追試が容易でない。
古字書には難字が多く、一論文でJIS X0208 に無い字が軽く百字を超えてしまうこともあり、外字の作成・印刷に苦労する。

という難点があった。漢字字書データベースの公開によりこれらを克服することができる。すなわち、

論の根拠となった用例を全例示すことができ、追試を可能にする。
JIS X0208 に無い漢字は、諸橋「大漢和辞典」番号や複数の漢字を用いて字体情報を示さざるを得ず、（消極的な理由だが）外字作成の苦行から免れることができる。

図書寮本「類聚名義抄」は零本なのでその掲出項は少ないが、それでも 3,600 項目以上ある。「篆隷万象名義」の掲出字は、16,000字以上である。こうした資料について、論の根拠となる用例を全例示すには一冊の本を書くくらいの紙数が必要であり、またそのために互換性の無い外字を一々作成していかねばならない。外字作成の労苦と追試を可能にする論の信頼性。この二つを天秤に掛ければ後者に傾くのが自然であろう。

さらに、JIS X0208（補助漢字）や Unicode のコード番号を付けておけば、将来それらを採用したコンピュータが普通に使えるようになった時、一括して置換してしまえばよいのである。無駄な努力はしたくない。

最近の漢字コードの国際標準化の動きなどが急速に展開してる状況を見ると、漢字使用の実態について基礎的な研究を積み重ねておく必要性がいちだんと強まっている。詳しくは後述するが、漢字字書データベースはそのような状況も射程に入れておかねばならないだろう。

６漢字字書データベースの拡張

「篆隷万象名義データベース試作版［図書寮本類聚名義抄対応］」は、次のような内容をもっている。


    M2722100,27425,糸,g,6/126-51,0-2769

    M2722100,27425,糸,z,6=126-61,0-2769

    M2722101,27425,糸λ,z,6/126-61,4-0000

    M2744800,27425,絲,z,6@126-61,0-6915

    M2794400,27425,繭,z,6/126-62,0-4390

    M2746600,27425,見χ,z,6/127+11,1-5178

    M2784700,27425,慘ω,z,6=127+12,1-5246

    M2785400,27425,巣χ,z,6/127+12,1-5248

    M2780200,27425,▼,z,6/127+21,4-0000

    M2785400,27425,巣χ,z,6=127+21,1-5248

    M2797500,27425,繹,g,6/127+22,0-6972

    M2763300,27425,緒,n,6/127+31,0-2979

    M2767400,27425,緬,g,6/127+32,0-4443

    M2727400,27425,眄ω,z,6/127+41,4-0000

    M2727700,27425,純,g,6/127+42,0-2967

各フィールドは半角カンマ（,）で区切られ、順に諸橋「大漢和辞典」番号、「玉篇」の巻数と部首番号、「篆隷万象名義」の掲出字、図書寮本「類聚名義抄」との対応、「篆隷万象名義」での所在、JIS 区点コード番号を示している。

[注]JIS X0208に無い漢字の表示方法は、以下の通り。
        M2785400,巣χ  糸偏に巣

        M2746600,見χ  糸偏に見

        M3545200,洲ω  言偏に州

        M3542500,察λ  察の古字(通用・譌字等)

        M0487300,経μ  経の旁の部分の字

        M2273500,百２  百を二つ並べた字

        M1082600,心３  心を三つ並べた字

        M2806300,▼    以上で駄目な時
この方法は、かつて岡田希雄が「類聚名義抄の研究」(一條書房、1944年) などで難字を×(糸偏に見)のように示したことや、豊島正之「「JISに無い字」をめぐって」(しにか3-2 大修館書店、1992年)に示された考え方などを参考にしたものである。

今年（1994年）の五月中旬に「篆隷万象名義」の全掲出字の入力が一通り終了し、これを「篆隷万象名義データベース暫定版」とした。この「暫定版」では、「試作版」の仕様が次のように変更されている。


    M2722100,糸,27425,糸,糸,6/126-51,0-2769,7CF8

    M2722100,糸,27425,糸,糸,6=126-61,0-2769,7CF8

    M2722101,糸,27425,糸,糸λ,6/126-61,*,*

    M2744800,糸,27425,糸,絲,6@126-61,0-6915,7D72

    M2794400,糸,27425,糸,繭,6/126-62,0-4390,7E6D

    M2746600,糸,27425,糸,見χ,6/127+11,1-5178,7D78

    M2784700,糸,27425,糸,慘ω,6=127+12,1-5246,7E3F

    M2785400,糸,27425,糸,巣χ,6/127+12,1-5248,7E45

    M2780200,糸,27425,糸,▼,6/127+21,*,*

    M2785400,糸,27425,糸,巣χ,6=127+21,1-5248,7E45

    M2797500,糸,27425,糸,繹,6/127+22,0-6972,7E79

    M2763300,糸,27425,糸,緒,6/127+31,0-2979,7DD2

    M2767400,糸,27425,糸,緬,6/127+32,0-4443,7DEC

    M2727400,糸,27425,糸,眄ω,6/127+41,*,*

    M2727700,糸,27425,糸,純,6/127+42,0-2967,7D14

各フィールドの内容は、順に諸橋「大漢和辞典」番号、「大漢和辞典」部首、「玉篇」の巻数と部首番号、「玉篇」部首、「篆隷万象名義」の掲出字、「篆隷万象名義」での所在、JIS 区点コード番号、ISO/IEC 10646-1 のコード番号を示している。

篆隷万象名義データベースの「試作版」と「暫定版」の相違点を整理すると次のようになる。データの有無を + と - で示す。


（表１）

------------------------------------------------------------

                                      「試作版」 「暫定版」

------------------------------------------------------------

  (1) 諸橋「大漢和辞典」番号               +          +

◎(2) 「大漢和辞典」部首                   -          +

  (3) 「玉篇」の巻数と部首番号             +          +

◎(4) 「玉篇」部首                         -          +

  (5) 「篆隷万象名義」の掲出字             +          +

●(6) 図書寮本「類聚名義抄」との対応       +          -

  (7) 「篆隷万象名義」での所在             +          +

△(8) JIS 区点コード番号                   +          +

◎(9) ISO/IEC 10646-1 のコード番号         -          +

------------------------------------------------------------

「暫定版」で追加したデータに◎、削除したデータに●、注記方法を変更したデータに△を付しておいた。

(2) 「大漢和辞典」部首の追加は、ちょっと厄介であった。これは筆者が採った方法を後で詳しく述べることにする。

(4) 「玉篇」部首の追加は、「玉篇」部首を一覧したデータを作成しておき、 (3)をキーにして結合（merge）すればよい。joinでもできるし、桐の「併合」の機能を使ってもよい（dBASEIV、ACCESS、PRADOXなど、リレーショナル・データベースと銘打ったソフトであれば、同様の機能が必ずついている）。

(8) JIS 区点コード番号の変更は、JIS X0208/X0212 に無いことを示す4-0000 を * にしたことである。データ量を小さくするためである。

(6) 図書寮本「類聚名義抄」との対応の削除は、このフィールドを出力しなければよいだけである。

(9) ISO/IEC 10646-1 のコード番号の追加は、筆者作成の「Unicode と JIS漢字ないし諸橋大漢和辞典番号との対照表」を利用する。join と桐の「併合」の機能を用いてデータの追加を行い、両者の結果を照合し、遺漏無きを期した。

[注]篆隷万象名義データベースの完成版は、できるだけ早い時期に公開したいと考えているが、その際、仕様が変更になる可能性もある。

さて、(2)「大漢和辞典」部首の追加について、少し詳しく述べよう。

篆隷万象名義データベースの点検・校正は未了であり、データを追加・訂正した後でも簡単に「大漢和辞典」の部首情報を表示しなおせることが望ましい。マニュアルで入れたくないので、一括処理できることが条件である。

そこでまず、次のような諸橋「大漢和辞典」各部首の最初と最後の検字番号の一覧表を作成した。


# radical.txt 「大漢和辞典各部首の最初と最後の検字番号」 94/05/25 池田証寿(c)

# 順に

#   部首,部首番号,部首画数,大漢和巻数,最初の番号,最後の番号,補遺の最初の番号,

#   補遺の最後の番号

# を示す。部首、部首番号、部首画数は、ydicbus.01n(mtoyo氏作）による。

# 大漢和の214部首の中に、JIS X 0208 に無い字がある。これらは、その部首に所属

# する漢字を任意に選んで示す。すなわち

#   たてぼうは、「中」で

#   やまいだれは、「病」で

#   ぐうのあしは、「禹」で

#   しんにゅうは、「述」で

# それぞれ示した。

# 再配付自由。

一,001,1,1,1,66,48903,48904

中,002,1,1,67,90,48905,48905

丶,003,1,1,91,105,,

丿,004,1,1,106,160,48906,48911

乙,005,1,1,161,223,,

亅,006,1,1,224,246,,

（以下、省略。全体は付録を参照）

上のデータに基づき、次のようなの awk のスクリプトを書いた。




# adrdclmr.awk - 諸橋大漢和番号によって部首名を追加(add radical morohashi)

# 1994/05/25 (c)池田証寿

BEGIN { FS = OFS = ",";

        s001 = "M0000100" ; e001 = "M0006699" ; # 一

        s002 = "M0006700" ; e002 = "M0009099" ; # 中

        s003 = "M0009100" ; e003 = "M0010599" ; # 丶

        s004 = "M0010600" ; e004 = "M0016099" ; # 丿

        s005 = "M0016100" ; e005 = "M0022399" ; # 乙

        s006 = "M0022400" ; e006 = "M0024699" ; # 亅

----------------------（中略）----------------------

        s213 = "M4884700" ; e213 = "M4888199" ; # 龜

        s214 = "M4888200" ; e214 = "M4890299" ; # 龠

        s215 = "M4890300" ; e215 = "M4996499" ; # 補遺

}

{

if($1 >gt;= s001 && $1 <= e001  ) {

        print $1,"一",$2,$3,$4,$5,$6 ;

        }

if($1 >= s002 && $1 <= e002  ) {

        print $1,"中",$2,$3,$4,$5,$6 ;

        }

if($1 >= s003 && $1 <= e003  ) {

        print $1,"丶",$2,$3,$4,$5,$6 ;

----------------------（中略）----------------------

if($1 >= s213 && $1 <= e213  ) {

        print $1,"龜",$2,$3,$4,$5,$6 ;

        }

if($1 >= s214 && $1 <= e214  ) {

        print $1,"龠",$2,$3,$4,$5,$6 ;

        }

if($1 >= s215 && $1 <= e215  ) {

        print $1,"補",$2,$3,$4,$5,$6 ; # 補遺

        }

}

篆隷万象名義データベースで諸橋「大漢和辞典」番号の表示方法は、 8桁の固定長であり、最初の 1桁が諸橋の意の M、次の 5桁が「大漢和番号」、最後の 2 桁が付加情報である。付加情報は、「大漢和辞典」に掲載の無い漢字を、該当する所属部首の、適切な位置に配列するために必須である。

BEGIN 部分で、まず

BEGIN { FS = OFS = ",";

のようにフィールドの区切子（デリミタ、delimiter）を半角カンマ（,)とし、次いで、各部首の最初と最後の番号を

s001 = "M0000100" ; e001 = "M0006699" ; # 一

のように変数に代入する。変数の名前は、数字からは始まらない英数字と下線の列でなければならない。sxxx が最初の番号、exxx が最後の番号である。xxx には数字が入り、これは部首番号を採る。

スクリプトの本体では、

if($1 >= s001 && $1 <= e001 ) { print $1,"一",$2,$3,$4,$5,$6 ; }

のような処理をしている。ここでは、篆隷万象名義データベースの第1のフィールド（$1、諸橋「大漢和辞典」番号が入っている）を文字列として比較し、「一」部の最初の番号以上であり、かつ「一」部の最後の番号以下であれば、第2フィールドに「一」を出力するという具合である。

これは、一見して判るように

データエラーの処理が無い
処理に要する時間が長い

という欠点がある。データエラーの処理が無い点は、どのみち篆隷万象名義データベース全体に対してデータエラーが無いかどうか、チェックしなければならないので、これは後回しにした。

処理に要する時間が長いのは、かなり気に掛るところで、もう少しエレガントなやり方がありそうなものであるが、思い浮かばなかった。もっとも、処理が遅いといっても、CPU が i486DX2 の 66MHz、ハードディスクが IDE の 360MB の DOS/V マシンで処理して数分であった。awk はもともと遅いし（とくれば「英和辞典の gawk の項を見よ」が決まり文句）、20,000件以上ある篆隷万象名義データベースの処理としてまあまあのところかもしれない。

[注] awk については以下の文献を参照されたい。
A.V.エイホ他著（足立高徳訳）「プログラミング言語 AWK 」（トッパン、 1989年）
JALLC の会報にも awk に関連した有益な論説が多い。

では、諸橋「大漢和辞典」部首と「玉篇」部首の情報を追加すると、どのような利点があるであろうか。例えば、次のデータを眺めて欲しい。


大漢和番号  大漢和部首  玉篇  玉篇部首  掲出字  所在        JIS      ISO10646

M0092791        人      03023   人      胄χ    1/065-52    *           *

M0089800        人      03023   人      偵      1/065-61    0-3669      5075

M0130400        人      03023   人      ▼      1/065-62    *           5136

M0049500        人      03023   人      但      1/066+11    0-3502      4F46

M0089200        人      03023   人      哀χ    1/066+12    *           506F

M0969800        弓      03023   人      弔      1/066+21    0-3604      5F14

M0058200        人      03023   人      夷χ    1/066+22    *           4F87

M0113400        人      03023   人      棘χ    1/066+31    *           50F0

M0111300        人      03023   人      僥      1/066+32    0-4907      50E5

M0059200        人      03023   人      侏      1/066+41    0-4845      4F8F

M0040100        人      03023   人      今χ    1/066+42    1-1644      4EF1

M0076400        人      03023   人      戻χ    1/066+51    *           *

ここでは「篆隷万象名義」人部からその一部分を抜出し、デリミタを半角カンマから半角スペースに変えて少し見やすいようにした。また注文の中の異体字も篆隷万象名義データベースには採録してあるが、これは削除して示した。

JIS X0208 にある漢字は全体として少なく、部首情報を示すことで、掲出字がどのような字形なのか、判断を容易にしてくれる。これが第一の利点である。

第二の利点は、漢字字書によって所属部首を異にする漢字を抽出することができるという点である。上の例を見ると、「弔」字がそれで、諸橋「大漢和辞典」では、弓部に所属しているが、「篆隷万象名義」（＝「玉篇」）では人部に所属している。「弔」字は、「説文解字」（後漢・許慎）で人部に所属し、「人」と「弓」の会意の字である。「玉篇」は「説文解字」を踏襲したのである。このように漢字字書によって所属の部首を異にする例が少なからず存し、そのような例の処理の仕方に、それぞれの漢字字書の学問的な姿勢や引きやすさの工夫を読み取ることができる。

[注]「弔」字は観智院本「類聚名義抄」で、人部に所属しており、これに関して山田健三氏に鋭い解釈があった。詳しくは氏の「観智院本類聚名義抄の凡例と部首立てについて」（国語学176集、1994年3月）を参照されたい。

７漢字字書データベースの応用

篆隷万象名義データベースは、古字書の研究に役立てるために作成したものであるが、JIS X0212（補助漢字）のコード番号や、ISO/IEC 10646-1のコード番号も追加するに及んで、多方面に応用が利くことが判ってきた。

「篆隷万象名義」に掲出される漢字は、その依拠した「玉篇」に存在していたということである。「玉篇」三十巻は、梁・顧野王の撰、大同九年[543]の成立。以後、隋、唐における標準的な字書の位置を占める。日本の古代・中世も中国と同様で、「玉篇」が漢字字書の基準であった。「玉篇」を基準として各時代に編纂された中国・日本の漢字字書をデータベース化し、さらに各種文献の漢字の頻度表を追加すれば、どの時代に、どの地域で、どれだけの漢字が用いられていたか、具体的に証明できる。そのためには、異体字の処理をはじめとして難問が山積みであるが、このような研究分野（漢字使用の記述的研究）は、それを開拓していくだけの価値が充分にある。

また、近時、漢字コードの国際標準化の動きが急速に進展している。そうした状況に対して、JIS 漢字の欠陥や Unicode における Han-unification の不備を論うだけでよいとは思われない。文字は人類の文化そのものであり、その遺産を後世に伝える責務が現代の我々にはある。ISO/IEC 10646-1のJIS化は既定の方針だが、その内容を様々な観点から検討しておくことは決して無駄にならない。

そこで、ここでは一、二の基本的データを挙げてみたいと思う。

まず、JIS X0208/X0212 と ISO/IEC 10646-1でどれだけの漢字が処理できるのか、これを「篆隷万象名義データベース暫定版」について調べた結果を次に掲げる。


（表２）

---------------------------------------------------------

(1) JIS X0208 の第一水準に有り             2,336 (14.26%)

(2) JIS X0208 の第二水準に有り             2,375 (14.49%)

(3) JIS X0212（補助漢字）に有り            3,470 (21.18%)

(4) JIS X0208/0212 に無し、ISO10646に有り  2,574 (15.71%)

(5) JIS X0208/0212 に無し、ISO10646に無し  5,632 (34.37%)

---------------------------------------------------------

合計                                      16,387

---------------------------------------------------------



[注]目録部分を除く。

JIS X0208 で約三割、JIS X0208/X0212 で約五割、ISO/IEC 10646-1 で約六割五分というところである。20,000 字以上の漢字を有する ISO/IEC 10646-1 でも「篆隷万象名義」の掲出漢字のすべてを処理することができない。外字の作成も個人レベルでは事実上不可能である。

次に観点を替えて、JIS X0208/X0212 と ISO/IEC 10646-1 の漢字の中で、「篆隷万象名義」にある漢字がどれだけあるのか、これを調べてみよう。


（表３）

-----------------------------------------

JIS X0208-1990       4,612/6,355 (72.57%)

JIS X0212-1990       3,398/5,801 (58.58%)

JIS X0208/0212       8,010/12,156(65.89%)

ISO/IEC 10646-1     10,541/20,902(50.43%)

-----------------------------------------

例えば、JIS X0208-1990 には、6,355字の漢字があるが、この中で「篆隷万象名義」に見える漢字は、4,612字、全体の約七割を占める。JIS X0212 は、約六割、 JIS X0208 と JIS X0212 との合計では、六割五分である。

[注]「篆隷万象名義」には、脱落している掲出字が若干あるとみられるし、異体字の数えかたによって比率はもう少し上がるであろう。

JIS X0208 が七割、JIS X0212 が約六割で、両者の比率に一割以上の開きがある。JIS X0208の比率が高い点から、基本的な漢字は「篆隷万象名義」以後あまり変っていないことが推測される。JIS X0212 の比率が低い点は、その内容を詳しく検討していないので、憶測は慎んでおきたい。

一方、ISO/IEC 10646-1 では、約五割を占める。「篆隷万象名義」の全掲出字が約16,00字であること、ISO/IEC 10646-1 には中国の簡体字が大量に含まれることなどを考えあわせると、決して低い比率ではない。

参考までに、中国、台湾、日本、韓国の規格の中に「篆隷万象名義」の漢字がどれくらいあるか、概算した結果を対照して次に掲げる。


（表４）

-----------------------------------------

中国（GB）           9,532/17,124(55.73%)

台湾（CNS）         10,169/17,248(58.92%)

日本（JIS）          8,010/12,156(65.89%)

韓国（KSC）          5,662/7,476 (75.74%)

-----------------------------------------

[注]中国（GB）は以下のサブセットによる。

      GB 2312-80

      GB 12345-90 with 58 Hong Kong and 92 Korean "Idu" characters

      GB 7589-87 unsimplified forms

      GB 7590-87 unsimplified forms

      General Purpose Hanzi list for Modern Chinese language

      GB 8565-89

    台湾（CNS）は以下のサブセットによる。

      TCA-CNS 11643 1st plane with some additional characters

      TCA-CNS 11643 2nd plane

      TCA-CNS 11643 14th plane with some additional characters

    韓国（KSC）は以下のサブセットによる。

      KSC 5601-1987

      KSC 5657-1991

おおむね六割から七割程度の漢字が、すでに「篆隷万象名義」（＝「玉篇」）に存在していたことが分かる。では、各国のコード表にあって「篆隷万象名義」に見えない漢字は、どのような性格の漢字なのであろうか。このようなテーマは大変興味深いものであるが、それを検証するデータを充分に有していない。この点は今後の課題としておこう。

次に、ISO/IEC 10646-1 の漢字表で、実際の文献（漢字字書以外）がどの程度まで処理できるか、この問題について若干の調査を行った研究があるので紹介しておきたい。すなわち、

王蜀豫「漢字の常用性についての基礎的研究―日中古典籍を資料として―」（信州大学大学院人文科学研究科修士論文、1993年12月27日提出）

という論文である。王氏の論文での調査対象は、日本書紀、続日本紀、法華経、史記、文選の五つの文献であり、結果は次の通りである。数字は異なり字数である。


（表５）

----------------------------------------------------------------------

            JIS X 0208-1990     JIS X 0212-1990      ISO/IEC 10646-1

----------------------------------------------------------------------

日本書紀   3,115/3,534(88.1%)    303/3,534( 8.6%)   3,461/3,534(97.9%)

続日本紀   2,951/3,123(94.5%)    151/3,123( 4.8%)   3,112/3,123(99.6%)

法 華 経   1,618/1,748(92.6%)    105/1,748( 6.0%)   1,735/1,748(99.3%)

史    記   3,543/4,883(72.6%)    957/4,883(19.6%)   4,750/4,883(97.3%)

文    選   4,321/6,917(62.5%)  1,670/6,917(24.1%)   6,579/6,917(95.1%)

----------------------------------------------------------------------

例えば、日本書紀には異なり字数で 3,534字の漢字が用いられていて、そのうち JIS X 0208 にある漢字が 3,115 字、日本書紀の異なり字数の全体の 88.1% を占める。

確かに、ISO/IEC 10646-1 はかなりの漢字をカバーしている。しかし、たとえ ISO/IEC 10646-1 の文字をすべて用いることのできるコンピュータが使えるようになったとしても、それによって上記の五書のデータをすべて処理することはできない。「外字」の作成が必須となる。上記の五書はいずれも著名な古典で印刷される機会も多い。こうした古典の漢字をサポートした文字表をなんらかの形で実現して欲しいものである。いや、本当は実現しなければならないというべきなのである。

８終わりに

国語学会の平成五年度秋季大会（北海道大学学術交流会館、1993年10月30日）において、「電子化テキストの国際的共有」（コンヴィナー：豊島正之氏）と題するテーマ別研究発表会があった。発表者名と題目を記すと次の通りである。

豊島正之「電子化テキストの国際的共有」
家辺勝文「電子化テキストと書物との接点―テキスト・データとページ構成―」
池田証寿「篆隷万象名義データベースについて」
芝野耕司「国際符号化文字集合（ISO/IEC 10646-1）の JIS 化と今後の拡張」

文字コードに関しては、豊島氏と芝野氏の発表が有益であり、本稿にも当然引用すべきなのであるが、まだ活字化されていないので、言及を控えることとした（「国語学」178集〈1994年9月刊予定〉に掲載の由）。

また、筆者も発表の機会を与えられ、篆隷万象名義データベースに関して、その作成の目的、作成上の問題点、古字書研究への応用などを述べた。本稿では、その後の調査・考察などを加味し、「漢字字書データベース」という観点から私見をまとめたものである。

漢字字書データベースに関する研究・調査は未開拓である。コンピュータに強く、古文献にも明るい研究者がこの分野に参入されることを期待したい。（1994年5月30日）

９付録

jgawk と yax.bat を用いて次のようにするか、エディタなどで切出して下さい。

jgawk -f yax.bat このファイル名


------^ radical.txt

# radical.txt 「大漢和辞典各部首の最初と最後の検字番号」 94/05/25 池田証寿(c)

# 順に

#   部首,部首番号,部首画数,大漢和巻数,最初の番号,最後の番号,補遺の最初の番号,

#   補遺の最後の番号

# を示す。部首、部首番号、部首画数は、ydicbus.01n(mtoyo氏作）による。

# 大漢和の214部首の中に、JIS X 0208 に無い字がある。これらは、その部首に所属

# する漢字を任意に選んで示す。すなわち

#   たてぼうは、「中」で

#   やまいだれは、「病」で

#   ぐうのあしは、「禹」で

#   しんにゅうは、「述」で

# それぞれ示した。

# 再配付自由。

一,001,1,1,1,66,48903,48904

中,002,1,1,67,90,48905,48905

丶,003,1,1,91,105,,

丿,004,1,1,106,160,48906,48911

乙,005,1,1,161,223,,

亅,006,1,1,224,246,,

二,007,2,1,247,285,,

亠,008,2,1,286,343,48912,48914

人,009,2,1,344,1335,48915,48924

儿,010,2,1,1336,1414,48925,48930

入,011,2,1,1415,1449,,

八,012,2,2,1450,1505,48931,48931

冂,013,2,2,1506,1564,48932,48935

冖,014,2,2,1565,1606,,

冫,015,2,2,1607,1736,,

几,016,2,2,1737,1799,,

凵,017,2,2,1800,1844,48936,48936

刀,018,2,2,1845,2287,48937,48941

力,019,2,2,2288,2492,48942,48944

勹,020,2,2,2493,2569,,

匕,021,2,2,2570,2594,48945,48947

匚,022,2,2,2595,2671,,

匸,023,2,2,2672,2694,48948,48949

十,024,2,2,2695,2773,48950,48950

卜,025,2,2,2774,2835,48951,48951

卩,026,2,2,2836,2889,48952,48952

厂,027,2,2,2890,3056,48953,48955

厶,028,2,2,3057,3114,48956,48959

又,029,2,2,3115,3226,48960,48968

口,030,3,2,3227,4674,48969,48985

囗,031,3,3,4675,4866,48986,48987

土,032,3,3,4867,5637,48988,49001

士,033,3,3,5638,5690,49002,49003

夂,034,3,3,5691,5707,,

夊,035,3,3,5708,5748,49004,49004

夕,036,3,3,5749,5830,49005,49007

大,037,3,3,5831,6035,49008,49012

女,038,3,3,6036,6929,49013,49019

子,039,3,3,6930,7053,49020,49022

宀,040,3,3,7054,7410,49023,49030

寸,041,3,4,7411,7472,49031,49031

小,042,3,4,7473,7537,49032,49032

尢,043,3,4,7538,7628,49033,49042

尸,044,3,4,7629,7824,49043,49044

屮,045,3,4,7825,7868,49045,49046

山,046,3,4,7869,8668,49046,49062

巛,047,3,4,8669,8713,49063,49065

工,048,3,4,8714,8741,,

己,049,3,4,8742,8770,49066,49066

巾,050,3,4,8771,9164,49067,49071

干,051,3,4,9165,9188,49072,49073

幺,052,3,4,9189,9220,49074,49075

广,053,3,4,9221,9565,49076,49078

廴,054,3,4,9566,9582,,

廾,055,3,4,9583,9655,49079,49082

弋,056,3,4,9656,9691,,

弓,057,3,4,9692,9907,49083,49087

彑,058,3,4,9908,9961,49088,49091

彡,059,3,4,9962,10036,,

彳,060,3,4,10037,10294,49092,49092

心,061,4,4,10295,11529,49093,49118

戈,062,4,5,11530,11695,49119,49124

戸,063,4,5,11696,11767,49125,49125

手,064,4,5,11768,13060,49126,49140

支,065,4,5,13061,13107,49141,49141

攴,066,4,5,13108,13449,49142,49147

文,067,4,5,13450,13488,,

斗,068,4,5,13489,13533,,

斤,069,4,5,13534,13619,49148,49148

方,070,4,5,13620,13715,,

旡,071,4,5,13716,13732,,

日,072,4,5,13733,14277,49149,49156

曰,073,4,5,14278,14329,49157,49157

月,074,4,5,14330,14414,49158,49158

木,075,4,6,14415,15990,49159,49191

欠,076,4,6,15991,16252,49192,49193

止,077,4,6,16253,16358,49194,49197

歹,078,4,6,16359,16612,49198,49198

殳,079,4,6,16613,16720,49199,49200

毋,080,4,6,16721,16742,,

比,081,4,6,16743,16771,49201,49202

毛,082,4,6,16772,17025,49203,49203

氏,083,4,6,17026,17042,49204,49204

气,084,4,6,17043,17082,49205,49205

水,085,4,6,17083,18849,49206,49242

火,086,4,7,18850,19652,49243,49272

爪,087,4,7,19653,19720,49273,49276

父,088,4,7,19721,19736,,

爻,089,4,7,19737,19757,,

爿,090,4,7,19758,19812,49277,49281

片,091,4,7,19813,19908,49282,49282

牙,092,4,7,19909,19921,,

牛,093,4,7,19922,20233,49283,49290

犬,094,4,7,20234,20813,49291,49298

玄,095,5,7,20814,20820,,

玉,096,5,7,20821,21370,49299,49319

瓜,097,6,7,21371,21437,49320,49321

瓦,098,5,7,21438,21642,49322,49327

甘,099,5,7,21643,21669,,

生,100,5,7,21670,21702,49328,49328

用,101,5,7,21703,21722,49329,49330

田,102,5,7,21723,21993,49331,49343

疋,103,5,7,21994,22014,49344,49345

病,104,5,7,22015,22656,49346,49352

癶,105,5,7,22657,22677,49353,49353

白,106,5,8,22678,22822,49354,49355

皮,107,5,8,22823,22940,49356,49359

皿,108,5,8,22941,23104,49360,49361

目,109,5,8,23105,23845,49362,49384

矛,110,5,8,23846,23928,49385,49385

矢,111,5,8,23929,24023,49386,49386

石,112,5,8,24024,24622,49387,49397

示,113,5,8,24623,24883,49398,49405

禹,114,5,8,24884,24905,,

禾,115,5,8,24906,25405,49406,49411

穴,116,5,8,25406,25720,49412,49417

立,117,5,8,25721,25840,49418,49423

竹,118,6,8,25841,26831,49424,49456

米,119,6,8,26832,27220,49457,49466

糸,120,6,8,27221,28107,49467,49496

缶,121,6,9,28108,28198,49497,49498

网,122,6,9,28199,28424,49499,49506

羊,123,6,9,28425,28613,49507,49514

羽,124,6,9,28614,28841,49515,49520

老,125,6,9,28842,28870,,

而,126,6,9,28871,28897,,

耒,127,6,9,28898,28998,,

耳,128,6,9,28999,29214,49521,49523

聿,129,6,9,29215,29235,49524,49524

肉,130,6,9,29236,30067,49525,49555

臣,131,7,9,30068,30094,49556,49556

自,132,6,9,30095,30141,49557,49557

至,133,6,9,30142,30172,49558,49558

臼,134,6,9,30173,30276,49559,49570

舌,135,6,9,30277,30337,,

舛,136,6,9,30338,30349,49571,49573

舟,137,6,9,30350,30595,49574,49576

艮,138,6,9,30596,30601,,

色,139,6,9,30602,30637,,

艸,140,6,9,30638,32673,49577,49677

虍,141,6,9,32674,32803,49678,49678

虫,142,6,10,32804,33963,49679,49700

血,143,6,10,33964,34028,49701,49702

行,144,6,10,34029,34090,,

衣,145,6,10,34091,34761,49703,49710

襾,146,6,10,34762,34795,49711,49712

見,147,7,10,34796,35002,49713,49715

角,148,7,10,35003,35204,49716,49719

言,149,7,10,35205,36181,49720,49729

谷,150,7,10,36182,36244,,

豆,151,7,10,36245,36333,,

豕,152,7,10,36334,36495,49730,49732

豸,153,7,10,36496,36655,49733,49734

貝,154,7,10,36656,36992,49735,49741

赤,155,7,10,36993,37033,49742,49742

走,156,7,10,37034,37364,49743,49745

足,157,7,10,37365,38033,49746,49753

身,158,7,10,38034,38171,,

車,159,7,10,38172,38629,49754,49763

辛,160,7,10,38630,38681,,

辰,161,7,10,38682,38699,,

辺,162,7,11,38700,39268,49764,49773

邑,163,7,11,39269,39762,49774,49786

酉,164,7,11,39763,40114,49787,49795

釆,165,7,11,40115,40130,49796,49799

里,166,7,11,40131,40151,49800,49802

金,167,8,11,40152,41099,49803,49835

長,168,8,11,41100,41207,49836,49837

門,169,8,11,41208,41533,49838,49845

阜,170,8,11,41534,41922,49846,49850

隶,171,8,11,41923,41936,,

隹,172,8,11,41937,42209,49851,49865

雨,173,8,12,42210,42563,49866,49871

青,174,8,12,42564,42584,49872,49872

非,175,8,12,42585,42617,,

面,176,9,12,42618,42709,49873,49875

革,177,9,12,42710,43107,49876,49881

韋,178,9,12,43108,43235,,

韭,179,9,12,43236,43264,49882,49882

音,180,9,12,43265,43332,,

頁,181,9,12,43333,43755,49883,49894

風,182,9,12,43756,43999,49895,49895

飛,183,9,12,44000,44013,,

食,184,9,12,44014,44488,49896,49899,#川幡太一@NTTさんのご指摘により、修正。1998/07/08

首,185,9,12,44489,44517,49900,49901

香,186,9,12,44518,44571,,

馬,187,10,12,44572,45097,49902,49909

骨,188,10,12,45098,45312,49910,49911

高,189,10,12,45313,45354,49912,49912

髟,190,10,12,45355,45631,49913,49914

鬥,191,10,12,45632,45660,,

鬯,192,10,12,45661,45671,49915,49917

鬲,193,10,12,45672,45757,49918,49921

鬼,194,10,12,45758,45955,49922,49923

魚,195,11,12,45956,46633,49924,49927

鳥,196,11,12,46634,47527,49928,49942

鹵,197,11,12,47528,47585,49943,49943

鹿,198,11,12,47586,47716,49944,49947

麦,199,11,12,47717,47886,49948,49949

麻,200,11,12,47887,47925,,

黄,201,11,12,47926,47990,49950,49950

黍,202,12,12,47991,48037,49951,49954

黒,203,11,12,48038,48247,49955,49958

黹,204,12,12,48248,48256,,

黽,205,13,12,48257,48314,49959,49960

鼎,206,13,12,48315,48329,,

鼓,207,13,12,48330,48389,,

鼠,208,13,12,48390,48497,49961,49961

鼻,209,14,12,48498,48559,,

齊,210,14,12,48560,48582,,

齒,211,15,12,48583,48817,49962,49964

龍,212,16,12,48818,48846,,

龜,213,16,12,48847,48881,,

龠,214,17,12,48882,48902,,

------$ radical.txt

[→このページの最初] [→雑文] [→JIS漢字] [→古辞書] [→ホームページ]

E-mail shikeda@Lit.Let.hokudai.ac.jp/KGH01365@nifty.ne.jp

漢字字書データベースの作成とその利用

１ 漢字字書データベースとその種類

２ 情報処理のための文字表に採用された漢字についてのデータベース

３ 漢字字書の掲出漢字と注文についてのデータベース

４ 漢字字書データベース作成のためのソフトウェア

５ 漢字字書データベースの公開の意義

６ 漢字字書データベースの拡張

７ 漢字字書データベースの応用

８ 終わりに

９ 付録

１漢字字書データベースとその種類

２情報処理のための文字表に採用された漢字についてのデータベース

３漢字字書の掲出漢字と注文についてのデータベース

４漢字字書データベース作成のためのソフトウェア

５漢字字書データベースの公開の意義

６漢字字書データベースの拡張

７漢字字書データベースの応用

８終わりに

９付録