古辞書研究とJIS漢字

池田 証寿(信州大学人文学部)

概要

古辞書研究は、コンピュータ利用の技術力を試す分野としても魅力的だが、それ以上にコンピュータで扱う漢字の典拠を与えるために欠かせぬ研究分野である。

文字コードの議論において、康煕字典や諸橋大漢和辞典を絶対視する限り、新たな展望を見出し難い。 JIS漢字の問題点は、字体の包摂と典拠未詳字問題である。この二つは、結局のところ、漢字の典拠論に行き着く。

JCS調査研究委員会により、78JIS(JIS C 6226-1978 情報交換用漢字符号系) 制定時の資料が発掘され、字種の選定規準と字体認識規準とがほぼ明らかになった。その後の規格改正は、当時の技術水準や社会的要請が密接に関係している。

今回のJIS漢字の見直しでは、漢字表の字形を一切変更せず、文字の追加や入替えを行わないのが基本方針である。規格の曖昧な部分を除き、明確化をはかった。漢字に関しては、字体の包摂と典拠未詳字とに一定の成果をあげた。

JIS漢字は、図形的特徴による符号化が原則である。そこでは、同形異字と類形異字との扱いが問題となるが、これは、古辞書においても同様に問題である。

キーワード :漢字の典拠、字体の包摂規準、典拠未詳字、同形異字、類形異字

1 古辞書研究とコンピュータ

1.1 本文形式の統一性と大量のデータはコンピュータ向き

材料となった辞書との対比で、辞書編纂過程を再現することが容易である。見出し字の採録規準、部首配属、部首内配列などがその分析の対象となる。

1.2 本文形式の複雑さと大量の漢字は一見コンピュータ不向き

しかし、技術力を発揮する対象としては十分すぎるほどの価値がある (人文科学の分野では、技術がないから問題なのだが)。

本文形式に統一性があるとはいえ、相応に複雑な形式を持つ。図書寮本類聚名義抄では、声点、訓点、傍訓、小字双行、補入等があり、片仮名音注はその位置により声調を示すという内容。

大量の漢字の存在は、果てしない文字コード化を要求するが、同時に、果てしないコード化の無意味さを暗示する。

1.3 立論の根拠としての電子化テキスト(e-text)

古辞書のデータは大量で難字が多い故に、全用例を印刷して例示することが困難である。 JISに無い漢字は、諸橋「大漢和辞典」番号で表示するなどしたe-text を作成して、全例を公開。

公開は、現在のネットワーク環境を考えると、Webを 利用するのが効果的であろう。

(注)私のページのURLは、http://fan.shinshu-u.ac.jp/ikeda/index.htmlである。【2001年5月20日追記】現在のURLはhttp://member.nifty.ne.jp/shikeda/index.htmlである 。

電子化テキストは、覆製本に基づく著者の解読本文を部分的に呈示するにとどまる。これでも、追試するに十分な情報である。

1.4 漢字の典拠としての古辞書

漢字コードの基礎には漢字同定が必須であるが、康煕字典や諸橋大漢和辞典を過信してはならない。 JIS漢字の6355字は、そのすべてがこの二つの辞書で同定出来ない事実を知るべきである。広く各種の文献を参照して漢字同定を行うことが重要であり、その際に古辞書は有力な資料となる。

2 研究対象としてのJIS漢字

2.1 當山日出夫氏による情報漢字論の提唱

JIS漢字そのものが研究対象となっている。當山日出夫氏による辞書史的評価と情報漢字論の提唱には共感するところが多い。

(注)當山日出夫「コンピュータ時代の漢字論」月刊言語Vol.25 No.9 1996年9月 pp.44-49

文字論の対象としてのJIS漢字を考えると、問題点は、字体の包摂、典拠未詳字の二つである。これらは、突き詰めれば二つとも漢字の典拠論に行き着く。

2.2 漢字の典拠論

漢字の典拠論は、実証、理論とも極めて不足している。特に人名・地名、非康煕字典的な漢字。

2.3 日本人の漢字観

日本の常用漢字とJIS漢字は、非康煕字典的な世界を内包する。漢字は借り物であり、非正統故に、伝統性に固執しがちではないか。例外は83JISの「略体」。

中国・台湾は、康煕字典的な世界を志向するか、脱康煕字典的な世界を志向する。少なくとも意識の上で文字の標準化に困難を感じないからか。

3 JIS漢字の虚像と実像

3.1 たかがJIS漢字、されどJIS漢字

「コンピュータで使える文字だけが文字である」と挑発する論があるが、世間の目は案外冷やかと感じる。通常は常用漢字のレベルで十分だから、 JIS漢字の拡張の必要性が認識されにくいのである。

JIS漢字をWindows95やMacOSの範囲だけで考えるのは誤りである。視野を広く持つべきである。

3.2 従来のJIS漢字観に対する解毒剤が必要

JIS X 0208の改正作業は、日本規格協会情報技術標準化センター符号化文字集合 (JCS)調査研究委員会WG2(主査:芝野耕司東京国際大学教授、幹事 \& エディタ:豊島正之北海道大学助教授)で行われている。池田はその委員でもあるので、審議の過程で得られた知見を述べたい。詳しくは、公開レビュー資料と96年度中に公刊されるX0208を参照されたい。

(注)芝野、豊島、笹原宏之、高田敏弘、古瀬幸広、家辺勝文各氏による座談会(「漢字と情報技術について ---JIS漢字規格の'96改正が持つ意味」) の記録がGLOCOM Newsletter Vol.5 No.1 1996年(国際大学GLOCOM) に掲載されている。

3.3 文字の標準と文字コードの標準とが曖昧であった

「常用漢字表」の制定に見るごとく、言語の標準化の主体は、文部省である。例外が人名漢字で、これは法務省。JIS漢字は、通産省(工業技術院)の管轄。

JIS漢字を文字の標準と見る向きもあるが、JISは文字コードの標準を制定するのが本来の任務である。ある文字をどのコードポイントに割当てるかを決めるだけである。96JISは、この点を明確化。

3.4 規格票解説の「文字概念」が一人歩き

78JISの図形文字符号表と附属書の漢字表は写研の書体で印刷されているが、最終的な印刷字形まで、78JIS制定委員会が責任を持てなかったことの説明に文字概念が出てくるだけである。83JISはこれを拡大解釈したといえる。

4 78JISとは何か

4.1 78JISの典拠とした資料---字種の選定

78JISの原典は、今回のJIS改正委員会の調査により、ほぼ完全に発掘された。最も重要なのは、次の二つの資料である。

後者(「対応分析結果」と略)では、「国土行政区画総覧使用漢字」と「日本生命収容人名漢字」との二つが重要である。すなわち、「標準コード用漢字表(試案)」「国土行政区画総覧使用漢字」「日本生命収容人名漢字」に出現する漢字はすべて採用するというのが事実上の基本方針であった。

頻度で字種を選定したという事実はない。漢字表の「重み」と地名・人名が優先されているのである。厳正な態度で、字種が選定されていると言い得る。旧字体が採られないのは、「標準コード用漢字表」、「国土」、「日生」に現れないか、字形の違いが僅かと見て削除したかである。

4.2 同値関係---78JISの字体認識

これに関しては、林大氏(当時、国立国語研究所)の異体字の扱いについてのメモと原案報告書に収める図形文字符号表、附属書の漢字表、削除のリストが基本資料である。削除のリストには、異体字の扱いの原則により削除された163字が示される。例えば、はしご高は、字形の違いが僅かであり、高と同値と判断されたことが分かる。

しかし、78JIS初版解説と附属書とに矛盾も見られる。例えば、飲と飮は「同値」と扱う例に挙げられているが、実際には、それぞれ別のコードポイントが割り当てられ、区別されている。恐らく、所属部首の認定にゆれがあり、削除されずに残ったのであろう。

78JISは、コンピュータで漢字処理が不可能な時代の作成であり、若干の欠陥はやむを得ない。問題は、それを20年近く放置したことである。

5 83JISと90JISとに対する評価

5.1 83JISの変更内容

4文字の追加、約250字の字形変更、及び22組の入替えを行った。悪評多いが、望ましい字形に変更した例もある。

(注)野村雅昭「JIS C 6226 情報交換用漢字符号系の改正」標準化ジャーナル 1984年3月号。

5.2 90JISの変更内容

 2文字の追加と約150字の字形変更。補助漢字の制定。

5.3 規格改正時の情報処理の技術水準と社会的要請

この両者は密接に関連している。


------------------------------------------------------------------------

 規格          技術水準                     社会的要請 

------------------------------------------------------------------------

 78JIS         コンピュータでの漢字処理     地名・人名処理(行政管理庁) 

 83JIS         24ドット字形の開発           漢字制限の思想 

 90JIS         平成明朝体、補助漢字の開発   印刷業界が支援 

 95JIS(UCS)    フォント切替え               多言語処理 

 96JIS(0208)   インターネット               明確化(新コード体系への布石) 

 -----------------------------------------------------------------------

これを見て感じるのは、技術水準の飛躍的な進展を予想することが困難であるということである。実際、社会的な要請に応えるどころか、別の道をとることの方が多い。

人名処理での外字作成と大型機利用、漢字使用の拡大、 CTS(Computerized Typesetting Sytem) が普及、情報通信環境の変化(いわゆるISO 2022-JP)、「漢字典」(京大・勝村氏)やトロン(東大・坂村氏)での漢字処理。

6 96JISでの論点(1)---包摂規準

6.1 96JISの基本方針

図形文字符号表、附属書の漢字表の字形は一切変更しない。文字の追加や入替えを行わない。

6.2 包摂規準の規定化

包摂規準とは、 一般に用いられている字体がどのコードポイントに対応するかを示すための基準である。 この包摂規準は規定の一部である。

(注)UCSでのHan-unificationルールは、規格内に明示されていないのが問題であった。

6.3 包摂規準の枠組み

林メモ、78JIS原案報告書・同削除リスト・JIS規格票字形変更、メーカ字形、新字源、諸橋大漢和辞典、新旧字体による。

包摂規準適用の区点は網羅的に把握する作業を行い(規格本文では、そのうち若干を例示)、包摂規準を非適用の区点は全て規格本文に明示する。

6.4 包摂規準に対する評価

6.4.1 包摂規準を網羅的に把握することは可能か

つまり、さまざまな異体字が存在するから、網羅的とは絵に書いた餅ではないかという批判があろう。これに対しては、デザイン差と字体差とを区別。これにより網羅的リストも可能となる。

6.4.2 規格票の字形と通行の字体との対応はもっと狭くすべき

要するに、事実上の標準だから、JISは字体を決めるべきだという意見である。

パソコンの実装だけがJISではない。現実の実装にはさまざまなバリアントが存在し、それらがJISに適合しないのでは困る。

7 96JISでの論点(2)---典拠未詳字

7.1 幽霊字問題

JIS漢字には、一般の漢和辞典に掲載のない漢字が存在する。そればかりか、典拠の見出せない漢字すら存在する。笹原宏之委員(国立国語研究所)の超人的探索により、「国土行政区画総覧」から多くの用例が発見された。典拠未詳であったJIS漢字のいくつかが同定された。

しかし、未だ確実な用例の発見されない幽霊字が残る。「穃粫挧橸膤袮閠妛暃椦軅鵈恷碵駲墸壥彁蟐」の19字(暗合用例のあるものもあり)。

7.2 典拠未詳字に対する評価

7.2.1 使わぬ文字なら削除すべきではないか

使った形跡が無いことを証明するのは事実上不可能である。しかも、典拠未詳字として論じられること多く、それらの情報交換が不可能になる。

7.2.2 伝統文化の保存

新字源と諸橋大漢和辞典に見えないJIS漢字の多くは、国字であった。 JIS漢字として記録されなければ消える運命にあった国字が保存されたのである。

7.2.3 典拠情報の重要性

同時に、典拠情報の不十分な文字をコード化することの危険さを示唆する。文字集合の拡張の際に、十分に考慮すべきことである。

8 JIS漢字のための文字論

8.1 異体字とは異形同字のことである

異体字とは、字体を異にするが、音訓、意味用法が同じ漢字をいう。異形同字である。

8.2 JISの異体字の扱い

JISの異体字の扱いは、字形の違いが僅かなものを同値と看做し、同じコードポイントを宛てる。すなわち、異体字に、字形の違いの大きいものと、字形の違いの僅かなものの二種を認めたことになる。ここでは便宜、前者を異形同字、後者を類形同字と呼ぶ。

8.3 芸(ゲイ・ウン)問題---同形異字と類形異字

ところで、芸(ゲイ)は、藝の常用漢字体だが、香草の名である芸(ウン)との関係はどうなるであろうか。字形の区別が無いとすれば同形異字、草冠の三画と四画で区別があるというのであれば、類形異字となる。

8.4 図形的特徴による符号化

図形的特徴からは、同形、類形、異形の三種が区別される。これらと同字、異字との関係を示すと次のようになる。


-----------------------------------------

図形     同字     異字     コードポイント

-----------------------------------------

同形     ◎       △       同 

類形     ○       △       同 

異形     ◎       ◎       別 

-----------------------------------------

今回の包摂規準は、(字形の違いが僅かな)類形同字の位置付けの明確化ということも出来る。同形同字と類形同字との境界や、類形同字と異形同字との境界は明確に切れるのではなく、連続的である。

解決が難しいのは、同形異字と類形異字との扱い。図形的特徴のみで、包摂基準を適用するのであれば、△を付した同形異字と類形異字は、同一のコードポイントで問題無し。

しかし、芸(ゲイ・ウン)、柿(かき[市5画]・こけら[市4画])など、同一コードポイントとすることに抵抗感がある。これらは、図形的特徴で区別しようとする努力が (漢和辞書などで)認められる。

9 古辞書における同形異字と類形異字

篆隷万象名義(高山寺本)の「ヒ」(比音) と「匕」(化音) とは、ほとんど区別のない字形で書写されている。同形異字である。

(注)片仮名の「ヒ」で代用。平成明朝体(90JIS)なら、「ヒ」と表示される。

(注)このプリントは、 83JISで印字。左払いが突き抜ける字形。

篆隷万象名義を主要な出典として編纂された図書寮本類聚名義抄では、「益」(広益玉篇)を参照して類形異字の区別を付けている。

康煕字典、大広益会玉篇を通して、類形異字の区別を付けるのが当然で、それの区別をしない古写本は、誤写が多いなどと言われることになる。

ここで、類形異字が同形異字扱いされているという古写本の実態は、切り捨てられる。字形上で、区別が無く同形異字扱いであるという実態を記述することも必要ではないか。

歴史的には、康煕字典的な標準の世界と、非康煕字典的な標準の世界が併存して来たのである。康煕字典的な標準の世界が必要なのは確かだが、それだけを志向するのは疑問と言わざるを得ない。

10 (付)JIS漢字の拡張計画

「7ビット及び8ビットの2バイト情報交換用符号化文字集合---第3水準及び第4水準」の開発計画が発表されている。http://www.tiu.ac.jp/JCS/。情報処理の根幹をなす文字コードに関して、建設的な提案がなされることを期待したい。


[→このページの最初] [→雑文] [→JIS漢字] [→古辞書] [→ホームページ]
(C) Ikeda Shoju 1996 池田 証寿(いけだ しょうじゅ)
E-mail shikeda@Lit.Let.hokudai.ac.jp/KGH01365@nifty.ne.jp