ねじれの漢字


池田証寿・上野千沙・高田智和・樋口由香・増田有香・松浦舞・森田哲平

1 時代は変わる

1.1 電子テキスト(e-text)の流通を支える文字コード

西暦2000年の日本、官民こぞって「IT革命」[注1]を叫ぶ年となった。膨大な量の電子テキストが流通し、それをさまざまな分野で日常的に利用する段階となっており、時代の大きなうねりを感じる。かつて一部の限られた人たちが操作していたコンピュータは、インターネットの爆発的な拡大とともに、多くの人たちの手にする道具となった。電子テキストの生産性は極めて高い段階に達しているといえよう。 しかし、電子テキストにとって不可欠の要素である文字コードそのものに「ねじれ」の現象が存在することはあまり知られていない。ここではその事実を指摘し、さらに、その「ねじれ」の漢字が、実際の電子テキストでどのように出現するのかをCD-ROM版の電子辞書を資料として調査してみようとする。

[注1] 柳沢賢一郎・東谷暁(2000)は日経のデータベースを調査して「IT革命」ということばが1996年に2件、1997年に1件、1998年に15件、1999年に54件であったのが、2000年には7月までで400件を越えていることを指摘している。また、アメリカの好景気とITとに因果関係がないこと、生産性の向上にITが結びつくという理論の怪しげさなどを暴いていて興味深い。

1.2 インターネットの多言語問題と日本語の漢字に内在する異質性

西垣通(2000)によれば、インターネットの多言語問題の特徴は「第一に、当然のことだが、問題はもっぱら書き言葉に関わり、話し言葉は対象にならない」ことと、「第二の特徴は、イニシアチブをとるのが、主に技術・経済関連組織だということ」の二つだという。音声・画像・動画による情報交換は技術的に容易であり、もはや日常化している段階だ[注2]。イニシアチブに関しては、現在、情報機器で日本語を扱うための文字コードを管轄しているのが経済産業省(旧通商産業省)であることを指摘すれば十分であろう。いわゆるJISコード、JIS漢字は正式には、「JIS X 0208:1997 7ビット及び8ビットの2バイト情報交換用符号化漢字集合」と呼ばれる。日本の文字コードといえども、独自にその内容を決定することは出来ない。国際的な規格との整合性を配慮しながら、規格の策定を進めていかなくてはならない。

[注2] 情報機器で音声・画像・動画を管理するには、共通の約束に従って作成されたファイルを用いること、そして、それらのファイルは名前を付けて管理されることを考えると、システム設計や管理において文字による支えが不可欠となっていることが分かる。ユーザがそれを意識しないで済む、ということに過ぎない点は注意が必要である。

日本の国内に目を転じれば、常用漢字(1981年10月1日、内閣告示・訓令、1945字)及び人名用漢字(285字)の範囲に関しては、標準化されているが、それ以外の、いわゆる「表外字」に関してはよりどころというべき規範が明示されていない。いわば「漢字の常識」に強く依存した現実の運用がなされてきたと言えるが、常用漢字・人名用漢字の持つ均質性と対比したとき、表外字に内在する異質性が際立ってくる。国語審議会「表外漢字字体表」(2000年12月8日答申)は、「印刷標準字体」という概念を導入することによって、表外字に内在する異質性を整理しようとしたものと言える。この異質性は内なる「多言語問題」と言い換えることが出来る。人名・地名・組織名などの固有名、日本の古典文学・近代文学に用いられる「正典語」がその典型となろう。

2 漢字使用頻度調査

2.1 漢字使用の実態を記述

どのような漢字がどのくらい使われているのか。漢字の種類とその種類ごとの使用頻度数を、時代や地域を越えて明らかにしたい。時代や地域を越えるのが無理なら、せめてある限定した範囲についてだけでも明らかにしたい。これは多くの人々の興味をひくテーマであったし、現在もそうである。興味をひくのは、一つは真理追求という学問的関心・知的好奇心によるものだが、もう一つは実際の役に立たせるためである。よく使う漢字とは、使用頻度の高い漢字のことであり、それは基本的な漢字であることを意味する。教育上、よく使う漢字から教えていくのは当然のことであろう。かつての活版印刷の文選において、よく使う漢字を、すぐに取れるようにしておくようにすることはその生産性と直接的に結びついていた。現在は、コンピュータを利用して印刷するのが普通となったが、事情は変わらない。そして、分野が異なれば、よく使う漢字は少しずつ違うわけだから、漢字使用頻度調査を行う理論的根拠はなくならないともいえる。

2.3 暗黙の包摂―従来の紙メディアについての調査

豊島正之(1999)が説くように、従来の漢字使用頻度調査では「暗黙の包摂」があった。たとえば「食へん」新旧の同一視、「殻」の一画増減などである。これを後からそれを復元することは困難である。紙メディアに用いられる漢字字体の標準は、「当用漢字表」(1946年11月16日、内閣告示・訓令)や「常用漢字表」(1981年10月1日、内閣告示・訓令)の影響下にあり、時代により相違がある。

たとえば「誘拐」の「拐」は、常用漢字で追加された文字である。追加される以前は、「拐」の旁の「刀」の部分は「力」に作る活字が普通であった。この二つを同じ漢字として数えるか、別の漢字として数えるかによって、使用頻度数は違ったものになる。これは無意識的に処理されることもあるだろうし、かなり意識的に処理されることもあるだろう。いずれにしても、何らかのバイアスがかかった調査結果となっていたことは否定できない。バイアスがかかることはやむを得ないが、それが隠され、純粋に客観的なデータであるかのように提示したり、受け止めたりすることが問題なのだ。

3 JIS漢字のねじれ

3.1 JIS漢字の変遷とその変更点

コンピュータの文字を制御するJIS漢字コードの例示字体は、第一次規格(1978年)から第三次規格(1990年)まで意識的・無意識的な変更が加えられている。第四次規格(1997年)は、明確化のために、追加・変更を一切行わなかった。

さて、JIS漢字の変更としてしばしば話題となるのは、第二次規格(1983年)における「意識的」変更である。変更点は、規格「改定」案作成の責任者である、野村雅昭がまとめた野村(1984)に詳しい。それよれば、変更点は、(1)非漢字の追加、(2)漢字の追加、(3)異体字の位置の変更、(4)印刷字形の変更の4点に及ぶ。(4)の詳細は不明であるが、野村論文に挙げる294字は、大体次のように分類できる。

(a) 常用漢字に関するもの…14字
拐喝嫌溝遮逝栓濯棚塚扉頻泡癒(第一水準)
(b) 人名用漢字に関するもの…16字
尭慧昂冴渚梢翠琢那槙遥遼(第一水準)
瑶皓翔迪(第二水準)
(c) 通用字体の準用に関するもの…151字(この項目はすべて第一水準)
唖逢芦飴溢鰯迂欝厩噂餌焔襖鴎迦晦葛鞄噛澗翰翫徽祇侠
卿僅躯喰櫛屑祁繋倦捲鹸諺巷麹鵠甑采榊柵薩鯖錆珊屡杓
灼繍酋曙薯藷哨廠蒋醤鞘蝕逗摺蝉撰煎煽詮噌遡掻痩遜騨
腿黛啄蛸巽辿鱈樽箪註瀦凋捗槌鎚掴辻鄭擢溺填顛堵屠菟
賭塘祷涜瀞噸遁頓謎灘楢禰嚢牌這秤剥箸溌醗挽樋柊稗逼
媛謬廟瀕蔽瞥娩庖蓬頬鱒迄麺儲餅籾鑓愈猷耀莱漣煉蓮榔
(d) 異体字の位置に関するもの…44字(22組)
鯵鴬蛎撹竃潅頚砿靭賎壷砺梼蕊涛迩蝿桧侭薮篭諌(第一水準)
鰺鶯蠣攪竈灌頸礦靱賤壺礪檮蘂濤邇蠅檜儘藪籠諫(第二水準)
(e) 部分字形の統一に関するもの…47字(この項目はすべて第二水準)
冉唹唳嘲堋媾屏捩搆攅斃枦湮珎甄甍甕硼稱箙粐粮綛綮綟
舮芍苒茣荵蔗蛛螂蟒褊覯諞譁跚踉輓遘霤靠鮗鯲麪
(f) 独自の理由に関するもの…22字
淫恢概稽荊捌鴇(第一水準)
兔冕冤嚥寃悗枴梛梍爨龝釁頤鬮龜(第二水準)

次に無意識的な変更としては、第三次規格における平成明朝体開発に伴うものを挙げることができる。微妙な違いが多いが、Lunde(1995:382)は145字を例示している。

3.2 紙メディアと電子メディアとのずれ

紙メディアの漢字にはその字体にゆれがあり、電子メディアの漢字にもその字体にゆれがある。両者のゆれが交差するところにおいて、微細なゆれは、時として大きなずれとなって立ち現れる。

この問題を正面から取り上げたのは、横山詔一ほか(1998)である。『朝日新聞』1993年一年分の記事を電子化したデータ(CD-HIASK’93)の解析を進めると同時に、実際の新聞紙面との照合を行い、電子メディアの文字データは、紙メディアの姿を忠実に反映していないこと、両者の照合により信頼度の高い漢字頻度表の作成に成功している。

この報告で「ねじれの漢字」と称するのは、横山ほか(1998)において「JIS漢字のネジレ部分」とされる漢字であり、上に一覧した(a)から(f)のうち、(d)異体字の位置に関するもの44字(22組)の漢字である。

3.3 方法としての「文字コードの非互換的変更」

JIS漢字第二次規格における非互換的な変更の影響するところは大きかったし、これについてはしばしば批判的に論及されてきた。ここでその批判を繰り返すつもりはない。非互換的な変更が施された漢字の使用実態を観察することによって、電子テキストの質を吟味するという方法をとってみたいと思う。この方法は、むろん、横山ほか(1998)に示唆されてのものであるが、我々の研究においては、紙メディアよりも電子メディアの方により重きを置いて考えてみたいと思う。すなわち、横山ほか(1998)では、紙メディアと電子メディアとを照合しているが、紙メディアが本当の使用実態(情報)であるという立場に立っている。その限りにおいて、電子メディアは紙メディアの情報がねじれ、歪められたものとして把握される。しかし、電子メディアにおける一見不統一な使用実態が、むしろ文字使用の自然な姿である可能性も存しているのではないか。そして、その自然な姿は、電子メディアの流通の拡大により失われ、統制されていくことが予想される。

4 ねじれの漢字を調査する資料

4.1 CD-ROM版の電子辞典・事典を取り上げる理由

辞典・事典(以下、辞事典)を取り上げる。その理由は、第一に、辞事典は他の電子テキスト資料に比べて、規範性がより強いと考えられるからである。第二に、CD-ROM版として刊行される辞事典は、書籍版として刊行されていたものがほとんどであり、電子テキストと照合できることが挙げられる。

4.2 調査資料としたCD-ROM版辞事典

調査にあたっては以下の資料を用いた。タイトル、出版社、刊行年を項目に掲げ、それぞれについて(a)対応OS、(b)データ形式、(c)検索ソフト、(d)収録内容、(e)その他の情報を摘記した。

1. 『CD-ROM版ジーニアス英和・和英辞典』大修館書店、1998年、ISBN4-469-79057-5、9000円+税

(a) 対応OS:Windows95/98/3.1、Power Macintosh
(b) データ形式:EPWING規約第2版準拠
(c) 検索ソフト:ViewIng95 version2.20e、イースト
(d) 収録内容
・小西友七編集主幹『ジーニアス英和辞典改訂版』大修館書店、1994年
 収録語数約92,000語を収める。
・小西友七編集主幹『ジーニアス和英辞典』大修館書店、1998年
 収録語数約80,000語を収める。
(e) その他
テキストデータのハードディスクへのインストール使用は不可。

2.『広辞苑 第五版 CD-ROM版』岩波書店、1998年、ISBN4-00-130072-9、11,000円+税

(a) 対応OS:Windows95/98、Power Macintosh漢字Talk7.5以上
(b) データ形式:EPWING規約第5版準拠
(c) 検索ソフト:ことといLight for Windows3.0.6.0、岩波書店・大日本印刷・イニューシステム、1998年
(d) 収録内容
・新村出編『広辞苑 第五版』岩波書店、1998年
 総項目230,000語を収める。
・他、漢字10,000項目、表100、文献資料550、画像10,000、動画100、音声230、色の見本240などのマルチメディアデータを収録。
(e) その他
テキストデータのハードディスクへのインストール使用が可能。

3.『ブックシェルフ2.0 エンカルタ総合大百科版』マイクロソフト社、1998年

(a) 対応OS:Windows95/98/NT4.0
(b) データ形式:独自
(c) 検索ソフト:Quick Shelf、マイクロソフト社
(d) 収録内容
・尚学図書編『国語大辞典(新装版)』小学館、1988年
・小西友七編『プログレッシブ英和中辞典第3版』小学館、1980、87、98年
・近藤いね子・高野ふみ編『プログレッシブ和英中辞典第2版』小学館、1986、93年
・『類語例解辞典』小学館、1994年
・『故事ことわざ辞典』小学館、1986年
・『電子ブック版データパル総合版91〜96』小学館、1996年
・『電子ブック版データパル総合版97〜98』小学館、1997年
・『電子ブック版データパル総合版98〜99』小学館、1998年
・『アメリカンヘリテイジ英英辞典第3版』Houghton Mifflin Company、1992年
(e) その他
テキストデータのハードディスクへのインストール使用が可能。

4.『スーパーニッポニカ(ライト版)』小学館、1999年、ISBN4-385-61404-0、15,000円+税

(a) 対応OS:Windows98/95/NT4.0
(b) データ形式:独自
(c) 検索ソフト:独自
(d) 収録内容
・『日本大百科全書』小学館、1984〜94年、2版1994〜97年
・尚学図書編『国語大辞典』小学館、1988年
 25万語を収録。
・関連のあるホームページURLを約5000搭載
・5600箇所更新1000項目の追加
(e) その他
・フォント「小学館明朝」は、大日本スクリーン製造株式会社のライセンス供与に基づいて小学館が権利を有する「ヒラギノ明朝4DP」ベースに作成した。本文見出しに使用されている「ヒラギノ明朝6DP」は、大日本スクリーン製造株式会社が権利を有するものである。
・テキストデータのハードディスクへのインストール使用が可能。

5.『日本語語彙大系CD-ROM版』岩波書店、1999年、ISBN4-00-130101-6、60000円+税

(a) 対応OS:Windows98/95、Power Macintosh漢字Talk7.5.3以上
(b) データ形式:EPWING規約第4版準拠
(c) 検索ソフト:ことといLight Ver.3
(d) 収録内容: 『日本語語彙大系』(全5巻)NTTコミュニケーション科学基礎研究所、1997年
・「単語体系」日本語語彙の意味的用法を焼く3,000の意味属性を用いて定義したもの。30万語を収録。
・「意味体系」日本語の一般名詞・固有名詞・用言の意味的用法を3,000の意味属性から体系化した「意味属性体系」と、「意味属性別単語表」と、「意味属性別文型パターン対表」からなる。
・「構文体系」日本語の用語6,000語の文型を結合価パターンにまとめたもの。対応する英語の文型パターンも収録。
(e) その他
テキストデータのハードディスクへのインストール使用が可能。

6. 『CD-ROM版新英和・和英中辞典〈音声データ収録〉』研究社、1995年(1996年)、ISBN4-7674-3544-7、6,200円+税

(a) 対応OS:Windows95/3.1、Power Macintosh漢字Talk7.5以上。
(b) データ形式:EPWING規約第2版準拠。
(c) 検索ソフト:ViewIng95 version2.20c、イースト、Mac版/ユニバーサルコムピュータシステム
(d) 収録内容
・竹林滋・吉川道夫・小川繁司編『新英和中辞典 第6版』研究社、1994年
 総収録語数約90,000語、用例約83,000語、音声データ約15,000を収める。
・R.M.V.Collik・日南田一郎・田辺宗一『新和英中辞典 第4版』研究社、1995年
 総収録語数約70,000語、用例約100,000語を収める。
(e) その他
テキストデータのハードディスクへのインストール使用が可能。

以下、便宜上それぞれ「ジーニアス」、「広辞苑」、「ブックシェルフ」、「ニッポニカ」、「語彙大系」、「新英和・和英」、「マイペディア」、「新明解」と略記することとする。

5 調査方法について

5.1 CD-ROM版辞事典付属の検索ソフトについて

5.1.1 検索対象

検索する際には、各CD-ROMに付属のソフトを使用した。ここでは、その検索ソフトの検索方法を比較、概観してみる。

検索ソフトが検索する対象を各ソフトでは指定することができる。検索対象として、主なものとしては「全文検索」と「見出し語検索」がある。「全文検索」とは、CD-ROMに収録されている全テキストを対象として検索をかけるものであり、「見出し語検索」とは見出し部分を検索するものである。なお、「見出し語検索」とは、ViewIng95、ことといLight、DTONICの用語である。同様の検索機能を「ブックシェルフ」では「索引検索」、「マイペディア」では「項目名検索」と呼んでいる。

5.1.2 一致タイプ

検索する文字列がどのように情報と一致するかを指定可能なものも、付属ソフトにはあった。一致タイプとして主なものは「完全一致」「前方一致」「後方一致」等がある。それぞれの意味は次のとおりである。

完全一致:検索文字列に完全に一致する情報を検索する
前方一致:検索文字列を情報の先頭に含むものを検索する
後方一致:検索文字列を情報の最後に含むものを検索する
部分一致:検索文字列を情報のどこかに含むものを検索する

「マイペディア」は「前方一致」を「で始まる」と呼び、「後方一致」を「で終わる」と呼ぶ。

5.1.3 用例の表示方法

検索を行った際、検索ソフトによって用例の表示方法が異なっていた。見出し語検索の場合は(1)見出し語と説明(用例含む)を一括表示しているものと、(2)見出し語のみが表示されて、選択すると説明(用例含む)が表示されるものがあった。全文検索では、検索対象の語を含む見出し語が表示され、選択すると、用例を含む説明が表示されるものがあった。

5.1.4 検索方法のまとめ

以上の3つの観点から、各ソフトの検索方法を比較し以下の表1にまとめた。○は付属ソフトに用意さている機能。◎は実際に調査で使用した機能。×は用意されていなかった機能を示している。

表1 各ソフトの比較
辞事典 付属ソフト 全文 検索 見出し 検索 前方 一致 後方 一致 部分 一致 完全 一致
ジーニアス ViewIng95 × × ×
広辞苑 ことといLight for windows
ブックシェルフ Quick Shelf (独自) ○ 索引 × × ×
ニッポニカ 独自 × ×
語彙大系 ことといLight
新英和・和英 ViewIng95 × ×
マイペディア 独自
新明解 DTONIC × ×

5.2 EPWINGとは

「広辞苑」「ジーニアス」「語彙大系」については、データ形式としてEPWINGという規格に準拠していた。このEPWINGとはどのような規格であろうか。

「アスキー・テジタル用語辞典」(http://www.ascii.co.jp/ghelp/09/000951.html)で検索して見ると次のように説明されている。

EPWING(いーぴーういんぐ)
電子出版物の共通フォーマットの1つ。「イー・ピー・ウィング」と読む。電子ブック(EB)がソニーを中心としてまとめられたのに対し、EPWINGは富士通を中心にまとめられた。EBは8cm CDを使用するのに対し、EPWINGでは12cm CDを使用する。ただしEBとEPWINGの基本的な構造は同じで、検索ソフトウェアなどには同じビューアを使うことができる。 EPWINGにはV1、V2、XA、STの4つの種類がある。このうちV1はEPWINGの基本検索機能を定義しており、モノクロ図版のほか、CD-DA の音声も再生できる。V2はV1に加え、カラー図版をサポートしている。XAはADPCMの圧縮音声をサポートする。STはストリームの略で、これまでの電子出版物とは少々趣が異なり、カラー画像の表示と音声の連続再生をサポートする。

EPWINGコンソーシアム(http://www.epwing.or.jp/epwing/epwing2/index.html)のページによれば、その規約は次のように規定される。

EPWING規約は、電子出版物を従来の書籍と同様に一般に広めるために、機種間の互換を実現することを目的としている。電子機器上で書籍データが、従来の書籍と同様に見ることができるのは勿論、電子出版物の優位点である「探すこと」が簡単に即座にできるようなCD-ROMデータ記録形式を規定している。

この規格に準拠したCD-ROMを共通で検索できるソフトが提供されている。その中でも代表的なものとして、Ddwin Ver2.57(2000.9.17、フリーソフト、草本和馬)がある。これは、インターネット上でフリーソフトとして一般に提供されているもので、EPWING規格に準拠したCD-ROMを検索することができる。また、一度に「串刺し検索」などを行うことも可能であるため、今後の調査で使用してもよいだろう。

6 調査結果について

6.1 見出し語検索による集計

見出し語を対象としてねじれの漢字を検索し、用例を集計することとした。調査結果は表2のとおりである。集計の都合で次の5資料の数値を示してある。

(1)「語彙大系」
(2)「新英和・和英」
(3)「新明解」
(4)「ジーニアス」
(5)「ニッポニカ」

「広辞苑」「ブックシェルフ」「マイペディア」の3資料は、以下に述べる理由により用例数を集計しなかった。

「広辞苑」の検索ソフトは、ねじれの漢字について第一水準と第二水準とを区別しない。たとえば、「鴬」で検索しても「鶯」の検索結果もヒットしてしまう。作業量を勘案して今回は除外した。

「ブックシェルフ」は、多数の辞典を収録しているため、それらすべての単語を数えるのでヒット件数がかなりの数に上るが、重複が多い。質の異なる資料を区別しないことにもなるので、今回は除外した。

「マイペディア」は、見出し語検索の使い勝手がよくなかったのと、関連項目まで一挙に表示してしまい、それらの区別が容易でない。今回は除外することとした。

 
表2 各資料の用例数の詳細
一水(1)(2)(3)(4)(5)小計二水(1)(2)(3)(4)(5)小計
11000101122301118
22800002804916276
31800112020301823
440050903401320
52600002602605765
61300401716813046
720004024131002337
81900602555806785
940000430040438
10180634313211310
111333112103001518
12010102162725683
13510020531324291121
147000188000412
15900009100012
1660011870405667
17800008300036
18163050240012098110
195400015511036327149
201900001900110314
2166300069891115980204
22157004116210174814114284
合計5661093810633380946183338362,378

6.2 漢字の出現状況

表2の結果から判明するように、ねじれの漢字22組のすべてが5資料に出現するわけではない。たとえば、1「鯵」「鰺」の組について見ると、「鯵」は(1)「語彙大系」と(4)「ジーニアス」の2資料に出現し、「鰺」は(1)「語彙大系」、(2)「新英和・和英」、(3)「新明解」、(5)「ニッポニカ」の4資料に出現する。この例のように、組となる漢字のいずれかが5資料に共通して出現するのであれば、その傾向性を考察することにも意味があるといえるだろう。しかし、たとえば、15「梼」「檮」の組は、「梼」が(1)「語彙大系」に、「檮」が(5)「ニッポニカ」に出現するが、(2)「新英和・和英」、(3)「新明解」、及び(4)「ジーニアス」にはいずれも出現しない。こうした例に基づいて傾向性を考えるのは無理があろう。そこで、「鯵」「鰺」のように、5資料に共通して出現するねじれの漢字を検討対象とすることにする。検討対象となるのは、22組のうち14組である。整理しなおしたのが次ページの表3である。資料名は表2と同じく(1)〜(5)で示す。さらに、●○▼▽=により、第一水準・第二水準のどちらに対応するのか、またその多寡はどうなっているかを示すこととした。記号の意味は次のとおりである。

●……第一水準字のみが出現
▼……第一水準字が第二水準字より多く出現
○……第二水準字のみが出現
▽……第二水準字が第一水準字より多く出現
=……第一水準字と第二水準字とが同数
 
表3 5資料に出現する漢字
(1)102(1)195(1)160
(2)02(2)05(2)30
(3)03(3)08(3)012
(4)10(4)60(4)50
(5)011(5)067(5)098
(1)280(1)183(1)54110
(2)04(2)02(2)03
(3)09(3)61(3)06
(4)01(4)31(4)03
(5)062(5)43(5)127
(1)40(1)130(1)6689
(2)03(2)33(2)311
(3)04(3)30(3)015
(4)50(4)10(4)09
(5)013(5)115(5)080
(1)131(1)016(1)157101
(2)06(2)12(2)07
(3)08(3)07(3)048
(4)41(4)12(4)414
(5)030(5)056(5)1114
(1)201(1)511
(2)03(2)03
(3)010(3)024
(4)40(4)22
(5)023(5)091

表3を一覧すると、白黒の出現が漢字により異なっているように見える。たとえば「薮」「藪」の組は▽と○しか出てこない、つまり第二水準字がどの資料にも多い。一方「蕊」「蘂」の組は、▼が4資料なのに○は1資料しかない。つまり第一水準字を使う資料が多い。そこで出現の偏りを見るために、●と○を1点、▼、▽、及び=を0.5点と計算して、第一水準字と第二水準字との比をとってみた。結果は表4の通りである。便宜上、用例が3例以上と1〜2例とを区別した。配列はおおよそ第二水準の優勢な漢字から第一水準の優勢な漢字へとした。

 
表4 5資料に出現する漢字の偏り
3例以上1〜2例
蕊蘂2:000:01
靭靱2.5:10:01
賎賤0:04
桧檜0:04
薮藪0:04
鯵鰺0.5:21:01
鴬鶯1:030:01
潅灌1:03
諌諫1.5:3
頚頸1.5:3
壷壺01:03.5
篭籠0.5:3
蝿蠅3:02
撹攪2:03
第一水準字:第二水準字  

表4によると、おおよそ3グループに分けることができそうである。漢字は組で示し、該当する例に下線を施した。

表3の5資料に出現する漢字以外の例は、表5表6、及び表7にまとめたので参照されたい。偏りの分析は省略する。

 
表5 4資料に出現する漢字
(1)182(1)260(1)67
(2)00(2)02(2)00
(3)03(3)06(3)04
(4)10(4)00(4)10
(5)118(5)057(5)156
 
表6 3資料に出現する漢字
(1)430(1)190
(2)00(2)00
(3)04(3)011
(4)00(4)00
(5)04(5)03
 
表7 2資料に出現する漢字
(1)78(1)91(1)83
(2)00(2)00(2)00
(3)00(3)00(3)00
(4)00(4)00(4)00
(5)14(5)01(5)03

6.3 用例の一覧

次に表8に用例を一覧するが、紙幅の関係もあり、(1)「語彙大系」、(2)「新英和・和英」、(3)「新明解」の例を示す。表8は末尾に附載した。

6.4 第一水準字の多さ

ねじれの漢字の出現状況を、比較的規範性が高いと考えられるCD-ROM版の電子辞書を中心に調査してみた。どのような資料を選択するか、どのような項目を調査対象とするか、どのような検索方法を用いるか、といった方法的な検討に時間を割かれてしまい、対象とした資料のすべてについて相互に比較しうるだけのデータを作ることができなかった。それでも第一水準の漢字が、予想した以上に多く使われていることを確認できた。表5の合計で示せば、5資料中のねじれの漢字の出現数は、第一水準字が633字、第二水準字が2378字である。第一水準字が四分の一、第二水準字が四分の三を占める。

ねじれの漢字の第一水準字には、「略字」「簡易字体」が多いが、どのような理由によってそれらが使用されたのであろうか。いくつかの理由が想定され、実際には、それらが複合しているものと考えられる。

ねじれの漢字は、1983年の第二次規格の改正に起因するものだが、それ以前からデータの入力を行っていた、あるいは、1978年の第一次規格の漢字を基本的に搭載したコンピュータでデータ入力を行っていたといった事情により、当初の意図に反して第一水準字が多く出現することになったということが考えられる。

また、コンピュータの仮名漢字変換システム(IME)の利用において、第一水準字が先に出るため一定の頻度が出てきたということもあるかもしれない。

さらに、より本質的な問題としては、第一水準字のような「略字」でも差し支えないとする意識があったことが考えられるだろう。いわば「暗黙の包摂」があったのだということである。こうした「暗黙の包摂」は規範性の強い資料においては排除すべきである、とするのも一つの考え方であろう。しかし、現実の漢字字体の認識は、ねじれの漢字をねじれと意識しない程度のものをも含んでいるのだと考えることもできるであろう。後者の線で考えて、出現の頻度やその意識の程度を見る方が研究としては面白い。

今後、調査対象の拡大と、調査方法の洗練とともに、こうした点について考察していきたい。

参考文献

朝日新聞社(1994)『CD-HIASK'93 朝日新聞記事データベース』紀伊国屋書店
豊島正之(1999)「書評 横山詔一・笹原宏之・野崎浩成・エリク=ロング『新聞電子メディアの漢字―朝日新聞CD-ROMによる漢字頻度表―』」『日本語科学』6
西垣通(2000)「インターネット時代のアジアの言語」『言語帝国主義とは何か』藤原書店
野村雅昭(1984)「JIS C 6226 情報交換用漢字符号系の改正」『標準化ジャーナル』1984.3
横山詔一・笹原宏之・野崎浩成・エリク=ロング(1998)『新聞電子メディアの漢字―朝日新聞CD-ROMによる漢字頻度表―』三省堂
柳沢賢一郎・東谷暁(2000)『IT革命?そんなものはない』洋泉社
Lunde, Ken(1998)『日本語情報処理』ソフトバンク
(いけだしょうじゅ・うえのちさ・たかだともかず・ひぐちゆか・ますたゆか・まつうらまい・もりたてっぺい)
(初出:「古辞書とJIS漢字」第4号、2001年3月))
[→このページの最初] [→雑文] [→JIS漢字] [→古辞書] [→ホームページ]
(C) Ikeda Shoju 2001 池田 証寿(いけだ しょうじゅ)
E-mail shikeda@Lit.Let.hokudai.ac.jp/KGH01365@nifty.ne.jp