【2001年5月17日追記】 初出は「人文学と情報処理」No.8(1995年8月、勉誠社)。現在となっては 過去の記録としてしか役に立たない。URLも多くは変更していると 思われるがそのままにしておく。

インターネットを利用しての学術情報交流
―JIS漢字関連情報の収集とその公開―


池田証寿

1 はじめに

私のコンピュータおよびインターネットについての関心は、次の二つに集約で きる。一つは、人文系研究者がコンピュータやインターネットをどの程度利用で きるか、その可能性を自分の手で検証することである。もう一つは、コンピュー タの漢字処理に関する情報を収集し、それに関連する自作の電子化テキストを公 開することである。

次に、学術情報交流という点については、従来のやりかたと本質的に変わる点 はないと考えている。あるとすれば、一つはスピード、もう一つは追試を容易に することである。以下、こうした点について、失敗談を交えながら、具体的に述 べていこう。

2 人文系研究者はコンピュータやインターネットをどの程度利用できるか

結論を先にいえば、インターネットに接続して、電子メールや、いまはやりの WWWを利用することはそれほど難しくない。むろんこれには条件が付く。時間と労 力を厭わなければ、である。もし、コンピュータのセットアップに時間と労力を うばわれたくないのであれば、もっと使いやすいコンピュータが出現するのを待 つか、いっそコンピュータを使うことなどやめてしまえばよい。かえってその方 がコンピュータと人間との関係について見えてくるものがあるかもしれない。し かし本誌の読者にそこまで割切れる人は少ないだろう。乗りかかった船という表 現がある。もしWindows3.1やMacOS7.5が動くパソコンを使っていて、大学や研究 所の廊下の天井までケーブルが来ているなら、これを見逃す手はない。多少の時 間と労力とをかける価値は充分にある。恐れずにインターネットの大海に船出し てみよう。

そうはいっても何の予備知識も持たずにインターネットの大海に出て行こうと するのは無謀というものである。まずは書店でインターネット関連の書籍、雑誌 を購入してきて拾い読み、斜め読みである。技術的な情報が豊富な本[1]も一冊 は必ず購入しておこう。

次に大学であれば、情報処理センターとか計算機センターが主体となって広報 誌やネットワーク利用のための手引き[2]を刊行していることが多い。刊行の有 無を確かめて必ず入手しなければならない。手引き等の刊行の有無を確認するに は所属部局の情報処理関係の委員、それで分からなければ情報処理センターに問 い合せればよい。それぞれローカルなネットワークの内部で固有の情報や接続の ための手順があり、中途半端な知識でネットワークに接続してネットワーク全体 に迷惑を及ぼすような愚は避けなければならないのである。

私がつまずいたのは数多く、いちいちすべてを書く余裕はないのだが、つまず いたなかで最も重要な情報と後から分かったのが、DNS(Domain Name System)の 設定である。もう少し詳しくいえば、ネームサーバーのIPアドレスを知るのに手 間がかかったということである(インターネットに接続された UNIX のワークス テーション上で、nslookupコマンドを使えばこれを調べることができる)。DNS はインターネットにつながれたコンピュータのアドレス(IPアドレス)と名前 (ホスト名)の分散データベースシステムのことである。ホスト名(IP接続する 自分のコンピュータの正式な名称。たとえば、gipac.shinshu-u.ac.jp。FQDN (Fully Qualified Domain Name)という)から、IPアドレスを検索したり、その 逆に、IPアドレスからホスト名を検索したりする。ローカルなネットワークでの IPアドレスとホスト名(コンピュータ名)は、ユーザーの所属する組織のネット ワーク管理者が、ネームサーバーへの登録、管理を厳重に行っている。自分のコ ンピュータのIPアドレスとホスト名をネットワーク内のネームサーバーに登録し なければ、WWWはもちろん、FTPすら利用できないことがある。たとえば私の所属 する信州大学では約二千台のコンピュータがIP接続されているが、その維持管理 は総合情報処理センターのネットワーク管理者が行っている。その労苦は想像を 絶するものがあり、ネットワークを利用しようとする者は、ネットワーク管理者 に迷惑のかからぬよう最大限の努力をしなければならない。

所属する組織のネットワーク環境がどうなっているか。これを確認することは 組織内での学術情報交流の出発点でもある。多くの場合、組織内に限定したロー カルなネットニュースやメーリングリストがあり、それを通して情報交換を行う ことができる。人文系以外の研究者、学生が参加していることが多いが、コンピ ュータのソフト・ハードに関してさまざまな情報が、必要な分だけ流れている。 無料で利用できる国内外の図書館のオンライン検索サービスや科学研究費申請書 作成用TeX[3]マクロなどは、ローカルなネットワークやメーリングリストを通し てその情報を入手することができた。またもしWWWサーバーを立上げようという 志があるのであれば、組織内での学術情報交流を緊密にとっておく必要がある。 WWWはインターネットキラーともいわれ、ネットワークのトラフィックを増大さ せているからである。信州大学の場合はSINET(Scientific Information NETwork。学術情報処理センターの運営する大学・公的研究機関中心のネット ワーク)のノードが長野市の工学部まで来ているが、そこから人文学部や本部・ 経済学部理学部・医学部・医療技術短期大学部のある松本市まではSUNS (信州大学画像情報ネットワークシステム)と称するデジタルマイクロ波無線回 線によって接続されている。現在の回線容量は1.5MBである。WWWサーバーを始め る学部・研究室も少なくなく、この1.5MBの回線はいかんともしがたい容量なので ある。組織によって状況は異なるであろうが、まずは足許を固めておくことが肝 要かと思う。

3 漢字処理に関する情報の収集

コンピュータで扱える漢字はたかだか六千字である。これは「JIS X 0208-1990 情報交換用漢字符号」に定められているが、古文献をコンピュータで処理しようと するには少なすぎる。特に私の研究テーマとする日本の古辞書の場合、例えば「篆 隷万象名義」(空海撰)で約一万六千字の収録漢字を数えるというように万を遥か に超えており、JIS X 0208ではとても足りない。かといって外字を一万字も作成す る根気も無ければ、それだけの能力のあるパソコンも無いのである。しかし、そう こうしているうちに、コンピュータで扱える漢字が増えそうだという情報が入るよ うになった。すなわち、1990年には補助漢字が制定され(「JIS X 0212-1990 情報 交換用漢字符号―補助漢字」)、また1993年には国際符号化文字集合が公刊された (ISO/IEC 10646-1:1993)。さらに、今年4月にこれをJIS化した「JIS X 0221- 1995 国際符号化文字集合(UCS)―第1部 体系及び基本多言語面」が出た。 したがって、JIS X 0208に無い漢字は、今のところ、補助漢字や国際符号化文字集 合のコードと「大漢和辞典」(諸橋轍次編)の検字番号とを入れておき、JIS X 0212かJIS X 0221が使えるようになったら、一気に変換してしまえばよいと考え たのである。この発想が出発点である。その目的のために、補助漢字と「大漢和辞 典」番号との対照表を作成したり、国際符号化文字集合(UCS)と「大漢和辞典」番 号との対照作業を行ったりした。もちろん、一からすべて作成して行くのはたい へんな労力を要するから、すでに公開されているデータを利用させてもらった。 JIS X 0208は豊島正之氏、金水敏氏、古田啓氏の手になるYDIC [4]、 ISO/IEC 10646-1:1993の 「統合漢字」のデータはUnicode,Inc.が公開しているもの[5]を 利用した。

その後、JIS X 0208に関しては、Ken Lunde[6]の“Understanding Information Japanese Processing”O'Reilly & Associates,Inc. 1993)で、 Jim Breen[7]KANJIDICの存在を知り、anonymous FTPで入手[8]。この KANJIDICを入手したころは、まだ研究室のパソコンがIP接続されていなかったた め、総合情報処理センターまで出かけて行ってファイルをフロッピーディスクに 落とした。

このような過程を通じて驚いたことは、海外の研究者や組織の手になる日本語 処理関係のプログラムやデータが数多く一般に公開されていることであった。

4 漢字処理に関する電子化テキストの公開

現在、私は僅かばかり自作の電子化テキストを信州大学湯田彰夫[9]の管理す るワークステーションにおかせてもらい、anonymous FTPで公開している。このこ とを思い立ったのは、一つには私の属する組織のネットワークの発展に何らかの 形で参加したいと考えたからである。もう一つは海外で漢字関連のプログラムや データが公開されているのに、日本でそうした情報を国語学の分野から公開でき ないのはなんとも情けなくなったからである。

そこで、学内のローカルなネットニュースで、学内でanonymous FTPをやってい るホストがないかどうか、またどうやったらそのホストにおいてもらえるかを聞い てみたのである。直ちに、anonymous FTPはこれこれ、Gopherはこれこれ、WWWは これこれとの情報があり、おいてもらいたければ、ホストの管理者にお手紙を書 いてはいかがでしょうか、との回答。それで、さっそく、FTPサーバーを運用され ている湯田氏にお願いしたところ(もちろん電子メールで)、オリジナルなデータ は少ないのでよろこんで引き受けましょうとの返事であった。

それで次に、FTPでファイル転送となったのだが、簡単には行かない。ディスク 容量節約のためファイルを圧縮したのだが[10]、ファイル転送の際にbinaryモード にするのを忘れて転送に失敗。それではということで、総合情報処理センターの ワークステーションの湯田氏のディレクトリにコピーしたのである。これでファイ ルの転送と登録はできたのであるが、ファイルのパーミッションの設定を誤り、 削除できないという具合になってしまった。あまり使ったことのないUNIXのコマ ンドを打ち込んで、パーミッションを変更、さらにそれを確認してもらったとこ ろで、一応の作業が終了した。その時は、いやはやなんとも多大の迷惑をかけて しまったと後悔するばかり。電子化テキストの公開に後悔は付き物ということか と嘆いたのであった。

しかし、時間と労力をかけておいてもらった電子化テキストが全く利用されな いというのでは、それこそ本末転倒ということなので、折に触れて宣伝した。イ ンターネットのニュースグループfj.kanjiでの反応[11]がいくらかあった。国語 学分野からは、岡島昭浩氏から詳細なコメントをもらい有り難かった。

参考として私の書いたreadmeファイル[12]の内容を以下に引用しておこう。

ここには、JIS X0208/0212/0221 のための漢字字書、漢字字書作成のためのツール、 漢字字書の見本などがおいてあります。

これらのデータとプログラムの利用にあたっては、それぞれに添えられた説明書 をよくお読みになってください。


【1】JIS X0208-1983 のための漢字字書

    ydic.lzh        ;新字源・大漢和辞典番号等を表示(豊島正之、金水敏、古田啓

                     の三氏作)

    kanjidic.lzh    ;JIS の区点番号、各種漢字字書番号を表示(Jim Breen氏作)

    itaiji.lzh      ;JIS X0208 の異体字情報を整理(金水氏作)

    ldicj08.lzh     ;大漢語林番号を表示(池田証寿・林立萍作)

【2】JIS X0212-1990 のための漢字字書

    jish.lzh        ;区点番号と大漢和辞典番号を表示(池田証寿作)

    ldicj12.lzh     ;大漢語林番号を表示(池田証寿・林立萍作)

【3】JIS X0221(ISO/IEC 10646-1) のための漢字字書

    cjk-jis.lzh     ;統合漢字のコード番号とJIS X0208/0212との対照表(池田作)

【4】漢字字書の見本

    myogisho.lzh    ;図書寮本類聚名義抄掲出字索引(池田作)

    tenrei04.lzh    ;篆隷万象名義データベース〔暫定版〕(池田作)

【5】漢字字書作成のためのツール(MS-DOS用)

    addkinfo.lzh    ;漢字字書情報を付加える(mtoyo氏作)

    sortf07.lzh     ;フィールド対応高速ソート(同上)

    putdic.lzh      ;漢字字書情報を付加える(金水氏作)

    cgrep23.lzh     ;grepです(AssistantIO氏作)

    comm.lzh        ;二つの file の比較(kon_yasu氏作)

    join.lzh        ;二つの file を結合(MASSAN氏作)

    jchar.exe       ;JIS X0208の一覧・常用漢字等を出力(Ken Lunde氏作)

    jconv.exe       ;JIS,EUC,Shift-JISの変換(同上)

    jcode.exe       ;各種(JIS,EUC,Shift-JIS)のコードポイントを表示(同上)

# これらのツールは、【2】【3】【4】 のファイルの作成者が、個人的によく

# 利用しているものであって、これがなければ漢字字書を作成できないわけではあり

# ません(念のため)。

【6】 付録

    manyo.lzh       ;万葉集 text file(吉村誠氏作)

なお、以上のファイルは、このマシンの管理者である、 湯田彰夫先生(信州大学繊維学部)に、池田証寿(信州大学人文学部)がお願いして おかせて頂きました。湯田先生の御厚意に感謝します。また、何か不明な点がありまし たら、池田(e-mail:shikeda@gipac.shinshu-u.ac.jp)までお願いします。

5 学術情報交流

本稿冒頭に述べたように、インターネットを利用した学術情報交流は、従来の やりかたと本質的に変わる点はないと考えている。あるとすれば、一つはスピー ド、もう一つは追試を容易にすることである。

スピードは確かに魅力的な利点だが、下手をすると「麻薬」になりかねない。 電子メールにしてもメーリングリストにしてもすばやい反応はなにか「快感」を 覚えるところがあるのだが、それを続けていると、いつのまにか、すばやい反応 がないとフラストレーションがたまってしまうのである。これはネットニュース やパソコン通信などでも同じであろう。情報の質が問題なのであり、そのための スピードである。これを忘れないでおこう。

上手にインターネットを使っていると感じる例もある。

ftp://ftp.ora.com/pub/examples/nutshell/ujip/doc/cjk.inf

これは先に名前を出したLunde氏が日本、中国、台湾、韓国の漢字処理の情報を まとめたものであるが、6月9日に CJK.INF Version 1.0を公開して、現在(6月 14日)では、すでに Version 1.2になっている。たとえば、JIS X 0221-1995に 関してCJK.INF Version 1.0では

This document is, for all practical purposes, the Japanese translation of ISO 10646-1:1993 (see Section 2.5.2). As of this writing, I am still waiting to get a copy.

とあるが、Version 1.2では、上の文に続いて、


            JIS X 0221-1995 does list subsets that are applicable for

    Japanese use (a brief description of their contents in parentheses):



    o BASIC JAPANESE (JIS X 0208-1990 and JIS X 0201-1976 -- characters

      that can be created by means of combining are not included)

    o JAPANESE NON IDEOGRAPHICS SUPPLEMENT (non-kanji of JIS X 0212-1990

      plus hundreds of non-JIS characters)

    o JAPANESE IDEOGRAPHICS SUPPLEMENT 1 (approximately 900 frequently-

      used kanji from JIS X 0212-1990, including 28 that are identical to

      kanji forms in JIS C 6226-1978)

    o JAPANESE IDEOGRAPHICS SUPPLEMENT 2 (the remainder of JIS X 0212-

      1990)

    o JAPANESE IDEOGRAPHICS SUPPLEMENT 3 (non-JIS kanji)

    o FULLWIDTH ALPHANUMERICS (for compatibility)

    o HALFWIDTH KATAKANA (for compatibility)



    More details will be added once the official JIS X 0221-1995 manual

    becomes available.

となっている。JIS X 0221-1995は今年4月に刊行されているから、情報が遅いと 感じるのであるが、その内容についての情報を入手して直ちに修正している。こ れはたまたま知った例なのであるが、こうした方法はごく普通の方法である。ち なみに、上記の日本部分文字レパートリは今回のJIS化で新たに加えられた附属書 (規定)であり、きわめて重要な情報なのである。

吉村誠氏の公開している万葉集テキストファイル[13]も折に触れてバージョン アップの情報が電子メールで届いており、継続的な努力には敬意を抱くものである。

次に、追試を容易にするという点について述べよう。紙幅も尽きているので、要 点のみ記すと[14]、論文の根拠となったデータを公開できるものは全部公開すると いうことである。上記したファイルについていえば、

の二つは、池田「図書寮本類聚名義抄に見える漢数字の注記について」(「日本語 論究4」和泉書院、1995年)、同「JISの漢字と内陸地域文化」(「内陸地域文化の 人文科学的研究II」特定研究最終報告書、信州大学人文学部、1995年3月)の根拠と なっている。

6 おわりに

インターネットが今後どうなっていくか、私には予想もつかない。ただいえる ことは、規格外の漢字の問題と多言語処理の問題とをどうにかしないことには発 展が望めないのではないかということである。人文系研究者[15]がこうした問題 の解決に積極的に関わって行くべきであることを述べて本稿を終えることにしたい。


[→このページの最初] [→雑文] [→JIS漢字] [→古辞書] [→ホームページ]
池田 証寿(いけだ しょうじゅ) Copyright (C) 1995,2001 IKEDA Shoju, All rights reserved.
E-mail shikeda@Lit.Let.hokudai.ac.jp/KGH01365@nifty.ne.jp