【2001年5月17日追記】初出は「人文学と情報処理」No.8（1995年8月、勉誠社）。現在となっては過去の記録としてしか役に立たない。URLも多くは変更していると思われるがそのままにしておく。

インターネットを利用しての学術情報交流
―JIS漢字関連情報の収集とその公開―

池田証寿

1 はじめに

私のコンピュータおよびインターネットについての関心は、次の二つに集約できる。一つは、人文系研究者がコンピュータやインターネットをどの程度利用できるか、その可能性を自分の手で検証することである。もう一つは、コンピュータの漢字処理に関する情報を収集し、それに関連する自作の電子化テキストを公開することである。

次に、学術情報交流という点については、従来のやりかたと本質的に変わる点はないと考えている。あるとすれば、一つはスピード、もう一つは追試を容易にすることである。以下、こうした点について、失敗談を交えながら、具体的に述べていこう。

2 人文系研究者はコンピュータやインターネットをどの程度利用できるか

結論を先にいえば、インターネットに接続して、電子メールや、いまはやりの WWWを利用することはそれほど難しくない。むろんこれには条件が付く。時間と労力を厭わなければ、である。もし、コンピュータのセットアップに時間と労力をうばわれたくないのであれば、もっと使いやすいコンピュータが出現するのを待つか、いっそコンピュータを使うことなどやめてしまえばよい。かえってその方がコンピュータと人間との関係について見えてくるものがあるかもしれない。しかし本誌の読者にそこまで割切れる人は少ないだろう。乗りかかった船という表現がある。もしWindows3.1やMacOS7.5が動くパソコンを使っていて、大学や研究所の廊下の天井までケーブルが来ているなら、これを見逃す手はない。多少の時間と労力とをかける価値は充分にある。恐れずにインターネットの大海に船出してみよう。

そうはいっても何の予備知識も持たずにインターネットの大海に出て行こうとするのは無謀というものである。まずは書店でインターネット関連の書籍、雑誌を購入してきて拾い読み、斜め読みである。技術的な情報が豊富な本[1]も一冊は必ず購入しておこう。

次に大学であれば、情報処理センターとか計算機センターが主体となって広報誌やネットワーク利用のための手引き[2]を刊行していることが多い。刊行の有無を確かめて必ず入手しなければならない。手引き等の刊行の有無を確認するには所属部局の情報処理関係の委員、それで分からなければ情報処理センターに問い合せればよい。それぞれローカルなネットワークの内部で固有の情報や接続のための手順があり、中途半端な知識でネットワークに接続してネットワーク全体に迷惑を及ぼすような愚は避けなければならないのである。

私がつまずいたのは数多く、いちいちすべてを書く余裕はないのだが、つまずいたなかで最も重要な情報と後から分かったのが、DNS(Domain Name System)の設定である。もう少し詳しくいえば、ネームサーバーのIPアドレスを知るのに手間がかかったということである（インターネットに接続された UNIX のワークステーション上で、nslookupコマンドを使えばこれを調べることができる）。DNS はインターネットにつながれたコンピュータのアドレス（IPアドレス）と名前（ホスト名）の分散データベースシステムのことである。ホスト名（IP接続する自分のコンピュータの正式な名称。たとえば、gipac.shinshu-u.ac.jp。FQDN (Fully Qualified Domain Name)という）から、IPアドレスを検索したり、その逆に、IPアドレスからホスト名を検索したりする。ローカルなネットワークでの IPアドレスとホスト名（コンピュータ名）は、ユーザーの所属する組織のネットワーク管理者が、ネームサーバーへの登録、管理を厳重に行っている。自分のコンピュータのIPアドレスとホスト名をネットワーク内のネームサーバーに登録しなければ、WWWはもちろん、FTPすら利用できないことがある。たとえば私の所属する信州大学では約二千台のコンピュータがIP接続されているが、その維持管理は総合情報処理センターのネットワーク管理者が行っている。その労苦は想像を絶するものがあり、ネットワークを利用しようとする者は、ネットワーク管理者に迷惑のかからぬよう最大限の努力をしなければならない。

所属する組織のネットワーク環境がどうなっているか。これを確認することは組織内での学術情報交流の出発点でもある。多くの場合、組織内に限定したローカルなネットニュースやメーリングリストがあり、それを通して情報交換を行うことができる。人文系以外の研究者、学生が参加していることが多いが、コンピュータのソフト・ハードに関してさまざまな情報が、必要な分だけ流れている。無料で利用できる国内外の図書館のオンライン検索サービスや科学研究費申請書作成用TeX[3]マクロなどは、ローカルなネットワークやメーリングリストを通してその情報を入手することができた。またもしWWWサーバーを立上げようという志があるのであれば、組織内での学術情報交流を緊密にとっておく必要がある。 WWWはインターネットキラーともいわれ、ネットワークのトラフィックを増大させているからである。信州大学の場合はSINET(Scientific Information NETwork。学術情報処理センターの運営する大学・公的研究機関中心のネットワーク）のノードが長野市の工学部まで来ているが、そこから人文学部や本部・経済学部・理学部・医学部・医療技術短期大学部のある松本市まではSUNS （信州大学画像情報ネットワークシステム）と称するデジタルマイクロ波無線回線によって接続されている。現在の回線容量は1.5MBである。WWWサーバーを始める学部・研究室も少なくなく、この1.5MBの回線はいかんともしがたい容量なのである。組織によって状況は異なるであろうが、まずは足許を固めておくことが肝要かと思う。

3 漢字処理に関する情報の収集

コンピュータで扱える漢字はたかだか六千字である。これは「JIS X 0208-1990 情報交換用漢字符号」に定められているが、古文献をコンピュータで処理しようとするには少なすぎる。特に私の研究テーマとする日本の古辞書の場合、例えば「篆隷万象名義」（空海撰）で約一万六千字の収録漢字を数えるというように万を遥かに超えており、JIS X 0208ではとても足りない。かといって外字を一万字も作成する根気も無ければ、それだけの能力のあるパソコンも無いのである。しかし、そうこうしているうちに、コンピュータで扱える漢字が増えそうだという情報が入るようになった。すなわち、1990年には補助漢字が制定され（「JIS X 0212-1990 情報交換用漢字符号―補助漢字」）、また1993年には国際符号化文字集合が公刊された（ISO/IEC 10646-1:1993）。さらに、今年４月にこれをJIS化した「JIS X 0221- 1995 国際符号化文字集合(UCS)―第１部　体系及び基本多言語面」が出た。したがって、JIS X 0208に無い漢字は、今のところ、補助漢字や国際符号化文字集合のコードと「大漢和辞典」（諸橋轍次編）の検字番号とを入れておき、JIS X 0212かJIS X 0221が使えるようになったら、一気に変換してしまえばよいと考えたのである。この発想が出発点である。その目的のために、補助漢字と「大漢和辞典」番号との対照表を作成したり、国際符号化文字集合(UCS)と「大漢和辞典」番号との対照作業を行ったりした。もちろん、一からすべて作成して行くのはたいへんな労力を要するから、すでに公開されているデータを利用させてもらった。 JIS X 0208は豊島正之氏、金水敏氏、古田啓氏の手になるYDIC [4]、 ISO/IEC 10646-1:1993の「統合漢字」のデータはUnicode,Inc.が公開しているもの[5]を利用した。

その後、JIS X 0208に関しては、Ken Lunde氏[6]の“Understanding Information Japanese Processing”O'Reilly & Associates,Inc. 1993）で、 Jim Breen氏[7]の KANJIDICの存在を知り、anonymous FTPで入手[8]。この KANJIDICを入手したころは、まだ研究室のパソコンがIP接続されていなかったため、総合情報処理センターまで出かけて行ってファイルをフロッピーディスクに落とした。

このような過程を通じて驚いたことは、海外の研究者や組織の手になる日本語処理関係のプログラムやデータが数多く一般に公開されていることであった。

4 漢字処理に関する電子化テキストの公開

現在、私は僅かばかり自作の電子化テキストを信州大学湯田彰夫氏[9]の管理するワークステーションにおかせてもらい、anonymous FTPで公開している。このことを思い立ったのは、一つには私の属する組織のネットワークの発展に何らかの形で参加したいと考えたからである。もう一つは海外で漢字関連のプログラムやデータが公開されているのに、日本でそうした情報を国語学の分野から公開できないのはなんとも情けなくなったからである。

そこで、学内のローカルなネットニュースで、学内でanonymous FTPをやっているホストがないかどうか、またどうやったらそのホストにおいてもらえるかを聞いてみたのである。直ちに、anonymous FTPはこれこれ、Gopherはこれこれ、WWWはこれこれとの情報があり、おいてもらいたければ、ホストの管理者にお手紙を書いてはいかがでしょうか、との回答。それで、さっそく、FTPサーバーを運用されている湯田氏にお願いしたところ（もちろん電子メールで）、オリジナルなデータは少ないのでよろこんで引き受けましょうとの返事であった。

それで次に、FTPでファイル転送となったのだが、簡単には行かない。ディスク容量節約のためファイルを圧縮したのだが[10]、ファイル転送の際にbinaryモードにするのを忘れて転送に失敗。それではということで、総合情報処理センターのワークステーションの湯田氏のディレクトリにコピーしたのである。これでファイルの転送と登録はできたのであるが、ファイルのパーミッションの設定を誤り、削除できないという具合になってしまった。あまり使ったことのないUNIXのコマンドを打ち込んで、パーミッションを変更、さらにそれを確認してもらったところで、一応の作業が終了した。その時は、いやはやなんとも多大の迷惑をかけてしまったと後悔するばかり。電子化テキストの公開に後悔は付き物ということかと嘆いたのであった。

しかし、時間と労力をかけておいてもらった電子化テキストが全く利用されないというのでは、それこそ本末転倒ということなので、折に触れて宣伝した。インターネットのニュースグループfj.kanjiでの反応[11]がいくらかあった。国語学分野からは、岡島昭浩氏から詳細なコメントをもらい有り難かった。

参考として私の書いたreadmeファイル[12]の内容を以下に引用しておこう。

ここには、JIS X0208/0212/0221 のための漢字字書、漢字字書作成のためのツール、漢字字書の見本などがおいてあります。

これらのデータとプログラムの利用にあたっては、それぞれに添えられた説明書をよくお読みになってください。


【1】JIS X0208-1983 のための漢字字書

    ydic.lzh        ;新字源・大漢和辞典番号等を表示（豊島正之、金水敏、古田啓

                     の三氏作）

    kanjidic.lzh    ;JIS の区点番号、各種漢字字書番号を表示（Jim Breen氏作）

    itaiji.lzh      ;JIS X0208 の異体字情報を整理（金水氏作）

    ldicj08.lzh     ;大漢語林番号を表示（池田証寿・林立萍作）

【2】JIS X0212-1990 のための漢字字書

    jish.lzh        ;区点番号と大漢和辞典番号を表示（池田証寿作）

    ldicj12.lzh     ;大漢語林番号を表示（池田証寿・林立萍作）

【3】JIS X0221(ISO/IEC 10646-1) のための漢字字書

    cjk-jis.lzh     ;統合漢字のコード番号とJIS X0208/0212との対照表（池田作）

【4】漢字字書の見本

    myogisho.lzh    ;図書寮本類聚名義抄掲出字索引（池田作）

    tenrei04.lzh    ;篆隷万象名義データベース〔暫定版〕（池田作）

【5】漢字字書作成のためのツール（MS-DOS用）

    addkinfo.lzh    ;漢字字書情報を付加える（mtoyo氏作）

    sortf07.lzh     ;フィールド対応高速ソート（同上）

    putdic.lzh      ;漢字字書情報を付加える（金水氏作）

    cgrep23.lzh     ;grepです（AssistantIO氏作）

    comm.lzh        ;二つの file の比較（kon_yasu氏作）

    join.lzh        ;二つの file を結合（MASSAN氏作）

    jchar.exe       ;JIS X0208の一覧・常用漢字等を出力（Ken Lunde氏作）

    jconv.exe       ;JIS,EUC,Shift-JISの変換（同上）

    jcode.exe       ;各種(JIS,EUC,Shift-JIS)のコードポイントを表示（同上）

# これらのツールは、【2】【3】【4】 のファイルの作成者が、個人的によく

# 利用しているものであって、これがなければ漢字字書を作成できないわけではあり

# ません（念のため）。

【6】 付録

    manyo.lzh       ;万葉集 text file（吉村誠氏作）

なお、以上のファイルは、このマシンの管理者である、湯田彰夫先生（信州大学繊維学部）に、池田証寿（信州大学人文学部）がお願いしておかせて頂きました。湯田先生の御厚意に感謝します。また、何か不明な点がありましたら、池田（e-mail:shikeda@gipac.shinshu-u.ac.jp）までお願いします。

5 学術情報交流

本稿冒頭に述べたように、インターネットを利用した学術情報交流は、従来のやりかたと本質的に変わる点はないと考えている。あるとすれば、一つはスピード、もう一つは追試を容易にすることである。

スピードは確かに魅力的な利点だが、下手をすると「麻薬」になりかねない。電子メールにしてもメーリングリストにしてもすばやい反応はなにか「快感」を覚えるところがあるのだが、それを続けていると、いつのまにか、すばやい反応がないとフラストレーションがたまってしまうのである。これはネットニュースやパソコン通信などでも同じであろう。情報の質が問題なのであり、そのためのスピードである。これを忘れないでおこう。

上手にインターネットを使っていると感じる例もある。

ftp://ftp.ora.com/pub/examples/nutshell/ujip/doc/cjk.inf

これは先に名前を出したLunde氏が日本、中国、台湾、韓国の漢字処理の情報をまとめたものであるが、6月9日に CJK.INF Version 1.0を公開して、現在（6月 14日）では、すでに Version 1.2になっている。たとえば、JIS X 0221-1995に関してCJK.INF Version 1.0では

This document is, for all practical purposes, the Japanese translation of ISO 10646-1:1993 (see Section 2.5.2). As of this writing, I am still waiting to get a copy.

とあるが、Version 1.2では、上の文に続いて、


            JIS X 0221-1995 does list subsets that are applicable for

    Japanese use (a brief description of their contents in parentheses):



    o BASIC JAPANESE (JIS X 0208-1990 and JIS X 0201-1976 -- characters

      that can be created by means of combining are not included)

    o JAPANESE NON IDEOGRAPHICS SUPPLEMENT (non-kanji of JIS X 0212-1990

      plus hundreds of non-JIS characters)

    o JAPANESE IDEOGRAPHICS SUPPLEMENT 1 (approximately 900 frequently-

      used kanji from JIS X 0212-1990, including 28 that are identical to

      kanji forms in JIS C 6226-1978)

    o JAPANESE IDEOGRAPHICS SUPPLEMENT 2 (the remainder of JIS X 0212-

      1990)

    o JAPANESE IDEOGRAPHICS SUPPLEMENT 3 (non-JIS kanji)

    o FULLWIDTH ALPHANUMERICS (for compatibility)

    o HALFWIDTH KATAKANA (for compatibility)



    More details will be added once the official JIS X 0221-1995 manual

    becomes available.

となっている。JIS X 0221-1995は今年４月に刊行されているから、情報が遅いと感じるのであるが、その内容についての情報を入手して直ちに修正している。これはたまたま知った例なのであるが、こうした方法はごく普通の方法である。ちなみに、上記の日本部分文字レパートリは今回のJIS化で新たに加えられた附属書（規定）であり、きわめて重要な情報なのである。

吉村誠氏の公開している万葉集テキストファイル[13]も折に触れてバージョンアップの情報が電子メールで届いており、継続的な努力には敬意を抱くものである。

次に、追試を容易にするという点について述べよう。紙幅も尽きているので、要点のみ記すと[14]、論文の根拠となったデータを公開できるものは全部公開するということである。上記したファイルについていえば、

myogisho.lzh ;図書寮本類聚名義抄掲出字索引（池田作）
tenrei04.lzh ;篆隷万象名義データベース〔暫定版〕（池田作）

の二つは、池田「図書寮本類聚名義抄に見える漢数字の注記について」（「日本語論究４」和泉書院、1995年）、同「JISの漢字と内陸地域文化」（「内陸地域文化の人文科学的研究II」特定研究最終報告書、信州大学人文学部、1995年3月）の根拠となっている。

6 おわりに

インターネットが今後どうなっていくか、私には予想もつかない。ただいえることは、規格外の漢字の問題と多言語処理の問題とをどうにかしないことには発展が望めないのではないかということである。人文系研究者[15]がこうした問題の解決に積極的に関わって行くべきであることを述べて本稿を終えることにしたい。

注

[1]たとえば「bit別冊　インターネットの使い方」（共立出版、1995年6月）。
[2]北海道大学情報ネットワークシステム運営委員会システム利用専門委員会編集の「HINES　 World 手引き」をたまたま入手したが、これはたいへんよくできている。
[3]ftp://ftp.yukawa.kyoto-u.ac.jp/YITPINFO/k94mac.ish
[4]ftp://ftp.ora.com/pub/examples/nutshell/ujip/map/ydic.tar.Z
ftp://azumi.shinshu-u.ac.jp/pub/kanjidic/ydic.lzh
[5]ftp://unicode.org/pub/MappingTables/EastAsiaMaps/CJKXRef.text
[6]http://jasper.ora.com/lunde
[7]http://www.rdt.monash.edu.au/~jwb/japanese.html
[8]ftp://ftp.cc.monash.edu.au/pub/nihongo/kanjidic
[9]http://sasuke.shinshu-u.ac.jp/~akiyuda/profile.html
[10]吉崎栄泰氏作のフリーウェア lha を使った。
[11]ftp://ftp.ora.com/pub/examples/nutshell/ujip/map/cjk-jis.tar.Z
これは統合漢字と諸橋大漢和辞典番号との対照表。
[12]ftp://azumi.shinshu-u.ac.jp/pub/kanjidic/readme.sjs
[13]ftp://ftp.cc.yamaguchi-u.ac.jp/pub/text/jallc/ym/manyo.lzh
[14]詳しくは、池田「漢字字書データベースの作成とその利用」（情報処理語学文学研究会会報第15号、1994年7月）を参照。
[15]http://www.iijnet.or.jp/iriz/irizhtml/irizhome.htmは先駆的な試みの一例。

[→このページの最初] [→雑文] [→JIS漢字] [→古辞書] [→ホームページ]

E-mail shikeda@Lit.Let.hokudai.ac.jp/KGH01365@nifty.ne.jp

インターネットを利用しての学術情報交流 ―JIS漢字関連情報の収集とその公開―