言語天文台からみた世界の情報格差
価格:4,180円 (消費税:380円)
ISBN978-4-7664-2178-1 C3004
奥付の初版発行年月:2014年10月 / 発売日:2014年10月下旬
多言語社会の将来を考える一冊。
ウェブは時々刻々変化する実世界を反映する巨大なマイクロコスモスへと成長した。検索エンジンを通じて、われわれはこの巨大な宇宙を自由に検索できるが、そこから見えるのは、検索ワードという小窓から見た宇宙の断片像に過ぎない。言語天文台は、使用言語の分布や構成、サーバ所在地、リンク構造、グラフ構造といった多面的な切り口からウェブ宇宙を解析し、各言語コミュニティの実像、言語間格差、外部世界とのつながり、サイバースペースの自由度などを立体的に明らかにする。
本書は、言語天文台という、ユニークなデータマイニングの装置、インテリジェンスの装置を開発した筆者と世界の仲間たちの開発物語である。巨大なウェブ宇宙を相手どったデータ収集の苦労、世界の隅っこにおかれた300以上の言語を自動判別する困難、開発の過程で生まれた世界の仲間との意外な出会い、研究プロジェクトに参加した学生たちの試行錯誤や発見などが縦横に語られる。
本書が最後に述べるのは多言語社会の将来像である。サイバースペース上では、エンパワーされた多数の母語が競い合うような多言語社会が実現するのか?それとも多くの母語の死か?
三上 喜貴(ミカミ ヨシキ)
長岡技術科学大学教授
1952年生まれ。1975年東京大学工学部計数工学科卒業。通商産業省勤務を経て1997年より長岡技術科学大学教授。慶應義塾大学大学院より博士(政策・メディア)。専門は文字情報学、情報政策、技術経営。著書に「文字符号の歴史:アジア編」(共立出版、2002年)、「日本の技術革新」(放送大学教育振興会、2008年)、『インドの科学者』(岩波書店、2009年)など。文字符号国際標準化専門委員会(ISO/IEC/JTC1 SC2)議長、文字情報技術促進協議会会長。
中平 勝子(ナカヒラ カツコ)
長岡技術科学大学経営情報系助教
1994年奈良教育大学大学院教育学専攻修士課程修了。2000年大阪大学大学院理学研究科博士課程単位取得退学。修士(教育学)。早稲田大学教育学部助手、長岡技術科学大学 e ラーニング研究実践センタ助手を経て2007年より長岡技術科学大学経営情報系助教、現在に至る。専門は教育工学、情報学基礎。ICTによる教育をグローバルに調査するという視点で言語天文台プロジェクトに参加。
児玉 茂昭(コダマ シゲアキ)
国立文化財機構アジア太平洋無形文化遺産研究センターアソシエイトフェロー
1971年生まれ。1997年京都大学大学院文学研究科言語学専攻修士課程修了。2000年同大学大学院文学研究科博士課程単位取得退学。博士(文学)。東京外国語大学アジア・アフリカ言語文化研究所非常勤研究員,日本学術振興会特別研究員(PD),長岡技術科学大学経営情報系産学官連携研究員を経て2011年より国立文化財機構アジア太平洋無形文化遺産研究センターアソシエイトフェロー,現在に至る。
目次
【第1部 言語天文台とは】
第1章 言語天文台とは
1 世界の言語天文台
2 言語間デジタルデバイド
3 言語天文台の目的
4 言語天文台の発足
5 沖縄憲章からサイバースペース勧告へ
6 国連開発目標
7 天体の宇宙、言語の宇宙
第2章 動機と試行錯誤
1 アジア情報技術標準化フォーラム
2 情報技術標準化の国際組織
3 情報技術のローカライゼーション
4 初期のウェブ言語調査
5 われわれの初調査 ―― サイバー・センサス
【第2部 言語と文字と文字符号】
第3章 世界の言語
1 世界に言語はいくつあるのか
2 言語の分類と系統
3 言語学の始まりと印欧語族
4 世界の大語族
5 国単位でみた言語多様性
6 言語のレッドブック
第4章 世界の文字
1 文字とは何か
2 世界に文字はいくつあるのか
3 文字の分類
4 文字の起源
5 その後の発達
6 絶滅した文字
第5章 世界の文字符号
1 文字符号とは
2 SC2議長報告
3 ISO 646とその拡張
4 多言語文字符号表8859シリーズ
5 UCS / ユニコードの意義
6 符号化文字集合のサイズ
【第3部 観測戦略と観測装置】
第6章 観測戦略 ―― ウェブ空間の巨大さへの挑戦
1 情報爆発
2 観測戦略とハードウェア
3 ジェネリック・ドメインとカントリー・ドメイン
4 ページとサーバの規模分布
5 リンクと接続性
第7章 ウェブクロウラー
1 ウェブクロウラーとは
2 ミラノ大学チームとの出会い
3 並列処理の仕組み
4 さまざまなパラメータ
5 データ収集作業の実際
6 二つの独自開発クロウラー
7 データベース天文学に学ぶ
第8章 言語判別技術
1 言語判別技術とは
2 言語天文台の判別エンジン
3 重要な役割を果たした「世界人権宣言」
4 さまざまな多言語テキスト
5 複数の文字で書かれる言語
6 特殊な文字符号
7 言語判別技術の戦略性
第9章 世界の言語天文台パートナー
1 チュニスでの出会い
2 アダマ・サマセコウ氏
3 言語多様性ネットワークMAAYA
4 トルコの言語学者タルジャン博士
5 ロシアユネスコ国内委員会
6 アジア情報技術標準化フォーラムの仲間たち
7 スクリプト・エンコーディング・イニシアティブ
【第4部 観測結果から何がわかったか】
第10章 使用言語の分析
1 アジア・アフリカのウェブ言語観測結果
2 ローカル言語比率と言語多様性指標
3 多言語社会と言語の機能分化
4 知的活動の媒体としての母語の運命
5 文字符号問題は解決したのか
6 インターネット上における言語の変形
第11章 サーバ所在地の分析 ―― 通信事情とドメイン管理状態の把握
1 応答時間・ホップ数・サーバ所在地
2 アジア・アフリカのサーバ所在地
3 島嶼 ―― バーチャルドメインの典型
4 スパム発信サーバの所在地分析
5 ドメイン名の登録と閲覧
第12章 リンクの分析 ―― 情報の流れの可視化
1 報道機関リンク比率による分析
2 報道自由度ランキングとの比較
3 次数分析とべき乗則
第13章 グラフ構造の分析 ―― コミュニティの可視化
1 ウェブ空間は巨大な有向グラフ
2 ウェブ空間の巨視的構造
3 ドメイン単位のウェブ発達度
4 言語コミュニティ・媒介言語・言語間距離
第14章 ジニ係数による分析 ―― デジタルデバイドの可視化
1 ローレンツ曲線とジニ係数
2 ジニ係数で測ったデジタルデバイド
3 デジタルデバイドの評価指標体系について
おわりに
1 人類史スケールでみた言語数の変動
2 技術変化と文字
3 英語の世紀
4 言語のエンパワーメント
5 言語天文台の示した可能性
注および参考文献
索引
コラム
1 アルファベット発祥の地から来たデザイナー
2 国際母語記念日の由来
3 社会観測を行なう天文台
4 検索エンジンを用いた簡便なページ数推計方法
5 言葉が消えていくことはなんだか悲しい
6 諸橋轍次と漢字コード専門家会合の長岡開催
7 砂漠の文字、極北の文字
8 セブ島のホテルにあった謎の文字
9 トルコ語のアルファベット
10 クリスマスイブの椿事
11 世界無形文化遺産となったインドの詠唱法
12 憧れの著者ケン・ランディ氏
13 レナ会議出席の余波