髙田  良宏

大学非文献コンテンツ公開プラットフォーム研究

文書情報

著者

髙田 良宏

学校

大学名不明

専攻 不明
出版年 不明
場所 不明
文書タイプ 論文
言語 Japanese
フォーマット | PDF
サイズ 9.62 MB

概要

I.非文献コンテンツに対応した学術情報リポジトリの開発

本研究は、大学における学術情報リポジトリの課題解決を目指し、主に非文献コンテンツ(写真、動画、音声、実験・観測データなど)の公開を促進するための共通プラットフォーム開発に取り組んでいます。既存の機関リポジトリは文献コンテンツ(論文、紀要など)に偏っているため、メタデータの互換性、検索性、他リポジトリとの連携といった課題が存在します。本研究では、DSpaceをベースに、Dumb-Down原則に基づいた拡張メタデータ定義、Excelを用いた一括登録機能、Google Earth連携による地理的位置情報検索機能などを実装した改良型リポジトリを開発。OAI-PMHプロトコルを用いたリポジトリ間連携の実現にも成功しました。アジア図像集成、あけぼの衛星観測データ、e-Learning素材、第四高等学校物理機器図録といった多様な非文献コンテンツへの適用により、本システムの汎用性と有効性を検証しました。

1. 現状の機関リポジトリの問題点と非文献コンテンツの定義

既存の機関リポジトリは、学術論文や紀要といった文献コンテンツを主に扱っており、写真、動画、音声、実験・観測データなどの非文献コンテンツは対象外とされることが多い現状が指摘されています。鈴木らの全国大学図書館調査でも、デジタルアーカイブの公開が停滞していることが示されています。本論文では、学術論文などの文献系コンテンツを「文献コンテンツ」、それ以外のコンテンツを「非文献コンテンツ」と定義し、非文献コンテンツの公開促進を研究の目的としています。非文献コンテンツの公開を阻む要因として、技術力、コスト、メタデータ記述、認証・認可、データフォーマットなどの問題が挙げられており、それらを大学全体の問題として捉え、解決していく必要性が強調されています。

2. 非文献コンテンツに対応したリポジトリ開発の目標とアプローチ

本研究では、非文献コンテンツを効率的に管理・公開するための共通プラットフォームとして、学術情報リポジトリの開発を目指します。既存の情報インフラと互換性を持ち、運用可能なシステムを構築するため、既存のリポジトリプラットフォームを活用します。非文献コンテンツは、写真・動画・音声などのコレクション系と実験・観測データの大きく2種類に分類し、利用対象を人間(Webブラウザ)とサーバ(システム間連携)に分け、それぞれに最適な公開方式を検討します。具体的な公開方式として、学術情報リポジトリ、公開用Web-DBシステム、データ配信システムの3種類を挙げ、それらに対する課題解決策を提案し、共通プラットフォームとして統合することを目指します。特に、多様なコンテンツを効率的に管理し、検索性を高めるためのメタデータ定義法の考案と、リポジトリ間の連携方法の検討が重要となります。

3. メタデータ定義とコンテンツ管理 検索機能の開発

多種多様な非文献コンテンツを効率的に管理するために、汎用的に利用できるメタデータの定義法を考案しました。大量のコンテンツを一括登録するための機能も開発し、地理的位置情報を持つコンテンツが多いことに着目し、地理的位置情報に基づく検索機能も実装しました。 具体的には、DSpaceをベースとしたシステム開発を行い、既存クラスを極力変更せずに機能を追加することで、システムの移植性やDSpaceのバージョンアップへの対応性を高めています。Dumb-Down原則を導入することで、メタデータ項目の差異を吸収し、コンテンツ種別に合わせたメタデータ語彙の設定と検索結果一覧表示設定を切り替える機能も実装しました。さらに、Excelファイルを用いたコミュニティ・コレクション構造の管理、一括登録スクリプトの作成により、管理者の負担を軽減し、リポジトリ構造の再現性を向上させました。Google Earthとの連携にはKMLを用い、地名から座標を取得し、Google Earth上に情報を表示する機能も追加しました。

4. 他リポジトリとの連携とシステムの有効性検証

学術情報リポジトリ間の連携を実現するために、学内の学術情報を統一的に公開するポータルリポジトリ(ハーベスタ)を構築しました。OAI-PMHプロトコルを用いたハーベスティングにより、複数のリポジトリからメタデータを収集し、横断的な検索を可能にしました。このポータルリポジトリは、CNRIハンドルシステムにも準拠しており、NIIや他大学のリポジトリとの連携も可能です。開発したシステムは、アジア図像集成、あけぼの衛星の観測データ、e-Learning素材、第四高等学校物理機器図録といった異なる特性を持つ非文献コンテンツに適用することで、その有効性と汎用性を確認しました。特に、Excelを用いたコンテンツ管理手法は、情報技術の専門知識がなくても容易に利用できる点を評価できます。検索機能についても、既存プラットフォームをベースとしているため、利用者にとって使いやすいシステムとなっています。これらの結果から、本システムが非文献コンテンツのリポジトリ化に有効であることが示されました。

5. 今後の課題と展望

同一リポジトリ上に複数の異種コンテンツを共存させることは可能となりましたが、コンテンツの特性が大きく異なる場合、リポジトリの利用形態によって最適な設定が変化します。専門性を重視するならコンテンツ間の独立性が高まり、一般利用者の使い勝手が悪くなる可能性があります。一般性を重視するならメタデータ項目の一般化が必要になります。今後の課題として、異種コンテンツの共存における最適な設定方法の検討、リポジトリ間の連携におけるメタデータの扱い方、特に非文献コンテンツへの適用方法の検討が挙げられます。本研究で開発したシステムは、特定分野のコンテンツ特性に依存しない汎用的なものであり、共通プラットフォームとして広く応用可能であると期待されます。状況に応じた柔軟な運用が可能で、コンテンツ管理者の負担も軽減できるため、大学内の様々なコンテンツ公開促進に貢献すると考えられます。

II.多様なアクセス制限に対応したWeb DB管理システムの開発

大学に蓄積された学術情報、特に実験観測データは、分野、機関、研究室、データごとに異なる複雑なアクセス制限を有することが多いです。本研究では、Web-DB管理システムを開発し、この課題に対応。データへのアクセスレベルをユーザごとに詳細に設定できるデータ管理機能と、ユーザ・グループのアクセス権限を管理するユーザ管理機能を統合しました。これにより、柔軟なアクセス制限を実現し、研究者の負担軽減とデータの有効活用を目指します。 気象庁(JMA)、宇宙航空研究開発機構(JAXA)などの既存システムとの連携も考慮されています。

1. 多様なアクセス制限の問題とWeb DB管理システム開発の必要性

大学には、実験観測データをはじめ、複雑な公開基準を持つ学術情報が蓄積されています。これらの公開基準は、分野、機関、研究室、さらにはデータごとに異なる場合が多く、一元的な管理・公開が困難です。米国ではNASAやNOAAなどが観測データを集中管理しているのに対し、日本では気象庁(JMA)やJAXAなどが一部のデータを公開しているものの、大学などに分散して蓄積されている多くの貴重なデータの公開は不十分です。研究者(研究室)の立場、Webプログラミングスキル不足、Web-DB構築・運用の負担増大などが、公開を阻む要因として挙げられます。そのため、多様なアクセス制限を一括管理できる汎用的なWeb-DB管理システムの開発が不可欠です。このシステムは、個々の研究室や分野単位ではなく、大学全体の問題としてアクセス制限を解決することを目指しています。

2. 地球環境観測データの公開とアクセス制御

地球環境観測データは、気象、海洋、地震、大気、宇宙空間など多くの分野で収集され、地球環境研究に利用されます。地球規模の全体像を理解するためには、これらのデータを相互参照し、総合的に解析する必要があります。観測データの電子化とネットワーク環境の普及により、分野を超えた複数種の観測データの相互比較を行う研究スタイルへの移行が求められています。しかし、データ所有者である研究者が必ずしもWebプログラミングに精通しているとは限らないため、Web-DB構築・運用に大きな負担がかかります。本研究では、地球環境観測データに焦点を当て、アクセス制限の問題を解決するWeb-DB管理システムを開発します。このシステムは、データに対する公開範囲の詳細な管理(データ管理機能)とユーザおよびグループに対するアクセス権限の管理(ユーザ管理機能)を組み合わせることで、アクセスレベルをユーザごとに段階的に設定できるよう設計されています。これにより、単純な閲覧可否だけでなく、どのレベルまで公開できるかを詳細に制御することが可能になります。

3. 多様な公開基準に対応したWeb DB管理システムの設計と開発

開発したWeb-DB管理システムは、自然科学系の実験観測データ、特に地球環境観測データの管理・公開を容易にすることを目指しています。データの保管、検索、配信、利用までを一つの流れとして捉え、総合的に検討されています。システムは、データ所有者である研究者にとって使いやすく、かつ、多様なアクセス制限に対応できる汎用性を備えていることが求められます。本研究では、あけぼの衛星による地球周辺の電波環境観測データを用いてシステムの開発と検証を行いました。 システムの設計にあたっては、アクセスレベルの詳細な管理、データ管理機能、ユーザ管理機能の組み合わせにより、多様なアクセス制限に対応可能な認証・認可機構を考案しています。既存データベースとの互換性も考慮し、Excelなどで管理できる単純な形式のデータであれば、システム管理者がWeb-DBを修正することで簡易的に構築することも可能です。

III.汎用的なデータ配信システムの開発

研究室などに分散している地球環境観測データなどの実験観測データの相互利用を促進するため、データ配信システムの開発を行いました。データの分散、多様なフォーマット、独自フォーマットといった課題に対応するため、XML/Web Service技術、netCDF、CDF、HDFといった汎用データフォーマット、そしてSOAP Message with Attachments方式を採用。これにより、プラットフォーム、OS、実装言語の違いを吸収し、大容量データの効率的な配信を実現しました。あけぼの衛星による地球周辺の電波環境観測データを用いた検証実験を行い、その有効性を確認しました。

1. 地球環境観測データの相互利用における課題

大学の研究室などに分散して蓄積されている地球環境観測データは、相互利用が困難な状況にあります。その大きな要因として、データがバイナリ形式の独自フォーマットで保存されていること、および効率的な配信手段が確立されていないことが挙げられます。独自フォーマットはプラットフォーム間の互換性が低く、データのフォーマットを熟知していないと読み出すことすらできません。また、配信手段もメール添付、FTPやHTTPを使ったダウンロード、記録媒体の郵送などさまざまであり、統一的なシステムがありません。提供側研究者はデータ構造、意味、利用法、サンプルプログラムなどのマニュアルを用意する必要があり、受信側も独自に解析ソフトを開発する必要があり、双方に大きな負担がかかっています。このため、個々の観測データが容易に利活用できる形式で公開可能なシステムの開発が不可欠です。

2. 汎用的なデータ配信システムの設計と開発

本研究では、分野を超えたデータ相互利用を促進するため、汎用的なデータ配信システムの開発を目指しました。このシステムは、データの分散、多様なフォーマット、提供者・被提供者にかかる負担といった問題を解決することを目的としています。 インターネット上で利用される一般的なプロトコルを使用する必要がありながらも、セキュリティ対策としてファイアウォールを通過できるプロトコルを選択する必要がありました。そのため、HTTPプロトコルを採用しました。大容量データ配信を考慮し、SMTPは除外しています。システムは、OSやベンダーに依存しない汎用性、配信処理の自動化への容易な対応、高い保守性と可用性を備えている必要があります。既存システムとの連携についても検討されており、Webサービスの利用も考慮されています。具体的には、XML/Webサービス技術の導入により、各研究室のプラットフォーム、OS、実装言語の違いを吸収することを目指しています。

3. 汎用データフォーマットとデータ配信方法

バイナリ形式の多様なフォーマットが存在するという問題に対し、netCDF、CDF、HDFといった自己記述型の汎用データフォーマットを適用することで、データの流通性を高めました。これらのフォーマットは、データ自体の属性や構造情報を保持しているため、フォーマットの理解なくともデータの読み込みや解析が可能になります。また、長期保存用と公開用の2種類のデータ設計を行い、長期保存用は生の観測データ(生データ)をそのままCDF化し、公開用はデータ較正を施したものをCDF化することで、データの再利用性を高めています。これらの汎用フォーマット化されたデータをSOAPメッセージに添付する方式(SOAP Message with Attachments)を採用することで、フォーマットの種類やデータの内容に依存しないシステムを実現しました。 あけぼの衛星による地球周辺の電波環境観測データを用いた実験を通して、Webサービスを用いた配信システムが大容量の実験観測データの配信に十分利用できることを確認しました。

4. システム連携と今後の展望

開発したデータ配信システムは、第3章で開発されたWeb-DB管理システム、学術情報リポジトリと連携します。学術情報リポジトリのブラウズ画面、検索結果画面、情報表示画面から、地球環境データベースシステム(Web-DB管理システム)へのアクセスを容易にする仕組みが構築されました。 この統合的なシステムにより、データの分散、多様なフォーマットといった地球環境観測データが抱える問題を同時に解決し、分野を超えたデータ相互利用を実現することを目指しています。本研究で提案された学術情報公開モデル(学術情報リポジトリ、Web-DB管理システム、データ配信システム)は、特定分野のコンテンツ特性に依存しない汎用的なものであり、共通プラットフォームとして広く応用可能であると考えられます。状況に応じた柔軟な運用が可能で、コンテンツ管理者の負担も軽減できるため、大学内に蓄積されている様々なコンテンツの公開が促進されると期待されます。

IV.統合的な学術情報公開モデル

本研究では、学術情報リポジトリWeb-DB管理システムデータ配信システムの3つのシステムを統合した学術情報公開モデルを提案しました。このモデルは、既存の情報インフラ上で運用可能であり、大学内のあらゆる非文献コンテンツの公開をカバーします。それぞれのシステムは共通プラットフォームとして設計されており、多様なコンテンツやアクセス制限に対応できる柔軟性と、コンテンツ管理者の負担軽減に貢献します。 最終的には、これらのシステムを連携させ、学術情報へのアクセスを容易にすることを目指しています。

1. 既存システムの問題点と統合モデルの提案

大学における学術情報の公開においては、学術情報リポジトリ、Web-DB管理システム、データ配信システムの3つの公開手法が一般的に用いられています。しかし、これらのシステムはそれぞれ独立しており、特に非文献コンテンツ(写真、動画、音声、実験・観測データなど)の公開には課題がありました。個々の研究室や分野単位での対応では問題解決が困難なため、本研究では大学全体の課題として捉え、既存情報インフラ上で運用可能な統合的な学術情報公開モデルを提案しています。このモデルは、既存の3つの公開手法を包括的に統合し、大学内のあらゆる非文献コンテンツの公開をカバーすることを目指しています。 モデルの設計にあたっては、既存システムとの互換性と実運用可能性を重視しています。これにより、大学が既に保有するシステムを最大限に活用し、新たなシステム導入によるコストや負担を削減することを目指しています。

2. 統合モデルを構成する3つの公開システム

提案する統合的な学術情報公開モデルは、学術情報リポジトリ、Web-DB管理システム、データ配信システムの3つのシステムで構成されています。学術情報リポジトリは、写真、動画、音声などのコレクションの公開に有効ですが、単一の公開基準に則った公開が原則です。Web-DB管理システムは、分野、機関、研究室、データごとに異なる多様な公開基準に対応するために、詳細なアクセス制限の設定機能を備えています。データ配信システムは、実験観測データなどの大容量データの配信に特化しており、XML/Webサービス技術や汎用データフォーマット(netCDF、CDF、HDFなど)を用いることで、プラットフォームやフォーマットの違いを吸収します。これらの3つのシステムはそれぞれ独立して機能しながらも、相互に連携することで、大学内のあらゆる学術情報の効率的な公開と利活用を目指します。 それぞれのシステムは、共通プラットフォームとして設計されており、再利用性も考慮されています。

3. システム連携と今後の展望

本研究では、開発した3つのシステムの連携についても検討しています。具体的には、学術情報リポジトリからWeb-DB管理システムやデータ配信システムへのアクセスを容易にする仕組みを構築しています。これにより、利用者は、学術情報リポジトリを通じて、様々な種類の学術情報に統一的にアクセスすることが可能になります。 この統合的なシステムによって、大学内に蓄積されている様々なコンテンツの公開が促進されると期待されます。また、システムは特定分野のコンテンツ特性にあまり依存しない汎用的なものであり、共通プラットフォームとして広く応用可能であると期待できます。状況に応じた柔軟な運用が可能で、コンテンツ管理者に掛かる負担も十分抑えられることから、学術情報の公開・利活用における大きな進歩が期待されます。このモデルは、個人の情報技術に関する知識や技能の差に関係なく利用可能であることも重要な特徴です。

文書参照

  • 学術機関リポジトリ構築連携支援事業 (国立情報学研究所 (NII))