<このWeb sitesは,Geocitiesの閉鎖に伴いこのサイトに移設しました。>
<上記は,Geocitiesのスポンサーです.私のWebは以下から始まります.>

文献のデータベース化について

 PUBMEDやサイエンスダイレクト、エルザビアなどの登場で、文献の検索方法が数年前から、画期的に大きく変わりました。
 これに伴い、文献の整理方法も、大きく変わってきています。


 文献をScience Directなどで検索し、その文献のPDFファイルをダウンロードした際、どのように整理されていますか。
 自分のPCでデータベース化したいですよね。
 僕のやっている方法を紹介します。


概要

 たぶんどこの文献データベースでも、検索結果としてCitationsにAbstractを加えたファイルをダウンロードできると思います。
 このファイルをそのまま自分のPCでデータベース化して、ダウンロードしたPDFファイルを、データベース中の、各データにリンクすれば、良いのです。

 ではどの様なPCのデータベースソフトがよいでしょうか。文献用のソフトに必要な用件は以下の5点です。

  1. 通常のCitationsファイルには各要素データにヘッダ(タグ)が付いているので、このヘッダ(タグ)を読みとり、各項目としてデータベース化できるもの。
     例えばScience DirectはRIFフォーマットでダウンロードすると、各項目データには、以下のようなヘッダー(タグ)が付いています。そして各論文ごとに、空(から)の改行コードが一つ入れられ、以下ずっと続きます。
  2. 各データ単位ごとに、ファイルやURLへのリンクができること。
     各データを見て、これを読みたい、と思った時にファイルにリンクができるのであれば、それをすぐに読むことができます。
  3. カード式に表現ができる方が、わかりやすい。
     まあこれは当然ですよね。
  4. できれば日本語も使えることが望ましい。
     従来CD-ROMでしか使えなかった国会図書館の雑誌データベースが、2002年末にインターネットで無料公開されたこともあり、日本語も使えることが良いですね。
  5. さらにできれば、データ一覧出力の際に、投稿する学会の書式に合うように出力できること。

 これを見て、なんだ簡単じゃないか、と思われる方もいらっしゃるかと思います。しかし、ちょっとややこしいのです。
 それは"AU"著者のところです。ご自分でダウンロードされたCitationsファイルの中身をよく見ていただくとおわかりになると思いますが、複数の著者がいらっしゃると、その分の複数行の"AU"が入っているのです。汎用データベースは、ここが簡単には対応できません。
 文献専用のデータベースであれば、簡単に対応できます。


僕は何を使っているか

 現在ちまたで広く使われている文献データベースは、世界的に標準なものとして、以下の3つがあります。

  1. Reference Manager(ディジタルデータマネジメント社)
  2. EndNote:デファクトスタンダードとも言われている
  3. ProCite

 日本で使われているものとしては、以下の5つがあります。

  1. 文想(by Sasaki氏)−フリーソフト
  2. Ref for Windows−シェアウエア
  3. RefTAN(by澤口俊之氏)−最新版はシェアウエア(旧版はフリーウエア)
  4. GetARefDatAid AB社)−市販品(良く大学生協で見かけますよね)
  5. その他

 僕が使っているソフトを選択するにあたって考えたことを、すこしここに書きます。

 ということで、日本のソフト3本(上記1〜3)がその試用対象となりました。

Bunsoを試用してみて

 このソフトが最も使いやすそうで、しかも自由度が高そうでした。しかもフリーソフトです。僕は、最もこれが良いような気がします。しかし、Science Direct等で利用するためには、専用の読み込みプログラムを自分で書かなければなりません。
 残念ながら、僕はプログラムを書くのがとっても苦手なので、Bunsoの利用はあきらめました。
 もしScienceDirect用に読み込みプログラムをお作りになりましたら、ぜひBunso作者へ連絡をされ、ダウンロードできるようにして下さい。

RefTANを試用してみて

 以下の形式に、データファイルを変換しなければ、読み込むことができません。(RefTANのヘルプファイルより引用)

  1. EndNoteやReference Managerの標準フォーマットは直接読み込み可能
    それ以外は、以下の形式に変換すること。
  2. Journalの場合:
  3. 本の場合
  4. 本の章の場合
  5. その他の留意事項
  6. Journal形式の例)Sawaguchi,T|About RefTAN|Journal of Toshi|1:1-20|1994

 残念ながら、この形式に変換するすべを持っていないので、僕はRefTANを使用していません。

 注)もちろんこの形式に変換する気になれば、やってやれないことはない。改行コードを文字として扱えるエディターで、「改行コード+各項目のヘッダー(タグ)」という文字を、「|」や「|||」や「;」に置換してやればよいのだ。

Ref for Winを試用してみて

 直感的に使いにくいのが第一印象ですが、バージョンアップが結構行われ、だんだん使いやすくなってきています。
 基本的には、自分でハードコピーやPDFファイルで持っている文献を、整理するための道具です。データベースとして利用しようと思うと、使いにくさを感じます。

 各種データベースのデータはもちろん取り込むことができますが、いろいろな形式のテキストファイルをインポートするための設定を、自分で自由に作れる事が特徴です。例えばタグ付きファイルの場合、各データ項目に対するヘッダ(タグ)を簡単に設定することができます。もちろん限界はありますが、限界を超えている場合には、作者がインポート用のプラグインを作ってくれます。

 というわけで、RIFフォーマット用のプラグインを作成して頂き、僕はこれを使っています。


以下執筆途中


文献を自分でPDFファイル化する時のコツ

 コツと呼べるのは次の一点だけです。
 それは、論文の画像ファイルと同時に、その論文全文をOCRで読み込んだテキストファイルも、同じファイルに保存して、一つの論文のファイルにしておく、という事です。
 最近のクライアント設置のデータベースソフトは、全文検索が当たり前で、PDFファイルも、その検索対象となって(注1)います。PDFファイルの中身が画像データだけであれば、もちろんデータベースの検索対象とはなりませんが、テキストファイルが含まれていれば、検索対象となります。今このようなデータベースソフトをお持ちでなくても、将来、お使いになる機会が、必ずと言っていいほど来るでしょう。全文をOCRで読み込まなくとも、タイトルや著者、雑誌名、巻号ページでも十分な情報でしょう。

注1)例えば僕が使っているのは、インターネットブーメラン。この数千円のソフトですら、ワード・エクセル・一太郎に及ばずPDF・メールソフト他各種のファイルが全文検索できる。もちろんNamazuもPDFファイルは対象とすることができる。

 OCRは完璧でなくても、多少間違っていてもかまいません。重要な単語は、必ず複数回出てきますから。

 論文の画像スキャンは以下で行います。これは、Science Directで使われている基準です。
 実際にスキャンする時は、真っ黒の紙を裏に当てて行います。こうすると、裏面が透化せずに、きれいにスキャンできます。黒い紙が手に入らない時は、紙を載せないで白黒コピーをすると、真っ黒のコピーが出来上がります。


おまけ

  1. PUBMEDについては以下のサイトが詳しい

ホームページに戻る このサイトについて
Copyright(c) 2003, [always in the field]KOBAYASHI Shigeru, JAPAN


Yahoo Geocitiesの閉鎖に伴い、このホスティングサービスに移設しました。