<このWeb sitesは，Geocitiesの閉鎖に伴いこのサイトに移設しました。>
<上記は，Geocitiesのスポンサーです．私のWebは以下から始まります．>

文献のデータベース化について

　PUBMEDやサイエンスダイレクト、エルザビアなどの登場で、文献の検索方法が数年前から、画期的に大きく変わりました。
　これに伴い、文献の整理方法も、大きく変わってきています。

　文献をScience Directなどで検索し、その文献のPDFファイルをダウンロードした際、どのように整理されていますか。
　自分のＰＣでデータベース化したいですよね。
　僕のやっている方法を紹介します。

概要

　たぶんどこの文献データベースでも、検索結果としてCitationsにAbstractを加えたファイルをダウンロードできると思います。
　このファイルをそのまま自分のＰＣでデータベース化して、ダウンロードしたＰＤＦファイルを、データベース中の、各データにリンクすれば、良いのです。

　ではどの様なＰＣのデータベースソフトがよいでしょうか。文献用のソフトに必要な用件は以下の５点です。

通常のCitationsファイルには各要素データにヘッダ（タグ）が付いているので、このヘッダ（タグ）を読みとり、各項目としてデータベース化できるもの。

　例えばScience DirectはRIFフォーマットでダウンロードすると、各項目データには、以下のようなヘッダー（タグ）が付いています。そして各論文ごとに、空（から）の改行コードが一つ入れられ、以下ずっと続きます。
- 先頭には特に何もない
- TY - 論文の形式＋文末に改行コード
- T1 - 論文のタイトル＋文末に改行コード
- JO - 雑誌名＋文末に改行コード
- VL - 巻＋文末に改行コード
- IS - 号＋文末に改行コード
- SP - 開始ページ＋文末に改行コード
- EP - 終了ページ＋文末に改行コード
- PY - 出版年月＋文末に改行コード
- AU - 著者＋文末に改行コード
- AB - アブストラクト＋文末に改行コード
- 最後に改行コードが一つ
- 以下またTYから始まる次のデータ
各データ単位ごとに、ファイルやURLへのリンクができること。

　各データを見て、これを読みたい、と思った時にファイルにリンクができるのであれば、それをすぐに読むことができます。
カード式に表現ができる方が、わかりやすい。

　まあこれは当然ですよね。
できれば日本語も使えることが望ましい。

　従来CD-ROMでしか使えなかった国会図書館の雑誌データベースが、2002年末にインターネットで無料公開されたこともあり、日本語も使えることが良いですね。
さらにできれば、データ一覧出力の際に、投稿する学会の書式に合うように出力できること。

　これを見て、なんだ簡単じゃないか、と思われる方もいらっしゃるかと思います。しかし、ちょっとややこしいのです。
　それは"AU"著者のところです。ご自分でダウンロードされたCitationsファイルの中身をよく見ていただくとおわかりになると思いますが、複数の著者がいらっしゃると、その分の複数行の"AU"が入っているのです。汎用データベースは、ここが簡単には対応できません。
　文献専用のデータベースであれば、簡単に対応できます。

僕は何を使っているか

　現在ちまたで広く使われている文献データベースは、世界的に標準なものとして、以下の３つがあります。

Reference Manager（ディジタルデータマネジメント社）
EndNote：デファクトスタンダードとも言われている
ProCite

　日本で使われているものとしては、以下の５つがあります。

文想（by Sasaki氏）－フリーソフト
Ref for Windows－シェアウエア
RefTAN（by澤口俊之氏）－最新版はシェアウエア（旧版はフリーウエア）
GetARef（DatAid AB社）－市販品（良く大学生協で見かけますよね）
その他
- Pubmedia：PUBMED専用

　僕が使っているソフトを選択するにあたって考えたことを、すこしここに書きます。

手元には何も文献専用のソフトは持っていない。初めて使うことになる。
あまり深く考えずにScienceDirectのデータをインポートできること。
できれば日本語が使いたい。（国会図書館対応）
なるたけ費用を安く抑えたい。リスクは覚悟。ある程度は自分で処理する。

　ということで、日本のソフト３本（上記１～３）がその試用対象となりました。

Bunsoを試用してみて

　このソフトが最も使いやすそうで、しかも自由度が高そうでした。しかもフリーソフトです。僕は、最もこれが良いような気がします。しかし、Science Direct等で利用するためには、専用の読み込みプログラムを自分で書かなければなりません。
　残念ながら、僕はプログラムを書くのがとっても苦手なので、Bunsoの利用はあきらめました。
　もしScienceDirect用に読み込みプログラムをお作りになりましたら、ぜひBunso作者へ連絡をされ、ダウンロードできるようにして下さい。

RefTANを試用してみて

　以下の形式に、データファイルを変換しなければ、読み込むことができません。（RefTANのヘルプファイルより引用）

EndNoteやReference Managerの標準フォーマットは直接読み込み可能
それ以外は、以下の形式に変換すること。
Journalの場合：
- JN|Author|Title|Jornal|Vol:page|Year|||Key words|Note
  または
  Author|Title|Jornal|Vol:page|Year|||Key words|Note
本の場合
- BK|Author|Title|出版社:出版地|page|Year|||Key words|Note
本の章の場合
- CH|Author|Capter Title|出版社:出版地|page|Year|Book Tile|Editor|||Key words|Note
その他の留意事項
- 項目の区切りは"|"（半角または英数字の縦バー）ですので注意して下さい。
- 先頭の「JN」、「BK」、「CH」は文献種類のマークです。無い場合には自動判別を試みますが、うまく転入できない可能性があります。
- AuthorやEditorは「Last Name, First Name（イニシャル）」の順番にしてください（例：Smith,AB、またはSmith,A.B.）。
- 複数のAuthorやEditorは「;」（半角または英数字）で区切って下さい。「and」や「&」は不要です（例：Smith,AB;Jones,BC）
- 項目に改行が入っていないことを確認して下さい。
- Key wordsやNote（注意書きや抄録）は必ずしも必要ありません。
- Key wordsのまえの区切り"|"は３つ必要です。
Journal形式の例）Sawaguchi,T|About RefTAN|Journal of Toshi|1:1-20|1994

　残念ながら、この形式に変換するすべを持っていないので、僕はRefTANを使用していません。

　注）もちろんこの形式に変換する気になれば、やってやれないことはない。改行コードを文字として扱えるエディターで、「改行コード＋各項目のヘッダー（タグ）」という文字を、「|」や「|||」や「;」に置換してやればよいのだ。

Ref for Winを試用してみて

　直感的に使いにくいのが第一印象ですが、バージョンアップが結構行われ、だんだん使いやすくなってきています。
　基本的には、自分でハードコピーやPDFファイルで持っている文献を、整理するための道具です。データベースとして利用しようと思うと、使いにくさを感じます。

　各種データベースのデータはもちろん取り込むことができますが、いろいろな形式のテキストファイルをインポートするための設定を、自分で自由に作れる事が特徴です。例えばタグ付きファイルの場合、各データ項目に対するヘッダ（タグ）を簡単に設定することができます。もちろん限界はありますが、限界を超えている場合には、作者がインポート用のプラグインを作ってくれます。

　というわけで、RIFフォーマット用のプラグインを作成して頂き、僕はこれを使っています。

以下執筆途中

文献を自分でPDFファイル化する時のコツ

　コツと呼べるのは次の一点だけです。
　それは、論文の画像ファイルと同時に、その論文全文をOCRで読み込んだテキストファイルも、同じファイルに保存して、一つの論文のファイルにしておく、という事です。
　最近のクライアント設置のデータベースソフトは、全文検索が当たり前で、PDFファイルも、その検索対象となって（注１）います。PDFファイルの中身が画像データだけであれば、もちろんデータベースの検索対象とはなりませんが、テキストファイルが含まれていれば、検索対象となります。今このようなデータベースソフトをお持ちでなくても、将来、お使いになる機会が、必ずと言っていいほど来るでしょう。全文をOCRで読み込まなくとも、タイトルや著者、雑誌名、巻号ページでも十分な情報でしょう。

注１）例えば僕が使っているのは、インターネットブーメラン。この数千円のソフトですら、ワード・エクセル・一太郎に及ばずPDF・メールソフト他各種のファイルが全文検索できる。もちろんNamazuもPDFファイルは対象とすることができる。

　OCRは完璧でなくても、多少間違っていてもかまいません。重要な単語は、必ず複数回出てきますから。

　論文の画像スキャンは以下で行います。これは、Science Directで使われている基準です。
　実際にスキャンする時は、真っ黒の紙を裏に当てて行います。こうすると、裏面が透化せずに、きれいにスキャンできます。黒い紙が手に入らない時は、紙を載せないで白黒コピーをすると、真っ黒のコピーが出来上がります。

白黒
TIFF 5.0
300 dpi (dots per inch)
最大サイズ A4 （210 mm X 297 mm）

おまけ

PUBMEDについては以下のサイトが詳しい
- PubMed 徹底活用講座（by 中条卓氏）

ホームページに戻る　このサイトについて
Copyright(c) 2003, [always in the field] KOBAYASHI Shigeru, JAPAN

Yahoo Geocitiesの閉鎖に伴い、このホスティングサービスに移設しました。