© SINCE 2016

PDICデジタル辞典作成マニュアルおよびツール

★自分でデジタル辞書を作る

 辞書原稿の作成・編集には、Microsoft Word が圧倒的に便利です。ワードで作成した辞書原稿は、印刷して冊子版の辞書を作ることもできますし、PDFにすればそのまま印刷所に入稿して書籍版の辞書を出版することもできますし、簡単に電子書籍用に変換して Amazon Kindle などで使えるようにすることもできます

 しかし、ワード原稿をそのままデジタル辞書にすることはできません。この「PDICデジタル チェコ語日本語・日本語チェコ語辞典」の作成に当たっては、ワード原稿をPDICデジタル辞書に変換する技術とツールを開発し、ワード原稿からのPDICデジタル辞書作成方法を確立してマニュアル化しました。

 

  このマニュアルとツールを利用すれば、ワード・ファイルあるいはテキスト・ファイルから比較的容易に、PDICデジタル辞典と、書籍版辞書(電子書籍を含む)の両方を作ることができます。別言すれば、原稿の作成・編集に大変便利なワードで書籍版の辞書原稿を作成してから、それをデジタル辞書に変換できるということです。辞書作成の意欲と能力があれば、誰でもいつでも何語の辞書でも、高度なデジタル辞書を自分で作れます(MAC利用者の方は、MACで作成した原稿を一旦テキスト・ファイルにしてから、Windowsパソコンで変換する必要があります)

 チェコ語日本語・日本語チェコ語辞典正式版公開後に、これらのマニュアルとツールも公開して、一般の利用に供する予定です(2019年予定)。

 

 現時点では、ワードで辞書原稿を作成する場合の定型「辞書原稿様式」だけを下に公開しています。

 辞書原稿の作成に当たっては、下の「ワードで辞書原稿を作成する際の注意点」に必ず従ってください。また、「辞書のダウンロード」タブにある、辞書の「書籍版サンプル」(PDF)も参考にしてください。 

 

(以下、右クリックして「名前を付けてリンク先を保存」を選択)

 辞書原稿様式(Microsoft Word 形式)

★既存の書籍版辞典・事典をPDICデジタル辞典化する

 このツールを使えば、既に出版されている書籍の辞典・事典類を、下記のような3つの手順で比較的簡単にデジタル辞書化してPDICデジタル辞典として使用することができるようになります(もちろん著作権に触れないものしかデジタル化してはなりません。あるいはむしろ、著作権者が生存しているならば、著作権者自身がデジタル化して世に出すことが望まれるでしょう)。

1.辞典・事典の本文をスキャナーにかけます(廃棄しても良い本であれば、業者に依頼して、安価でPDF化してもらうこともできます)。
2.画像化あるいはPDF化したファイルをOCRにかけて文字データ化し、ワード形式(あるいはUnicodeテキスト形式)で保存します(チェコ語を含む多国語対応のOCRとしてはABBYYFineReaderなどがあります。このソフトは、複数の言語が混在するテキストでも認識することができます)。
3.ツールを使ってPDICデジタル辞典に変換します。

 ただし、現在のOCRはかなり高性能だとはいえ、100%の正確さで文字データ化できるわけではないので、若干の誤認識や文字化けが起こります。極力正確な辞書にしたいのであれば、文字データ化した段階でそれを修正する必要があります。やり方を工夫することで認識精度を高めることができますし、誤変換のパターンを見つければ一括置換して修正することができます。
 以下にはサンプルとして、『チェコスロヴァキア共和国地名事典(Místpisní slovník českoslovenké republiky)』(プラハ、1922年)をPDICデジタル辞典化したものの画像を掲載しています。若干の誤認識や文字化けが起こっていますが、十分に使用に耐えるものになっています(時間があるならそれを修正すれば良いでしょう)。

 要するに、原理的にはありとあらゆる辞典をPDICデジタル辞典にすることができるということです。そして、ひとたびPDICデジタル辞典にしてしまえば、互換ソフトなどを利用することで、あらゆる機種のスマートフォン・タブレット、Mac、Kindleでも使えるようになります。

 Google その他が、既に著作権の切れた辞書・辞典をPDF化して無料でダウンロードできるようにしているものがありますが、それらの中には古くても学術的に貴重で利用価値の高いものがあります。そのようなPDFを利用すれば、スキャンする作業は省略できます。
 以下に公開するPDIC用辞書ファイル(MistoSlov.dic)は、WEB上で無料公開されているアウグスト・セドラーチェク『チェコ王国歴史地名事典』(プラハ、1909年、見出し語数約9,000)のPDFを利用して、それをPDICデジタル辞典に変換したものです。部分的な誤認識や誤表示がありますが、十分に利用に耐えるレベルです(より正確な辞書にしたい場合は手作業での修正が必要になります)。このファイル(MistoSlov.dic)を解凍して登録するだけで使えるようになります。辞書ファイルの登録方法については、マニュアルを参照してください。

 

アウグスト・セドラーチェク『チェコ王国歴史地名事典』(プラハ、1909年)

August Sedláček, Místopisný slovník historický Království českého (Praha, 1909).

PDICデジタル辞書圧縮ファイル:

 

Windows版

 

Mac、スマートフォン・タブレット版