© SINCE 2016

日本語テキストでの自動辞書引き(チェコ人向け PRO ČECHY)

 PDICには今のところ、日本語の変化形→原形変換システムが組み込まれていません。そのため、日本語の変化はチェコ語ほど激しくないものの、日本語のテキストを読みながら自動辞書引きを行う場合、変化形ではヒットしないことがあります。この弱点を補うために、操作はやや煩瑣になりますが、国立国語研究所が公開している日本語形態素解析ツール「Web茶まめ」と組み合わせると、PDICの自動辞書引き機能をより効果的に用いることができます。

 使い方は以下の通りです。

 FirePop!をインストールしたFireFoxあるいはGoogleChromeで「Web茶まめ」(http://chamame.ninjal.ac.jp)にアクセスします(PDICのWEB検索メニューにURLが登録されていれば、「Search」→「Webで検索」で呼び出すこともできます)。

 上の「解析対象」の所に、読む文章をコピー&ペーストします(テキスト形式のファイルをアップロードすることもできます)。

 下の「出力項目」で必要なものだけを残して、不必要なチェックを外します(「語彙素」「語彙素読み」「品詞」「発音形出現形」だけにチェックが入っていれば十分でしょう)。ただし、面倒であればそのままにしておいても構いません。

 下の「実行する」をクリックします。

 上部に元の文章、下部に解析結果が表示されます。解析結果の「書字形(=表層形)」が元の形、「語彙素」が変化形を原形に直した形(辞書の見出し語などに載っている形)です。

 PDICで自動辞書引きを行う場合は、画面を分割してFirePop!インクリメンタルサーチかポップアップ検索を行いますが、その際、変化形でヒットしないものについては原形に直した「語彙素」で辞書引きを行います。例えば、「わかり」ではヒットしないので語彙素の「分かる」で引く、「知ら」ではヒットしないので語彙素の「知る」で引くといった具合です。

 なお、「Web茶まめ」では単語の原形、品詞、(漢字の)読み方その他も表示できるので、日本語学習者にとっては大変便利なツールでしょう。PDIC辞書と組み合わせて使用すれば、学習効果は非常に高まると思われます(ただし、機械的に処理しているため、漢字の読み仮名は文脈に合わないものが表示されることがあるようです)。

 PDICで辞書引きを行った際、CTRL+R で日本語の見出し語の発音を聞くこともできます。