「検索方法について考える」
インターネットでデータベースを公開するというのは、
ユーザーがデータベースを使って知りたいことばを検索するということ・・・。
じゃ、その検索方法は?
どんな検索方法を提供するの?
文字入力だけでいいの?
日本語の文字が間違いなく打てる人が検索するって限らないぞ?!
となると、準備するデータベースとして、
漢字仮名混じりの項目語彙と、ひらがなだけでいいの?
項目語彙や関連語のローマ字がいるんじゃない?
などなど、今のままのデータベースじゃ十分ではない!
と、いろいろと気づきました。
その結果、漢字かな混じりの項目語彙と読み仮名以外に
- 項目語彙のローマ字
- 関連語のローマ字
を新たにデータベースに加えないといけなくなりました。
文字入力検索とゆれについて
ユーザーがひらがなで入力した場合で、
そのユーザーが日本語学習者だった場合、
必ずしも正しいつづりで日本語を入力するわけではありません。
だからといって、
「あなたが入力したことばの検索結果は0件です。」
と、終わらせてしまうことは私たちはしたくありませんでした。
自分がどうしても知りたいことばがあって、辞書で調べました。でも
「ないよ」
って言われたらどうでしょう?
なんや、この辞書。知りたいことば載ってないやん!
あれもこれも調べたけどヒットせえへん。もうええわ、
このサイトでことば調べるの、やめよ!
と思う人がいることでしょう(なぜか大阪弁ですが・・・)。
そうなっては、私たちの思いは伝わりません。
いくら膨大な語彙数を収録していても、
「あなたの調べ方が悪いので、結果はありません。」
では、あまりにも不親切です。
また、語彙数はユーザーが直接体感できませんから、
結局ユーザーに与える印象は「調べても出てこない。
あまり便利じゃないし、収録語彙も少ないかも」というものになりかねません。
それでは意味がないのです。
そこで考えました。
ひらがなで、
「異なるつづり」入力、
「色々な送り仮名」入力等を
できるだけヒットさせるために
「ひらがなゆれ」というデータの枠、
ローマ字の入力バラエティを
できるだけヒットさせるために
「ローマ字ゆれ」というデータの枠を作って
多少入力が違っていても語彙が探せるようにしたのです。
ゆれ、って何?
日本語を学習している人の中には
正しい入力ができない
正しいつづりがわからない
なんとなくこんな発音だったなぁ・・・
という人がいるでしょう。
そんな人たちが検索のために入力していく語彙の文字列には
幅(=ゆれ)があります。
その幅をできるだけ予測し、前もってデータベース内に準備しておけば、
文字入力検索したときに、正しい語彙へと導けると考えました。
例えば
「言う」ということば、ローマ字で入力する場合、人によっては
iu
yuu
のように、文字をそのままローマ字にして入力するのか(iu)、
聞いた音に近いローマ字を入力するのか(yuu)、
が考えられます。
そのどちらの場合で入力しても、「言う」ということばへ導けるように、
「言う」のデータには「ゆれ」の枠に
ローマ字表記の「iu」 「yuu」、
ひらがな表記の「いう」「ゆう」のデータを用意しました。
「受け付ける」ということば。
「受付ける」?
「受けつける」?
など、送り仮名、漢字を一部だけ変換しているなど、
色々なゆれが想像できます。
そんな場合でも「受け付ける」に到達できるように
「受付ける」「受けつける」「うけ付ける」というデータを準備しました。
2007.10.22 13:32 - まえちゃん


