こちら「日本語でケアナビ」開発室

2008年3月のシンポジウムの詳細が決定!

すなみ

あの機能あのコンテンツの舞台裏

表記ゆれ(6)不要な候補が出てしまう

悪戦苦闘した表記ゆれ対応は、
検索用の入力文字にフィルタをかけて一部文字を変換し、
さらにデータベースに対応パターンを入力しておく、
という合わせ技を使うことに落ち着きました。

しかし、この方法とて万能ではありません。

前回の例を引き続き使って考えてみます。

図:tiiと入れてもchiiと入れても結果は同じ

利用者が「tii」と入力した場合、
これは「ティー」のつもりで適切な綴りで入力したのか、
それとも「地位」のつもりで綴り違いで入力したのか、
システムとしては判断がつきません。
そこで対応パターンを入れたデータベースとフィルタにより
「ティー」と「地位」の両方の候補を
検索結果画面に表示することになります。
これは「chii」と入力した場合でも同じ結果になります。

候補が2つとも表示されるなんて、ややこしい。

確かにそうなのです。

綴りに表記ゆれのパターンが存在し、
かつ表記ゆれまで含めると全く同じ綴りになることは
特に「地位」と「ティー」のような短い言葉の場合に
よく起こりうると考えられます。

また、日本語でケアナビの検索は、
入力した文字がデータベースの言葉の一部と同じであれば
それも検索結果に表示されます(部分一致方式)。
ですので、極端に短い言葉で検索した場合、
表記ゆれも含めたくさんの候補が表示される、
という可能性が高くなります。

それでも、この「表記ゆれ対応」を一切していなければ
正確に入力したつもりなのに検索結果が0件、
という結果になることが多いでしょう。
ユーザーは、データベースにその言葉がないと思って
(本当は存在するのに)諦めてしまうかもしれません。
だから、検索結果に不要な候補がある程度出てきたとしても、
表記ゆれに対応することを優先する、というのが
今回の開発チームの判断でした。

このような仕組みですので、ローマ字で言葉を探すときは
まずは完全に、あるいは長めに綴りを入力して検索。
それでうまくいかない場合、その前半部分だけ、
あるいは、より確実だと思う綴りの部分だけ入力して
再度検索してもらうとうまくいくのではないかと思います。

ちなみに、Englishモードで検索結果が0件だった場合、
ケアナビで採用しているローマ字表記の一覧を
表示させるようにしています。一度試してみてください。
もう一度検索をお願いするための工夫です。

表記ゆれ対応をどうすべきか、については
正しい解があるわけではないと僕は思っています。
何も対応しなければ、検索が空振りに終わる可能性が高くなり、
対応すると、検索結果に不適切なものが混じりやすくなる。
今回、そのさじ加減が非常に難しいと感じました。
みなさんはどう考えますか?

2007.12.22 10:15 - すなみ

次は「表記ゆれ(7)できることと、しないこと」

このトピックの記事一覧へ

コメントする