今回から7回にわけて「表記ゆれ対応」を取り上げます。
日本語データベース特有のこの奥の深い問題に、
僕らがどう取り組んだのかをお伝えしていきます。
表記ゆれ対応の機能は、文字入力検索に関係するものです。
例えば「しわ」という言葉を検索したいとします。
文字入力検索で「しわ」と平仮名で入力した場合
ここでいう問題は起きないのですが、
これをローマ字で入力したい場合はどうなるでしょう。
あなたは「shiwa」と入力しますか?
それとも「siwa」でしょうか?
「しわ」という言葉のローマ字表記は、
一般に良く使われるものに「shiwa」と「siwa」があります。
厄介なのが、どちらが誤りというものではない、ということ。
どっちを書いてもOKということです。
他にも「つ」は「tsu」「tu」と2つありますし、
「ふ」は「fu」「hu」などというパターンがあります。
表記の仕方が複数あるものが、いくつかあるんですね。
「日本語でケアナビ」の画面上では
「しわ」は「shiwa」と表示されます(やってみて!)。
これは、日本語でケアナビで用いるローマ字表記法、
言うなれば「ケアナビ式」表記を開発メンバーで設定して、
それに統一する形で表記しているからです。
(この表記法を決めた過程は今後詳しく記事にする予定です)。
画面表示では「このルールです」と決めたものを提示すれば
ユーザーが見て混乱することは少ないと考えられます。
しかし、日本語でケアナビにおける表記ゆれ問題は、
画面表示だけでなく、入力文字にも大きく関係します。
文字入力検索時にユーザーがどんな入力をするか、
「shiwa」とするのか「siwa」とするのか、という問題です。
ぜひやってみていただきたいのですが、
日本語でケアナビの文字入力検索では、
「shiwa」と入力しても「siwa」と入力しても
同じ「しわ」という言葉がリストアップされます。
つまりどちらの表記で書いてもOKということなのですが、
それを実現するには様々な苦労がありました。
次回以降、そのプロセスを詳しくお伝えしていきます。
2007.11.24 16:23 - すなみ


