こちら「日本語でケアナビ」開発室

2008年3月のシンポジウムの詳細が決定!

うえだ

よくわかる「日本語でケアナビ」

誕生への旅(2)サイト用のデータ作り

1年目に作成したデータベースをインターネット公開するために、2年目は、「インターネット公開用データベース」を制作しました。

発想の転換!

インターネットで公開する場合に、最も大切な仕事はWebデザインです。
プロジェクトの重心がそこに移ったのは2年目の下半期になってからです。
しかし、実際は検索用データを作成する段階から、Webデザインについてもすでにいろいろな話し合い協議がはじまっていました。

ここで、開発を担当した私たちは、大きく発想を転換しなければなりませんでした。

それは、1年目の仕事が「ことばを拾い集めて分類すること」だったのに対し、2年目は「たくさんあることばの海から、必要なことばを瞬時に取り出す仕組み」を決め、「その仕組みをどう設計していくか」を考え、そして、「その仕組みが組み込まれたデータを作ること」へとシフトしたのです。

つまり、インターネット公開用データベース制作とは、インターネットの特性を生かした検索方法を考え、それを可能にするための仕組みとデータを整備していく作業だったのです。

検索方法

サイトの仕組みとしてまず考えたのは、どんな検索方法を提供するかということです。

最終的に「日本語でケアナビ」には、

  • 文字入力による検索
  • タグによる検索
  • 50音からの検索
  • 漢字からの検索

などの検索方法を用意することになりました。

データづくり

インターネットで検索するためには、それがしやすくなるようなデータを整備しなければなりません。
エクセル表を思い浮かべてみてください。
基本データベースで作成した項目語が縦の「行」にズーッと6000以上続いていきます。
それに対して、横に並ぶ「列」に入れていくデータが、検索のためのデータを含む各項目語に対する提供情報になります。

データ制作作業では、まず列に入れる要素を決め、それからすべての行の項目語に対して、データを列に入れていきます。

次回は、その検索用データの要素を見ていきます。

表記データ

たとえば「表記」が列データの一つです。
「病院」ということばを検索するとき、漢字で「病院」と入力するだけでなく、「びょういん」でも「byouin」でも検索できれば便利でしょう。
そのために、項目のことばに対してひらがな、カタカナ、漢字、ローマ字・・・と表記データを一つ一つの列に入れていきます。

「ゆれ」データ

「ゆれ」データを設定する目的は、検索したときに適切なことばが検索結果として表示される率を高めることです。
たとえば、ひらがなで検索する場合、「びょういん」でも「びょおいん」と入力しても、「病院」という項目語にあたるようにするということです。
「びょおいん」という表記は正書法からいうと正しいとはいえませんが、日本語学習者には見られるものです。
もっと後になるのですが、表記に関連しては「ゆれ」データを作成することも大きな仕事でした。

このような「ゆれ」には、きりがありません。
そこで、ある程度の「ゆれ幅」を決めて、検索ロジックのパターンを設定し、「ゆれ」データとロジックによって、検索精度が高められるようにしました。

「分かち」る?「ゆれ」る?

一方、コンピュータを使う点でもシュミレーションする必要がありました。
たとえば、パソコンの画面でデータはどのように表示されるのか。
本など紙のメディアと、パソコンというメディアでは、同じような表記でも受ける印象が変わります。
そこで、パソコン画面でわかりやすくするために、「例文のひらがな表記」や「ローマ字表記」データの「分かち書き」を行いました。
「助詞は切りはなすか、文節でまとめるか」など、これも話し合いながらの作業です。

そんな開発メンバーの間で自然に生まれたことばが「分かちる」という動詞。
職場の俗語ですが、そういえば「ゆれる」というのも聞いたような・・・
コツコツとつづける作業の合間の、ちょっとしたことば遊びです。

タグとタグ検索

さて、いよいよインターネット用データづくりの山場である「タグづけ」の開始です。
まず、「タグ」とは何か。
もともとは荷物についている荷札のようなものを指すことばです。
インターネット検索での「タグ」とは、あることばについて関連する要素、属性のようなもので、「タグ」は「タグ検索」をするために必要なデータなのです。
「タグ検索」では、「タグ」を選んでクリックします。
次々と「タグ」を加えていくことで、ことばをしぼっていく方法です。
たとえば、
「おせわする」に、「きれい・清潔にする」+「動作」+「入浴」と足していくと、
「お風呂に入る」ということばが検索できます。

もちろん、「お風呂に入る」ということばを知っている場合は、直接、文字入力することで見つけられます。
しかし、具体的なことばは知らないが「こんな場面で使う」とか、「こんなことと関係がありそうだ」というような「情報の切れ端」を手がかりにしてことばを探す場合、「タグ検索」は有効だと言えます。
さらに、「お風呂に入る」ということばについている他のタグから、関連表現へと広げていくこともできます。

タグづけ

「タグ検索」が可能になるように、あらかじめ一つのことばに対していくつかの「タグ」をつけておきます。それが「タグづけ」作業です。
「タグづけ」は、ちょうど連想ゲームのようです。
6000以上ある項目語すべてに、少なくて3つ、多くて10近いタグをつけていきますから、この作業はプロジェクトの旅の中でもかなりの強行軍でした。

また、「タグづけ」作業では、あることばに対してどのようなタグをつけるのかという「タグそのものの確定」が同時に行われます。
これもなかなかの難問でした。

こうして項目語の列に入れるデータは「英訳」、「例文」、「例文の英訳」、「難易度」、「関連語」、「関連語の英訳」「略語」等、と増えていきました。

2007.10.09 11:48 - うえだ

次は「誕生への旅(3)検証とサイトデザイン」

このトピックの記事一覧へ

コメントする

このアイテムは閲覧専用です。コメントの投稿、投票はできません。