DocuSleuth は DocuSleuth システムのユーザーI/F側を担うアプリケーションです。
実際の検索はこのアプリケーションを使って行います。
使うにあたって必要な事は一つだけ。別途稼働している DocuSleuthCompanion のホスト名を指定することです。
正しくホスト名を指定すれば、検索リクエストを投げたり受け取ったりという処理が可能となります。
起動時の画面はこのようになっています。
画面左側に 検索・設定 が縦に並んでいる箇所があるのがわかると思います。
ここの下側にある 設定 を押して下さい。すると環境設定画面になります。
この画面の入力エリアに、DocuSleuthCompanion が稼働している PC の名前を入れてください。デフォルトでは localhost となっています。画面では、サンプルとして別のサーバー(hx90.home)を指定した状態になっています。
ここに入れる名前は、運用する環境によって変わりますので、不明な場合はシステム管理者に問い合わせてください。
多くの場合は、ホスト名(PCxxxxとかそんな名前がつくケースが多いかと思います)で十分です。
たまに、FQDNの形で指定しないといけないケースもあります。(PCxxxxx.localとか)
一般家庭の場合は、PCの名前でまず問題はないかと思います。
起動時は以下の初期画面になっているかと思います。
環境設定などをした後は画面が変わっているので、画面左側の 検索 を押して下さい。すると、この画面に切り替わります。
ここの 検索文字列 に適当な単語とか文章とかを入れてください。システムが内部で単語に分解しますので、神経質に区切る必要はありません。
例えば「機械学習モデル」で検索をしてみましょう。今回のサンプルは、Wikipedia から適当に集めてきた 11,000ちょっとの PDF ファイルです。
あいまい検索(OR) ボタンを押したときの検索結果は次のようになります。
検索結果はリスト形式で表示されます。
先頭行がファイルのある場所です。フルパスで表示します。
次の行がスコアです。このスコアが大きい方がよりらしいと判断したドキュメントとなります。
最後の行が、検索キーワードに関連する記述を抜き出したものです。ファイルを開く前の参考にして下さい。ここの情報は計算に時間がかかるため、検索が終わってから徐々に表示されるようになっています。ユーザーからの検索リクエストが大量に発生している場合は、表示に時間がかかるケースもあります。こちらはシステムの都合上避けられない問題なのでご理解頂けますと幸いです。
検索結果のダイジェストが表示されたら、更に詳細情報を表示することも可能となります。
例えば、先頭に出ている「機械学習.pdf」を選択してみてください。すると、このように検索時の詳細データが表示されます。
上半分が、ファイルに含まれるテキスト情報で、赤色になっている部分が検索でヒットした文字列になります。
下半分には、どの単語がどれだけの回数ヒットしたかを集計したデータを表示します。あいまい検索をした場合は、検索に使った単語と似ている単語も一覧に出てきます。単語と出現回数がそれぞれ表示されていますので、どういう理由でヒットしたのかを確認したい場合はこちらの画面が参考になると思います。
今回、あいまい検索を行っているので learning や 人工知能 という単語も検索でヒットしていることがわかります。
リスト表示画面の左端にある二つのボタンが、検索結果を元にファイルにアクセスするためのボタンです。
開く(ファイル) は、ファイルを関連付けられたアプリケーションで開きます。多くの場合、Word とか Acrobat Reader とかでドキュメントを開く形になります。但し、ファイルの関連付けを変えると開くときに使うファイルも変わりますので注意してください。
開く(フォルダ) は、ファイルが存在するフォルダをエクスプローラーで開くものです。ファイルを操作したい場合は、こちらを利用してください。
検索結果は、最大500件表示されます。但し、検索結果の中にアクセス権の問題などでアクセス出来ないファイルがある場合、それは表示されません。そのため、場合によっては検索結果が極めて少なくなる可能性もあります。また、ファイルサーバーがダウンしている場合、アクセス出来ない状態と見なし、ダウンしているサーバーにあるファイルは出てきません。検索結果に期待するファイルがない場合、ファイルサーバーの稼働状態やアクセス権についてもチェックしてみてください。
なお、実際に500件縦に表示されるのは I/F的に問題があるため、本アプリケーションでは 20件を区切りとしてページ単位で表示するようになっています。ページの切り替えは画面下部のボタンで行えます。
現在、検索エンジンでの処理と比べて微妙に異なる方法でヒットする文字列を検索しています。実用上致命的な問題ではありませんが、気になる方もいらっしゃるかと思います。将来的には、検索エンジンと同じ方法でヒットする文字列を表示するような対応を検討していますが、対応時期は現時点では未定です。内部処理の都合が原因です。申し訳ありません。
暫定ではありますが、それなりに参考になる情報ですので、どうしてこのような結果になったのかが気になる場合はこちらを確認してください。
絞り込み検索は、検索結果として表示されているファイルを対象とし、別のキーで検索をかける機能です。これにより、余計なファイルが入り込むことなく、ファイルを絞り込んでいくことが出来ます。
例えば、この検索結果に対し、更に「決定木」というキーワードで絞り込み検索をかけてみます。まず あいまい検索(OR) での結果です。
何故かオールナイトニッポンというラジオ番組が引っかかってしまいました。こういう場合は、画面右側を確認します。すると「木」が「曜日」という意味で扱われており、結果、ラジオ番組が引っかかったということがわかります。このような多義語はどうしても思いもよらぬものを引っかけてしまいます。ですので、結果について疑問がある場合は、詳細画面を確認することをお勧めします。
このように多数の結果が出た場合は、類義語ではなく、単語そのもので検索したいこともあるかと思います。この場合は 単語検索(AND) を使います。こちらは類義語を除外しますので、より目的に近いファイルが出てきます。
相変わらずオールナイトニッポンが先頭に出てきますが、決定木も上位に来ています。一般的に使われる単語「決定」「木」に別れてしまうため現時点では難しい問題です。このような複合語についても解析して辞書化していく必要があるのですが、現時点では保留状態です。導入先のドキュメント群より、そこで頻繁に使われる複合語を抽出してそれも検索に利用するという形で検討をしていく予定です。
あと、単語検索(AND) は全ての単語が出現するというフィルターがかかりますので、件数も大幅に減り 109件となっています。類似単語が検索出来ないというマイナス面もありますが、単語がある程度絞り込めるのであれば 単語検索(AND) を組み合わせて検索を行うというやり方も十分検討に値します。
更に絞り込みましょう。
絞り込み検索のキーワードとして「評価指標」を指定し あいまい検索(OR) をしてみた結果です。
すると件数が91件に減ったのと 文章あいまい検索 のボタンが有効になったのが確認出来ると思います。 文章あいまい検索 は処理時間がかかるため、件数が100件以下にならないと有効にならない制限がかかっています。
では、絞り込み検索 のところに「決定木の性能の評価指標」という文章を入れて 文章あいまい検索 を押してみましょう。文章あいまい検索では、単語の並びを類似度の評価対象に加えます。そのため、計算にかかる時間はかなり長くなります。もちろん、文章もあいまいに検索しますので、単語が入れ替わっても問題なく検索します。
結果は次のようになります。
スコアがあまり高くありません。ぴったりの文章は見つからなかった様子です。ですが、わかりやすい例として「機械学習.pdf」のダイジェストを見てみると「性能指標」を含む文章が多数含まれていることがわかります。
一見あいまい検索と同じように見えますが、単語の並びを意識した検索となりますので、その分時間はかかりますがデータは絞り込まれます。
時間がかかるので手軽に流すことは難しいですが、文章といったレベルで調べたい場合は「文章あいまい検索」も効果的です。
目的に合わせて選択してください。
検索結果は、タブとしてどんどん追加されます。検索が終わり次第、タブの中身が埋まるとともにタブが選択状態になります。
不要になったタブはどんどん消していって構いません。
今回の説明は AND, OR の双方を使いました。でも、AND とか OR にどんな効果があるのか疑問に思うかと思います。
簡単な区別はこうなります。
AND:全部の単語を含むものを検索
OR:一部の単語を含むものを検索
実際にはあいまい検索なので、ANDでもORでも大抵何か引っかかるのですが、そういうものはスコアが低くなるようになっています。
実際に使って見ると、OR だと引っかけすぎというケースも多々あります。そういうときは、ANDを使ってみるのも良いかも知れません。
※よくわからないときは、OR を使って下さい。
基本は あいまい検索(OR) を使って下さい。
絞り込み検索では 単語検索 と あいまい検索 を用途に合わせて使うようにして下さい。あいまいに引っかけすぎているように思ったら OR ではなく AND を使うことも検討してください。ある程度絞り込めたら 文章あいまい検索 も効果的です。
但し、文章あいまい検索は検索コストが高いという問題がありますし、やはり単語検索やあいまい検索に比べるとあいまいとは言え条件は非常にシビアです。具体的な文章イメージがあるときにご活用下さい。