検索にヒットしない・ヒットしすぎる |
トップ 前へ 次へ |
【このページの主な項目】
インデックス構築状況の問題 この項では全文検索インデックスの問題について解説しています。
現象 キーワード検索に、目的のファイルがヒットしません。
原因 以下の原因が考えられます。
解決方法
検索キーワードの問題
現象 「あれ、なんで見つからないの?」 「なんでこんなのがヒットするの?」 ここでは、全文検索の結果に違和感を覚えるケースについて解説します。
原因 FileBlogが採用している検索方法の特性により、検索結果が予期したものと異なってしまう場合があります。
解説 FileBlog全文検索の特性
例文1:『英語で「おはよう」はGood morningになります』 は、 英数文字列"Good morning"部分と、その他に分けて扱われます
上記の例文1は「英語」「おは」「なります」などのキーワードで検索できます。 「語」や「お」など1文字キーワードで検索してもヒットしません。
上記の例文1は「Good」や「morning」で検索するとヒットします。 しかしながら、「Goo」や「ing」などの部分文字列ではヒットしません。 このため、ID番号などの部分一致検索は出来ません。 たとえば「20100615」は「2010」ではヒットしません。
たとえば「20100615」は「2010*」や「*0615」でヒットします。
たとえば「警察は110番で消防は119番です」を検索するときに 「110」ではヒットしますが、「110番」ではヒットしません。 これは、全角半角の境界でキーワードが分割され 「110番」は「110」と「番」として検索されるものの、もとのテキストには「番」が見つからないためです。(1文字キーワードがヒットしない理由は 2.を御覧ください。 全角半角混じりキーワードで検索する場合、全角部分については原則として2文字以上としなければならず、半角部分については単語全体が完全一致するようにしなければならないのです。
FileBlogファイル名検索の特性
全文検索でヒットしない半角の部分文字列もヒットするように、ファイル名専用の検索インデックスを構築しています。 ファイル名専用インデックスでは、ファイル名を単語分割する際に、文字列長2~15のNグラム方式を取っています。15文字を越えるキーワードで検索する場合、キーワードが一つであればヒットします。
FileBlog全文検索・ファイル名検索 共通の特性
全角一文字での全文検索を有効にする方法 全角1文字での検索を有効にするには、検索インデックスを『ユニグラムで構築しなおす』必要があります。検索インデックスのサイズが肥大化し、検索パフォーマンスが低下するリスクがあるため、文書量が数十万件を超える場合には推奨できません。 ※詳しくは弊社サポートまでお問い合わせください。
|
Copyright © 2014 Teppi Technology Co. Ltd. All rights reserved.