テキスト情報の抽出について

<< Click to Display Table of Contents >>

Navigation:  システム設定(管理者マニュアル) > 詳細設定 > 検索エンジン(Solr)について >

テキスト情報の抽出について

IFilterについて

FileBlogは、ファイルから検索インデックスに登録するためのテキスト情報を抽出するのに、xdoc2txt または、IFilter プログラムを使用しています。

デフォルトのテキスト抽出エンジンは、xdoc2txt ですが、ファイル種類によっては Microsoft などの各メーカーが提供する IFilter を用いることができます。

Microsoft IFilter は、Microsoft が提供するテキスト抽出エンジンで、Microsoft Office ファイル等のテキスト抽出に向いていて、xdoc2txt に比べて高速(当社比)に処理することができます。

Microsoft Outlook メッセージ形式ファイル(.msg)や、Microsoft Visio の全文検索を行う場合には、Microsoft IFilter のインストールが必須です。

Outlook msgファイル用IFilter、Visio用IFilterを含む 「Microsoft Office 2010 Filter Pack Service Pack 2 (64 ビット版)」のダウンロード先はこちらです。(2020年11月現在)

https://www.microsoft.com/ja-jp/download/details.aspx?id=17062

 

IFilterの適用確認

FileBlogサーバーに IFilter がインストールされているか確認する方法です。

1.Windows設定 > 検索 > Windows検索 > 詳細検索インデクサーの設定 を開きます。

re0285

re0258

「インデックスのオプション」で検索しても同じです。

re0286

2.詳細設定を開きます。

re0259

3.ファイル種類を開きます。

re0260

4.「msg」 が 「Office Outlook MSG IFilter」 になっていれば IFilter はインストールされています。

 

IFilterを使用するファイル種類の設定

1.設定ボタン > システム設定 > ファイル種類 を開きます。

re0089

2.IFilter を使用するファイル種類を指定します。
Word、ExcelファイルなどはデフォルトでIFilter利用に登録されています。

re0090

3.「全文検索」と「IFilter利用」に同じ拡張子を登録します。

「全文検索」に指定がないと、全文検索の対象になりません。

「IFilret利用」に指定がないと、デフォルトの xdoc2txt が使用されます。
対応する IFilter がインストールされていない場合も xdoc2txt が使用されます。

4.設定を保存してサービスを再起動すると反映されます。

項目

説明

全文検索対象

ここに登録されるファイル型式(拡張子)は、全文検索用のインデックスの構築対象になります。仕様外のファイル形式を登録してもインデックスは構築されません。

IFilter利用

インデックス構築のために、ファイルからテキストデータを抽出するためにIFilterを使用するファイル形式を指定します。新たにファイル形式を登録する場合には、同時に対応するIFilterのインストールが必要になることもあります。

テキスト形式(ascii)

全文検索対象のファイルのうち、ここで指定されたファイル形式については、専用コンバーターを使用せずにファイル内容をそのまま検索インデックスとして構築します。該当するファイルが多い場合、検索インデックスの構築処理速度が速くなります。