テキスト抽出エンジンIFilterの使用について

トップ  前へ  次へ

 

IFilterについて

FileBlogでは全文検索用のテキスト抽出にxdoc2txtまたはIFilterを使用しています。

標準のテキスト抽出エンジンはxdoc2txt.exeですが、ファイル種類によっては、Microsoftが提供するIFilterを用いることができます。

 

IFilterは、Microsoftが提供するテキスト抽出エンジンで、Word, Exel, PowerPointなどのファイルのテキスト抽出はxdoc2txtに比べて高速に処理することが可能です。(当社テストにおいて)

※Microsoft Outlookメッセージ形式ファイル( .msg )やMicrosoft Visioの全文検索を行う場合はIFilterのインストールが必須になります。

 

.msg用IFilterは2013年3月現在、下記のURLからダウンロードできます。

       http://www.microsoft.com/en-us/download/details.aspx?id=1111

Visioフィルターを含む 「microsoft Office 2010 フィルタパック」は2013年3月現在、下記のURLからダウンロードできます。

       http://www.microsoft.com/ja-jp/download/details.aspx?id=17062

       ※microsoftフィルタパックには、Microsoft Searchサービスが必要です。

 

使用方法

IFilterで抽出させたいファイルの種類を、例として仮に "doc" とします。(最新版を新規インストールすると既定ではMS Office,  Adobe PDFはIFilterを使用するように設定されています。)
管理ツールを開いて、環境設定 > 設定 > 簡易モード > ファイル種類 を開きます。

 

clip0077

 

まずファイル種類の[全文検索対象]に docを指定してください。この項目に指定がないと、そのファイル種類についてテキスト抽出が行われません。
次にファイル種類の[IFilter利用]に docを指定して下さい。この項目に指定がない場合、xdoc2txt.exeが使用されます。また、対応するIFilterがインストールされていない場合もxdoc2txt.exeが使用されます。
docに対応するIFilter用のライブラリをダウンロード&インストールして下さい。(docについては、通常Windowsに標準でインストールされています)
Fb3Indexerサービスを再起動します。

 


Copyright © 2014 Teppi Technology Co. Ltd. All rights reserved.