テキスト抽出エンジンIFilterの使用について

トップ  前へ  次へ

 

IFilterについて

FileBlogでは全文検索用のテキスト抽出にxdoc2txtまたはIFilterを使用しています。

標準のテキスト抽出エンジンはxdoc2txt.exeですが、ファイル種類によっては、Microsoftが提供するIFilterを用いることができます。

 

IFilterは、Microsoftが提供するテキスト抽出エンジンで、Word, Excel, PowerPointなどのファイルのテキスト抽出はxdoc2txtに比べて高速に処理することが可能です。(当社テストにおいて)

※Microsoft Outlookメッセージ形式ファイル( .msg )やMicrosoft Visioの全文検索を行う場合はIFilterのインストールが必須になります。

 

.msg用IFilterは2014年1月現在、下記のURLからダウンロードできます。

       http://www.microsoft.com/en-us/download/details.aspx?id=1111

Visioフィルターを含む 「Microsoft Office 2010 フィルタパック」は2014年1月現在、下記のURLからダウンロードできます。

       http://www.microsoft.com/ja-jp/download/details.aspx?id=17062

       ※microsoftフィルタパックには、Microsoft Searchサービスが必要です。

 

 

使用方法

 

IFilterで抽出させたいファイルの種類を、例として "doc" とします。(FileBlogを新規インストールすると既定ではMS Office,  Adobe PDFはIFilterを使用するように設定されています。)
管理ツールを開いて、高度な設定 > テキスト・プレビュー抽出 > ファイル種類 を開きます。

 

0013

 

まずファイル種類の[全文検索対象]に"doc"を指定してください。この項目に指定がないファイル種類は、テキスト抽出が行われず全文検索対象になりません。
次にファイル種類の[IFilter利用]に"doc"を指定して下さい。この項目に指定がない場合、標準の"xdoc2txt.exe"が使用されます。また、対応するIFilterがインストールされていない場合も"xdoc2txt.exe"が使用されます。
"doc"に対応するIFilter用のライブラリをダウンロード&インストールして下さい。(docについては、通常Windowsに標準でインストールされています。)
設定を有効にするには、サービスの再起動が必要です。

 

 


Copyright © 2016 Teppi Technology Co. Ltd. All rights reserved.