全文検索対応のファイル形式
Unicode対応
FileBlogの検索エンジンはUnicodeに対応しています。
Microsoft OfficeなどUnicode対応のドキュメントについては、日本語・英語に限らず世界中の言語・文字コードの文書を検索することができます。
なお各国別文字コードで編集されたテキストファイルなどについては正しく検索されないことがあります。
ファイル名検索
全てのファイル名とフォルダ名は検索対象です。
ファイル形式によって検索できないということはありません。
隠し属性の付いている(FileBlog画面に表示されない)ファイル/フォルダも検索対象になります。
全文検索に対応するファイル形式
全文検索はファイル内のテキスト情報が検索対象です。
表中の拡張子をもつファイルは全文検索の対象です。
拡張子 |
説明 |
---|---|
docx , docm , dotm , dotx |
Microsoft Word |
xlsx , xlsm , xltm , xltx |
Microsoft Excel |
pptx , pptm , potm , potx |
Microsoft PowerPoint |
vsdx |
Microsoft Visio |
doc , dot |
Microsoft Word ver5.0 , 95 , 97 , 2000 , XP , 2003 |
xls , xlt |
Microsoft Excel ver5.0 , 95 , 97 , 2000 , XP , 2003 |
ppt , pot |
Microsoft PowerPoint ver5.0 , 95 , 97 , 2000 , XP , 2003 |
vsd |
Microsoft Visio 2003 , 2007 , 2010 |
xps , oxps |
Microsoft XPS |
one |
Microsoft OneNote |
pub |
Microsoft Publisher |
rtf |
リッチテキストファイル |
txt , csv |
テキストファイル(ASCII形式) |
md |
MarkDown |
html , htm |
HTML形式 |
mht , mhtml |
WEBアーカイブ形式 |
Adobe PDF形式 |
|
zip |
Zipアーカイブ形式 |
msg , eml |
電子メール |
dxf , dwg , dwf |
AutCAD |
jww |
JW_CAD |
svg |
Scalable Vector Graphics形式 |
ai |
Adobe Illustrator |
sxw , sxc , sxi , sxd |
OpenOffice.org |
odt , ods , odp , odg |
Open Document |
jaw , jtw |
一太郎 ver5 |
jbw , juw |
一太郎 ver6 |
jfw , jvw |
一太郎 ver7 |
jtd , jtt |
一太郎 ver8 , 9 , 10 , 11 , 12 |
oas , oa2 , oa3 |
OASYS |
bun |
新松 , 松5 , 松6 |
wj2 , wj3 , wk3 , wk4 , 123 |
Lotus 123 |
wri |
Windows3.1 Write |
ibooks |
電子書籍 iBooks |
jpg |
画像形式(メタデータが対象) |
zip |
Zip内の全文検索に対応するファイル形式 |
全てWindows OSのマシンで作成されたファイルが前提です。
上表に記載されているファイル形式でも全文検索できないファイルのある可能性はあります。
暗号化またはパスワードロックされたファイルは全文検索できません。
txt形式以外のASCII形式のファイルは全文検索できます。
Exifの検索
tif, tiff, jpg, jpeg, heic
の画像ファイルはExifの情報も検索対象です。
オプション対応の必要なファイル形式
OneNote・Publisherファイル
Microsoft OneNote(one)、Publisher(pub)ファイルについては、Microsoft Office IFiterのインストールが必要です。
DocuWorksファイル
DocuWorks 8以降の有償版またはDocuWorks Viewer LightをFileBlogサーバーにインストールすることが必要です。
Windows OSに対するDocuWorksのサポートは製造元や販売元にお問い合わせください。
インストールVersion
本文テキスト
xdw/xbd
プロパティ
xdw/xbd
xbd内の
xdwプロパティ
DocuWorks Viewer Light
○
○
×
DocuWorks 8
○
○
×
DocuWorks 9
○
○
○
DocuWorks 9.1
○
○
○
DocuWorks 10
○
○
○
OCR対象のファイル形式
FileBlogにはオープンソースのOCRエンジン(光学文字認識機能)が実装されています。
テキスト情報を保持しない画像系ファイルについても、OCR機能で認識した情報をテキスト化して検索インデックスに登録します。
OCR認識に対応するファイル形式です。
拡張子 |
説 明 |
---|---|
tif , tiff , pdf , ai , jpg , png , bmp |
ai はPDF互換に限ります。360度画像(jpg)は非対応です。 |
OCR機能による文字認識の成功率および正確性は100%・完璧ではありません。
本機能は高い精度を保証するものではなく期待する結果を得られないこともあります。
抽出プログラム
検索インデックスの構築時に、テキスト情報をファイルから抽出するための各種プログラムが標準実装されています。
Microsoft Word・Excel・PowerPointファイルのテキスト抽出用にも専用プログラム(xdoc2txt)が実装されていますが、それに換わるプログラムとしてMicrosoft社が提供するMicrosoft Office IFilterを使用することもできます。
Microsoft Office IFilterをインストールすると、Microsoft Word・Excel・PowerPointファイルのテキスト抽出にIFilterを使用します。(標準ではテキスト抽出にxdoc2txtを使用します)
Windows Server OSの出荷状態では、docx・xlsx・pptxファイル向けのIFilterはインストールされていません。(doc・xls・pptファイル向けのIFilterは標準実装されています)
Microsoft OneNote(.one)・Publisher(.pub)ファイルのテキスト抽出にはMicrosoft Office IFilterが必要です。
OneNote・PublisherファイルのためにIFilterをインストールすると、xlsx・docx・pptxファイルについてもIFilterが適用されます。
次のいずれかの方法でMicrosoft Office IFilterのインストールができます。
Microsoft Officeをインストールすると自動的にIFilterもインストールされます。
Office 2010 Filter PackをMicrosoftダウンロードセンターより入手してインストールする。