OCR(光学文字認識)機能
テキスト情報を保持しない画像系ファイルについてもOCR機能で文字認識した情報をテキスト化して検索インデックスに登録します。
たとえばスキャンして作成されたPDFやTIFのファイルを全文検索対象にできます。
OCR機能の性能について(前提)
OCR機能による文字認識の成功率・正確性は100%・完璧ではありません。
高い精度を保証するものではなく期待する結果を得られないこともあります。
OCR対象のファイル形式
PDF・TIF(TIFF)・JPG・PNG・BMPのファイル形式に対応します。
OCR機能の有効化
OCR機能を有効化すると対象ファイルを読み取って文字認識できるようになります。
[管理ツール > 設定全般]を選択します。
[すべての設定 > インデックス/プレビュー構築サーバー > OcrImage]にある[OcrImage]にチェックを入れます。
[保存する]を選択してサービスを再起動します。
PDFをOCR対象にする
標準既定ではPDFはOCR対象になっています。設定が無効になっていないか確認をしてください。
[管理ツール > 設定全般]を選択します。
[すべての設定 > インデックス/プレビュー構築サーバー > OcrPdf]にある[OcrPdf]にチェックが入っていれば有効です。
PDFを対象にしない場合はチェックを外します。
設定の変更があれば[保存する]を選択してサービスを再起動します。
OCR対象の追加
標準既定ではTIF(TIFF)が対象に指定されています。JPG・PNG・BMPも指定することができます。
[管理ツール > 設定全般]を選択します。
[すべての設定 > インデックス/プレビュー構築サーバー > OcrImageExtensions]を選択します。
[追加]を選択して
jpg・png・bmp
のいずれかまたは全部を登録します。tif・tiff
を対象にしない場合は既存設定を削除します。
[保存する]を選択してサービスを再起動します。
インデックス再構築を実行します。
運用途中に対象拡張子を追加登録した場合
拡張子の追加登録を行ってインデックス再構築を実行しても検索インデックスに登録されない場合があります。
JPGファイルについてはインデックス初期構築が完了していると、既にEXIF情報がインデックス登録されている場合があります。
そのようなファイルについては更新日時に変更がないとOCRによるインデックス登録がスキップされます。
抽出済みテキスト情報を削除してからインデックス構築することでOCRによる認識されたテキスト情報が検索インデックスに登録されます。