OCR(光学文字認識)機能
テキスト情報を保持しない画像系ファイルについてもOCR機能で文字認識した情報をテキスト化して検索インデックスに登録します。
たとえばスキャンして作成されたPDFやTIFのファイルを全文検索対象にできます。
また、OCR機能を用いてインデックス構築を実行するとコンバーター動作のメモリ使用量や所要時間が大きくなります。あわせてコンバーターの処理時間も参照してください。
OCR機能の性能について(前提)
OCR機能による文字認識の成功率は100%ではなく文字認識の正確性も完璧ではありません。
高い精度を保証するものではなく期待する結果を得られないこともあります。
OCR対象のファイル形式
PDF・TIF(TIFF)・JPG・PNG・BMPのファイル形式に対応します。
OCR機能の有効化
OCR機能を有効化すると対象ファイルを読み取って文字認識できるようになります。
PDFをOCR対象にする
OCR対象の追加
標準既定ではTIF(TIFF)が対象に指定されています。JPG・PNG・BMPも指定することができます。
運用途中に対象拡張子を追加した場合
拡張子の追加登録を行ってインデックス再構築を実行しても検索インデックスに登録されない場合があります。
JPGファイルについてはインデックス初期構築が完了していると、既にEXIF情報がインデックス登録されている場合があります。
そのようなファイルについては更新日時に変更がないとOCRによるインデックス登録がスキップされます。
抽出済みテキスト情報を削除してからインデックス構築することでOCRによる認識されたテキスト情報が検索インデックスに登録されます。