OCR(光学文字認識)機能

テキスト情報を保持しない画像系ファイルについてもOCR機能で文字認識した情報をテキスト化して検索インデックスに登録します。

たとえばスキャンして作成されたPDFやTIFのファイルを全文検索対象にできます。

OCR機能の性能について(前提)

OCR機能による文字認識の成功率・正確性は100%・完璧ではありません。

高い精度を保証するものではなく期待する結果を得られないこともあります。

OCR対象のファイル形式

  • PDF・TIF(TIFF)・JPG・PNG・BMPのファイル形式に対応します。

  • 標準既定ではPDF・TIF(TIFF)が対象に既定されています。

OCR対象の追加

  1. [管理ツール > 設定全般]を選択します。

  2. [すべての設定 > インデックス/プレビュー構築サーバー > OcrImageExtensions]を選択します。

  3. [追加]を選択してjpg・png・bmpのいずれかまたは全部を登録します。

  4. [保存する]を選択してサービスを再起動します。

  5. インデックス再構築を実行します。

運用途中に対象拡張子を追加登録した場合

拡張子の追加登録を行ってインデックス再構築を実行しても検索インデックスに登録されない場合があります。

  • JPGファイルについてはインデックス初期構築が完了していると、既にEXIF情報がインデックス登録されている場合があります。

  • そのようなファイルについては更新日時に変更がないとOCRによるインデックス登録がスキップされます。

  • 抽出済みテキスト情報を削除してからインデックス構築することでOCRによる認識されたテキスト情報が検索インデックスに登録されます。