本記事では AI OCR を活用する際の、読み取り精度向上について解説しています。
OCRがわからない、という方は以下の記事を参照してください
ノイズ
受信したFAXを見ると、小さなドット(粒)が印字されている場合や、印刷した帳票に縦線が印刷されてしまうケースあります。
人であれば、この小さなドットたちを無視しますが、AIはこれらも理解してしまい、余計な文字として出力してしまいます。
こういった帳票の場合は、読み取り精度が大きく下がってしまうため、印刷される前の段階の改善ができないかを探りましょう。
解像度(DPI)は適切に設定
よくいただく相談として「スキャン時のDPIを上げれば精度が上がるか?」というものがあります。
答えは ノー です。
例えば 600dpi でスキャンした結果と、300dpi でスキャンした読み取り結果はほぼ変わりません。
多くのAI OCRサービスでは「推奨解像度」というものが設定されています。
例えば、AISpectでは、PDF形式の場合 200dpi に自動でサイズ変更されますので、どんなに解像度を上げてスキャンしても、読み取り結果は変わりません。
カラーと白黒どちらがよいか
結論としては カラー です。
従来のOCRでは、白黒スキャンが一般的でしたが、AI OCRの場合はカラーまたはグレースケールでスキャンした方が、読み取り精度は向上します。
カラーとグレースケールでは、AI実行時に強制的にグレースケールに変換されるため、ほとんどは変わりありません。
複合機によっては黒背景に白字のものが、グレースケールだと文字がつぶれる場合がありますので、カラーを使っておけばまず間違いないでしょう。
傾きはできる限りなくす
スキャンする際に紙が傾いてしまったり、はみ出してしまう場合があります。
AISpect は写真にも対応しているため、傾きや上下が逆さまなケースにも対応していますが、ご利用の製品によっては、精度が極端に下がってしまう場合もあります。
そのため、傾きはできる限りなくしたほうが、読み取り精度は向上します。
クセ字はあきらめる
手書き文字を読み取る際に、クセ字の読み取りもできないと困る、という話が出る場合があります。
残念ながら、クセ字についてはAIを学習する際に、ノイズになる可能性が高いため、学習データから除かれる場合がほとんどです。
そのため、現在の仕組みではクセ字まで高精度に読み取りできる製品は、ほぼありません。
AIのクセを理解し補正を行う
AI OCRをしばらく使っていると、同じ様な読み取り間違いに気がつくことがあります。
これがAIのクセと呼ばれるものです。
この問題を解決するためには、RPAなどを使用して結果を正しく直すことで、読み取り精度を大きく向上させることが可能になります。
AI OCR にお困りの方へ
当社では、実際に自社グループで活用しているノウハウをもとに、最適なAI OCRのご提案を行っております。
- これって読めるのかな?
- 導入したけどうまく活用できていない
- 費用が高くて困っている
- RPAと連携したいけどよくわからない
など、OCRに関するお困りごとがございましたらお気軽にご相談ください。