スキャナーで紙に書いた数字や文字を読み取り、データに変換するしくみ
遠隔地からFAX送信した原稿をデータに変換する場合は「FAX OCR」と呼ぶ
◆ユーザーから「認識率は何%か?」という質問がよく出る
この質問は簡単には答えづらい
↓
正しい結果が返ってきた率が「認識率」
ここでは正しく結果以外のものを「不認識」と呼ぶことにする
↓
不認識には、間違えて認識したもの(誤読)、読めなかったもの(不読)がある
↓
OCRエンジンが返した候補のうち、どれくらい正しい文字パターンに近いか(確信度)の閾値を下げると、認識率は上がる。閾値を上げると不読が増える
↓
「誤読するくらいならば、不読にして欲しい」と要望すれば、認識率は下がる
「目検するから、誤読してもいいので、不読にしないで欲しい」と要望すれば、認識率は上がる
認識率はユーザーが決めるのであって、OCRエンジンの性能で決まるのではない
ユーザーが性能の善し悪しの目安として、認識率を尋ねるのはピントがずれている
→キャリブレーション
Tweet