OCR　OCRの認識率

【おーしーあーる】Optical Character Reader　光学式文字読み取り装置

スキャナーで紙に書いた数字や文字を読み取り、データに変換するしくみ
遠隔地からFAX送信した原稿をデータに変換する場合は「FAX　OCR」と呼ぶ

◆ユーザーから「認識率は何％か？」という質問がよく出る
この質問は簡単には答えづらい
↓
正しい結果が返ってきた率が「認識率」
ここでは正しく結果以外のものを「不認識」と呼ぶことにする
↓
不認識には、間違えて認識したもの（誤読）、読めなかったもの（不読）がある
↓
OCRエンジンが返した候補のうち、どれくらい正しい文字パターンに近いか（確信度）の閾値を下げると、認識率は上がる。閾値を上げると不読が増える
↓
「誤読するくらいならば、不読にして欲しい」と要望すれば、認識率は下がる
「目検するから、誤読してもいいので、不読にしないで欲しい」と要望すれば、認識率は上がる

認識率はユーザーが決めるのであって、OCRエンジンの性能で決まるのではない
ユーザーが性能の善し悪しの目安として、認識率を尋ねるのはピントがずれている

→キャリブレーション

 Ｘ投稿

OCR OCRの認識率

OCR　OCRの認識率