OCR OCRの認識率

最終更新 2007/12/2
【おーしーあーる】Optical Character Reader 光学式文字読み取り装置

スキャナーで紙に書いた数字や文字を読み取り、データに変換するしくみ
遠隔地からFAX送信した原稿をデータに変換する場合は「FAX OCR」と呼ぶ

ユーザーから「認識率は何%か?」という質問がよく出る
この質問は簡単には答えづらい

正しい結果が返ってきた率が「認識率」
ここでは正しく結果以外のものを「不認識」と呼ぶことにする

不認識には、間違えて認識したもの(誤読)、読めなかったもの(不読)がある

OCRエンジンが返した候補のうち、どれくらい正しい文字パターンに近いか(確信度)の閾値を下げると、認識率は上がる。閾値を上げると不読が増える

「誤読するくらいならば、不読にして欲しい」と要望すれば、認識率は下がる
目検するから、誤読してもいいので、不読にしないで欲しい」と要望すれば、認識率は上がる

認識率はユーザーが決めるのであって、OCRエンジンの性能で決まるのではない
ユーザーが性能の善し悪しの目安として、認識率を尋ねるのはピントがずれている


キャリブレーション

2005年から毎日1話ブログ「しらべるが行く」

初出2003年4月  Copyrightしらべる 今日の更新