しらべるIT

OCR OCRの認識率

最終更新 2007/12/2
【 おーしーあーる 】 Optical Character Reader 光学式文字読み取り装置

スキャナーで紙に書いた数字や文字を読み取り、データに変換するしくみ。
遠隔地からFAX送信した原稿をデータに変換する場合は「FAX OCR」と呼ぶ。

ユーザーから「認識率は何%か?」という質問がよく出る。
この質問は簡単には答えづらい。

正しい結果が返ってきた率が「認識率」
ここでは正しく結果以外のものを「不認識」と呼ぶことにする。

不認識には、間違えて認識したもの(誤読)、読めなかったもの(不読)がある。

OCRエンジンが返した候補のうち、どれくらい正しい文字パターンに近いか(確信度)の閾値を下げると、認識率は上がる。閾値を上げると不読が増える

「誤読するくらいならば、不読にして欲しい」と要望すれば、認識率は下がる。
「目検するから、誤読してもいいので、不読にしないで欲しい」と要望すれば、認識率は上がる。

認識率はユーザーが決めるのであって、OCRエンジンの性能で決まるのではない。
ユーザーが性能の善し悪しの目安として、認識率を尋ねるのはピントがずれている。


キャリブレーション


毎日1話ブログ「しらべるが行く」

初出2003年4月  Copyright しらべる