OCRで誤認識されやすい字(追加)2016年11月22日

スキャナやOCR(Optical character recognition:光学文字認識)ソフトの進歩で、紙の文書の電子化も容易になってきた。私も日常の仕事で活用しているが、電子書籍を作る場合にも用いることがある。
最近の活字文書を読み取るのであれば、精度99パーセント以上を達成していると思われるソフトもある。それでも校正は必要で、誤認識を人の目でカバーしてやらなければならないのが現状だ。
同様の作業をしている人の参考にもなるかと、活字本からOCRソフトで電子テキストを作成する時、誤認識されやすい字を集めてみた(暫定版です)。
私は用途に合わせ幾つかのソフトを使い分けているが、主力として使っているのはパナソニックの「読取革命Ver.15」。読み取りの対象は、終戦後間もない頃の古本なども含む(戦前の本となると、精度はぐんと落ち、おおかた手入力の方が早いと思う)。
左の列がもとの字で、右の列が誤変換された結果の字。もちろん逆の場合も起り得ます。

○漢字 全体的な形が似たものの誤認識
目 日(横棒を一本見落す。以下同様の例が幾つもある)
自 白
東 束
昨 咋
間 問
鳥 烏
鳥 島
人 入
于 子
干 手(若干を若手に誤るなど)
千 干
宇 字
未 末
曰 日
吊 弔
員 具
歌 耿

○漢字 偏・冠・繞などの誤認識
堀 掘(土偏と手偏は誤りやすい)
待 侍(行人偏と人偏。他例多し)
薄 簿(草冠と竹冠も誤りやすい)
鉱 絋
惜 借(立心偏と人偏。次の例も同様)
悼 倬
挽 悗(手偏を立心偏に誤る)
社 杜(示偏を木偏に誤る)
蟬 嬋(蟬は印刷標準字であり旧字ではないのに、蝉という俗字に換えてしまうことも多い。)
蛾 娥
廠 厰(厰は廠の異体字)
嘩 曄(喧嘩が喧曄になっていたりすると見落としやすい)
昧 味(三昧が三味になっていたり、曖昧が曖味になっていたり)

○漢字 旁などの誤認識
伸 仲
蚊 蛟(蛟はミズチ。想像上の生き物)
紋 絞
鳴 嗚(旁が鳥と烏の違い。嗚は嗚咽おえつ嗚呼ああくらいでしか遣われない語。)
啞 唖(「ろうあ」は聾啞と書くのが正式。啞をわざわざ異体字の唖に変換してしまう)
縁 緑
候 侯(気候が気侯に、侯爵が候爵になっていたり。要注意)
帥 師(元帥などは注意が必要)
酒 洒(逆に瀟洒が瀟酒になっていたり。要注意)
遺 遣
棚 柵
打 扛(ハネを横棒と誤る)
噛 嚼
風 凰
靄 露
屛 屏(屏は異体字で、正式な字は屛なのに、屛を屏に変換してしまう)
衝 衙
式 弍
匂 句
句 旬
襞 襲
嘗 甞(甞は嘗の異体字)
雞 難(雞は鶏の異体字。現在は殆ど使われない)
動 勣

○片仮名
エ ヱ
ゲ グ
シ ツ
ン ツ
ソ ン(※特に誤認識が多い)
チ テ
ラ ヲ

○片仮名と平仮名(当然ながら似た形が多い)
ウ う
ベ べ(前者が片仮名、後者が平仮名。最も判別困難!)
モ も
リ り
レ し

○片仮名と漢字(片仮名には似た漢字が多く、特に注意が必要)
エ 工(※右は漢字の工(こう)
オ 才
カ 力(※右は漢字の力(ちから)
タ 夕(※右は漢字の夕(ゆう)
ト 卜(※右は漢字の卜(ぼく)
ニ 二(※右は漢数字の二)
ハ 八(※右は漢数字の八)
ミ 三
ロ 口(※右は漢字の口(くち)

○平仮名
き さ
か が(「き」「く」「こ」などはまず濁音と誤認識しないのに、「か」と「け」は時々誤認識する)
け げ(活字によって右側の「ナ」の部分のハネが強いので濁点と誤りやすいらしい)
け は
げ ば
は に(稀にある)
ば ぱ(濁点と半濁点の誤りは多い。ば行音すべてに当てはまる)
ば ぼ

○追加(2017.1.5、1.28)
風 虱
高 咼
雨 兩
爾 爽
雁 匯
橅 撫
蟠 幡
茣 莫 (茣蓙などは辞書登録されていないのだろうか。莫蓙にしてしまうことあり。)
殿 毆
隈 隕
鷹 縻
蕈 草
沿 洽
卿 喞
拠 抛 (「拠(よ)る」が「抛(ほう)る」になってしまったりする。)
噛 喘

こうして並べてみると、校正・校閲がいかに精確な日本語の知識と厳密な注意力を要求される仕事か、改めて痛感せずにはいない。