Help Select The Next OCR Engine
- Manga OCR 2
- Google (Official) 2
- Google (Unofficial) 0
Hello everyone!
We will be expanding YomiNinja's capabilities by adding another OCR engine. Your opinion matters, so I'd like to hear which one you'd prefer.
Currently, YomiNinja supports PaddleOCR, I was looking to add an OCR engine that could expand the variety of use cases of the tool. I've shortlisted two of the most requested OCR engines: 'Manga OCR' and 'Google'. Given the current capabilities of the tool, both options would increase the variety of use cases.
Regardless of the outcome, the less favored option will also be considered for future integration.
To help you make an informed choice, I've gathered some relevant information for comparing the options, along with a reference to the current engine.
Implementation Routes for Google:
PaddleOCR: 80
Manga OCR: Japanese
Google: 224+
OCR engines are limited by their training data. Missing characters in training data result in non-recognition, even with clear images.
As both PaddleOCR and Manga OCR are open-source, I analyzed their recognition dictionaries to identify missing kanji characters. Google, being closed source, would require extensive analysis involving numerous sentence examples for each kanji with various font styles for a fair comparison. However, it's likely that there's at least one Jouyou kanji Google may struggle to recognize.
Missing Jōyō Kanji
Paddle OCR: 25
塡 謁 喉 挫 愁 辣 栓 渇 舷 訃 摯 剝 綻 凄 咽 嚇 羞 隙 繭 慄 僅 錮 頰 厘 拷
Manga OCR: 2
塡 頰
Google: 1 or more
塡
Missing RTK Kanji
Paddle OCR: 164
屁 滉 屡 狒 凄 厖 鑓 怜 捌 抉 釦 冴 捷 喉 樒 痰 頗 菰 侃 僅 靄 迄 燦 颯 竣 摯 訊 匕 趨 鰍 嘔 栞 躾 昴 旱 凧 隙 棉 駁 溌 泪 仄 鴬 恰 拷 椰 欝 姑 穿 窺 倅 舷 吋 熔 糎 埜 訣 渇 倖 脹 瑶 粍 僻 侭 做 薯 瞥 茉 娃 犀 蚤 莉 簸 轡 蕗 鼾 云 燿 斡 鹵 詑 梯 彪 挫 誹 苓 囁 炬 呎 晨 佼 孕 錮 鋪 噸 浬 狽 鮨 輻 躓 崚 甦 辣 赫 蛋 慾 乖 莨 慄 撚 咽 錨 燐 勁 捏 孜 絨 擢 畦 已 偲 愁 倦 栓 掠 黎 舵 灼 謂 苺 厘 繭 睾 蒜 粁 嬰 隕 滲 諄 辿 咎 碍 絢 羞 訝 謁 兇 赳 醇 綻 鯵 涜 眩 訃 暝 恢 悛 眸 沫 悶 絆 罫 洵 嚇
Manga OCR: 15
噸 狒 庖 厖 呎 溌 棉 夥 欝 諄 莨 崚 詑 暝 屡
Paddle OCR:
清潔やう☆ベッドが"見え3
Manga OCR:
清潔そうなベッドが見える
Google:
清潔そうなベッドが見える
Paddle OCR:
開か☆しのは当えり前か
ここは先頭車両で、こっちはその先頭の方ゑ毛んる
Manga OCR:
開かない...のは当方り前か。
ここは先頭車で、こっちはそのままの方法が、
Google:
開かない…のは当たり前か。
ここは先頭車両で、こっちはその先頭の方だもんな。
Paddle OCR:
とうてう、てのとーり
すっかり理解でまて3みえ目おね!
Manga OCR:
そうそう、そのとーり!
すっかり理解できてるみましたが、
Google:
そうそう、そのとーり!
すっかり理解できてるみたいだね!
Paddle OCR:
ほお、おぬし達、マナストーンを探しておるとな?
マナストーンの事なら、おそらく,草原の国フォルセナの
英雄王が、よく知っておられるハズじゃ。
Manga OCR:
「はは、お前、ミューマートーンを買っておくと、
マストラの言葉は、ぜひく、幸和にフォルダの
英霊が、よくなっておられるんでしょ。
Google:
「ほお、おぬし達、マナストーンを探しておるとな?
マナストーンの事なら、おそらく、草原の国フォルセナの
英雄王が、よく知っておられるハズじゃ。
Paddle OCR:
メモリーカードにデーウを書き込ルでいます
絶対にメモリーカードをき差ししないでください
Manga OCR:
メモリーカードにデータを書き込んでいます。
絶対にチェリーカードを持ち着しないでください。
Google:
メモリーカードにデータを書き込んでいます。
絶対にメモリーカードを抜き差ししないでください。
I encourage you to conduct your own tests with both engines and review Google's pricing and terms before casting your vote.
Your feedback is crucial in determining the next steps for YomiNinja. Thank you for being a part of this decision-making process!