Top software: Nuance OmniPage 15
Nuance (dříve ScanSoft) OmniPage 15 je jeden z nejpopulárnějších programů pro převod grafiky (bitmapa) do editovatelného textu, tedy funkce OCR. Nuance také vyrábí již dříve recenzovaný PDF Converter Professional 3.0.
Prakticky ke každému lepšímu scanneru se dodává i CD s nějakým programem na OCR, ať už je to OmniPage SE či ABBYY FineReader SE, nicméně, s plnými verzemi programů se tyto ořezané verze nemohou měřit.
Pokud často převádíte běžné tištěné publikace, časopisy či noviny do webových prezentací, je investice ve výši $149 do špičkového OCR software jako je OmniPage 15 v podstatě nezbytností. Plná verze OmniPage 15 se umí učit (training), podporuje veškeré světové jazyky, má zlepšenou schopnost rozpoznávání písma, umí ukládat rozpoznaný text do desítek různých formátů, a skvěle automaticky rozezná sekce grafiky, písma, včetně sloupců a tabulek.
OmniPage 15 - základní popis a OCR převod
OmniPage 15 v ceně $149 se dodává na jednom CD, program pro svoje fungování požaduje aktivaci přes internet. Interface programu je v angličtině či francouzštině, nicméně rozpoznávací jazyky a slovníky jsou dostupné pro desítky všech možných jazyků, samozřejmě včetně češtiny.
U každého dokumentu je možné specifikovat jaké jazyky obsahuje, jejich libovolné množství. Po načtení obrázku k OCR převodu z disku či ze scanneru je Vám nabídnut OCR Proofreader, což je kontrola textu na vestavěné a uživatelské slovníky.
Pokud je některé slovo či znak pro OmniPage 15 neznámý, můžete jej tento program naučit, takže podruhé jej již bude rozpoznávat zcela správně. V praxi na nutnost trénování příliš nenarazíte, snad jen v případě ručně psaných „tiskovin“ či velice starých dokumentů, nicméně, pokud takový dokument máte, OmniPage 15 z něj dostane s mírných tréningem maximum.
Před vlastním rozpoznáním znaků můžete dokument ručně „naparcelovat“ na sekce, které se budou rozpoznávat, nicméně logika OmniPage 15 je tak dobrá, že pro ni není problém rozlišit složité stránky s grafikou, tabulkami, několika-sloupcovým textem, a správně poznat tok textu.
Po rozpoznání textu je Vám prezentován běžný dokument a editor podobný Microsoft Wordu, ve kterém můžete text běžně editovat a upravovat, a funguje zde například i spellchecker pro zvolený jazyk či jazyky:
Pokud Vám nějaké slovo není jasné, můžete si zapnout i grafický „verifier“, který nad editovatelným rozpoznaným textem zobrazí i jeho prvotní grafickou podobu:
OmniPage 15 - uložení textu
OmniPage 15 umí ukládat rozpoznaný a zeditovaný text do obrovského množství formátů, ať už je to Word, Excel, PowerPoint, HTML, PDF či WordPerfect:
OmniPage 15 - workflow
Geniální funkcí OmniPage 15 je funkce workflow, tedy „tok aktivit“, které s OCR souvisí. Řada toků je již před-definovaných a neomezený počet toků si můžete dodefinovat. Vtip je v tom, že pokud si takový tok nadefinujete, můžete v něm uvést veškeré parametry scanování, rozpoznání, kontroly na pravopis, seznamu jazyků, a mnoho dalšího, takže pro celý složitý OCR proces jen stisknete jedno tlačítko a … všechno je hotovo.
OmniPage 15 rovněž podporuje Batch Agent, tedy proces, kterému jen předhodíte seznam dokumentů (či scanner) a on je v pozadí podle předem vytvořených workflows zpracovává. Pokud potřebujete nascanovat desítky dokumentů, je workflow naprosto jedinečná funkce.
Závěr
OmniPage 15 je jeden z nejlepších OCR balíků na trhu s obrovskou tradicí. Plně podporuje nejen češtinu, ale rovněž desítky dalších jazyků. Výborné jsou na něm „toky aktivit“, které usnadňují opakované činnosti na stisk jednoho tlačítka. Skvělé je rovněž množství podporovaných formátů pro uložení dokumentu, v podstatě si zde nelze přát nic více.
Na plně automatický převod jedné stránky z Reflexu do textu a jeho uložení do PDF se můžete podívat v souboru ocr.pdf (56 KB). Tento PDF soubor vznikl během pěti sekund (po nadefinování workflow) stiskem jediného tlačítka v programu bez dalších zásahů uživatele. Myslím si, že kvalita je na plně automatický postup výborná, a v případě interakce programu s uživatelem je možné ještě její další zlepšení…
Bodové ohodnocení WELL.DONE: 100/100
Nuance OmniPage 15, dříve ScanSoft, ještě dříve Recognita OCR. Ten software už ve verzi 3 uměl doslova zázraky, navíc byl rychlý jak blesk. Je to takový maďarský národní softwarový poklad.
[1] Ale dostává trochu na prdel od ruského národního softwarového pokladu: Abbyy FineReader.
Pokud byste náhodou chtěli skenovat a rozpoznávat Braillské písmo (tedy, pokud víte, co to vůbec je), tak na to existuje dokonce český software - viz. http://www.neovision.cz/prods/... (využívá stínů vrhaných osvětlovací lampou skeneru, takže nevyžaduje specielní hardware)
Ja doposud užívám s maximální spokojeností produkty od firmy ABBYY a nemuzu si stěžovat.
Ale Nuance nevypadá taky špatně.
[4] ABBYY určitě není špatný, ale Recognita/Omnipage je prostě pojmem ve svém oboru už snad 15 let. Viděl jsem jen starší verzi ABBYY, vynikající produkt, ale třeba možnosti exportu rozpoznaného textu nejsou tak bohaté jako u OmniPage 15, přičemž cena je identická. Ale neznám ABBYY FineReader 8..
Co mi u ABBYY chybi je výběr více jazyků. Můžeš si zvolit jenom primární a sekundární. Ale to mnohokrát nestačí.
Nebolo by nejaké FR vs. OP ? (počet chýb, použité formátovanie po exporte atď.)
Léta jsem si vydělával digitalizací. Zdigitalizoval jsem desítky knih (mezi nimi i slovník ang-český). Nejprve jsem používal Recognitu 5, ale pak jsem byl nucen přejít na Finereader a musím říct, že lepší zkušenosti mám právě s Finereaderem.