Ce este OCR?

Să presupunem că doriţi să convertiţi în format electronic un articol de revistă sau un contract tipărit. Ar trebui să petreceti ore în şir culegând textul din nou şi apoi corectând greşelile de tipar. Sau aţi putea converti toate materialele dorite în format digital în doar câteva minte utilizând un scaner (sau o cameră digitală) şi un program pentru recunoaşterea optică a caracterelor.






Ce înseamnă OCR?

Recunoaşterea optică a caracterelor, sau OCR, este o tehnologie ce vă permite să convertiţi diferite tipuri de documente, cum ar fi documentele scanate, fişierele PDF sau imaginile înregistrate cu ajutorul camerei digitale, în date editabile şi căutabile. 

Imaginaţi-vă că aveţi un document tipărit – de exemplu, un articol de revistă, o broşură sau un contract în format PDF, trimis de partenerul dumneavoastră prin e-mail. Evident, scanerul nu este suficient pentru a face aceste informaţii editabile, de  exemplu în Microsoft Word. Tot ce poate face un scaner este să creeze o imagine sau o fotografie a documentului, care nu va fi altceva decât o colecţie de puncte albe, negre sau colorate, cunoscute sub denumirea de imagine raster. Pentru a extrage şi modifica datele din documente scanate, imagini provenite de la camera digitală sau fişiere PDF de tip „numai imagine”, aveţi nevoie de un program OCR care să identifice literele din imagine, să le combine în cuvinte, iar apoi cuvintele în propoziţii. Astfel veţi putea accesa şi edita conţinutul documentului original.

Ce fel de tehnologie stă la baza OCR?

Mecanismele exacte prin care oamenii pot recunoaşte obiectele încă urmează a fi înţelese, însă cele trei principii de bază sunt deja cunoscute de savanţi – integritate,  finalitate şi adaptabilitate (IPA*). Aceste principii constituie nucleul ABBYY FineReader OCR, ce îi permite să reproducă recunoaşterea naturală sau similară celei umane. 

Să vedem cum FineReader OCR recunoaşte textul. Mai întâi programul analizează structura imaginii documentului. Aceasta împarte pagina în elemente de tipul blocurilor de text, tabelelor, imaginilor etc. Rândurile sunt divizate în cuvinte, iar mai apoi în caractere. După ce caracterele au fost delimitate, programul le compară cu un set de imagini-şablon. Aplicaţia face numeroase presupuneri despre ce fel de caracter ar putea fi acesta. Bazându-se pe aceste ipoteze, programul analizează diferite variante de împărţire a rândurilor în cuvinte şi a cuvintelor în caractere. După procesarea unui număr enorm de ipoteze probabilistice, programul ia o decizie, prezentându-vă textul recunoscut. 

În plus, ABBYY FineReader oferă suport sub formă de dicţionar pentru 36 de limbi. Acest fapt permite efectuarea unei analize repetate a elementelor de text la nivel de cuvinte. Având suport sub formă de dicţionar, programul asigură o calitate de analizare şi recunoaştere şi mai înaltă a documentelor, ceea ce simplifică procesul ulterior de verificare a rezultatelor.

* IPA 

Pe ce principii se bazează programul de recunoaştere a caracterelor FineReader? 

Cele mai avansate sisteme de recunoaştere, cum ar fi ABBYY FineReader OCR, se concentrează asupra reproducerii metodei naturale de recunoaştere. La baza acestor sisteme stau trei principii fundamentale: integritate,  finalitate şi adaptabilitate. Principiul integrităţii stabileşte că obiectul observat trebuie privit „ca un tot întreg” ce constă din mai multe părţi corelate. Principiul  finalitătii presupune că orice interpretare a datelor trebuie să aibă întotdeauna un scop anume. Iar principiul adaptabilităţii înseamnă că programul trebuie să fie capabil să înveţe singur.

Nu trebuie să fiţi specialist în recunoaşterea caracterelor pentru a vedea avantajele aplicaţiei OCR construite pe principiile IFA. Aceste principii conferă programului maximum de flexibilitate şi inteligenţă, fiind foarte similar cu recunoaşterea umană.

După ani de cercetări, ABBYY a reuşit să implementeze principiile  IFA în tehnologiile sale OCR.

Recunoaşterea imaginilor provenite de la o cameră digitală

Imaginile înregistrate cu ajutorul camerei digitale diferă de documentele scanate sau de fişierele PDF de tip „numai imagine”. Acestea deseori au defecte cum ar fi distorsiunea la colţuri şi lumină neclară, ceea ce le face greu de recunoscut de către majoritatea aplicaţiilor OCR. Cea mai nouă versiune ABBYY Fine Reader suportă tehnologia adaptivă de recunoaştere destinată special procesării imaginilor provenite de la camere digitale. Programul oferă un şir de funcţii pentru îmbunătăţirea calităţii imaginilor de acest gen, oferindu-vă posibilitatea de a utiliza la maximum capacităţile dispozitivelor digitale.

Pentru informaţii suplimentare despre recunoaşterea OCR a imaginilor provenite de la camere digitale, daţi clic aici.

Cum să folosesc programul OCR?

ABBYY FineReader OCR este uşor de folosit: în general, procesul constă din trei etape: Deschiderea (Scanarea) documentului, recunoaşterea acestuia şi apoi salvarea lui într-un format convenabil (DOC, RTF, XLS, PDF, HTML, TXT etc.) sau exportul datelor direct către una din aplicaţiile Office - Microsoft Word, Excel sau Adobe Acrobat. 

În plus, ultima versiune ABBYY FineReader suportă regimul de comenzi automatizate, ceea ce este extrem de important dacă aveţi frecvent activităţi de rutină. Cu această funcţie, comenzile de recunoaştere sunt rulate automat, fără a avea de executat manual toate etapele menţionate mai sus.

Ce avantaje OCR aduc la tine?

Cu FineReader OCR documentul recunoscut arată exact la fel ca originalul. Aplicaţia avansată, complexă de OCR vă permite să economisiţi o grămadă de timp şi efort la crearea, procesarea şi editarea diferitor documente. Cu tehnologia ABBYY FineReader OCR puteţi scana documente tipărite pe hârtie, pe care ulterior le puteţi edita sau împărţi cu colegii şi partenerii. Puteţi extrage citate din cărţi şi reviste şi apoi să le utilizaţi în derularea unui curs de instruire sau la întocmirea unor acte fără a le introduce manual din nou. Cu ajutorul camerei digitale şi tehnologiei FineReader OCR, puteţi  captura textul de pe postere, pancarte şi panouri din aer liber, iar mai apoi utiliza informaţiile înregistrate în scopurile dorite. În acelaşi mod puteţi înregistra informaţii din documente şi cărţi tipărite – de exemplu în cazurile în care nu aveţi un scaner la îndemână sau nu-l puteţi folosi dintr-un motiv anume. În plus, puteţi utiliza programul OCR pentru a crea arhive PDF căutabile. 

Întregul proces de conversie a datelor din documentul original tipărit, imagine sau PDF durează mai puţin de un minut, iar documentul final recunoscut arată exact ca originalul!

main_window_eng.png

Aflaţi aici cum programul OCR vă poate ajuta în viaţa de zi cu zi.