arrow_drop_up arrow_drop_down

[vc_row][vc_column][vc_column_text]

WAT IS OCR?

OCR is een afkorting voor Optical Character Recognition. Optische karakterherkenning – maar waarom wil je die karakters dan herkennen? We leggen het uit in onze blog. Je hebt in ieder geval Scansoftware en OCR software nodig. BIQE is zulke Scan- en OCR software.

Als je bijvoorbeeld voor je studie een dik boek moet lezen en leren van 500 bladzijden, dan kun je dit boek op verschillende manieren bestuderen. Je kunt alles wat belangrijk is geel, groen of blauw arceren. Het nadeel is dat je iedere keer het hele boek weer door moet bladeren.


Als je het boek onder een scanner legt en OCR software gebruikt, dan heb je na één uur scannen het hele boek van 500 bladzijden klaar. Je opent vervolgens het boek met bijvoorbeeld een PDF Reader en kunt woorden en begrippen intypen in de zoekbalk van de Reader. En die woorden worden dan gevonden en lichten dan op (highlight). Zo kun je allerlei zoekacties doen die binnen 1 seconde worden gevonden!

Dit zal je studieduur absoluut verbeteren en je houdt het boek schoon. Geen strepen in je boek. Als die er wel hadden gestaan voor je was begonnen met scannen, dan waren de zoekwoorden / zoekletters in het OCR proces slechter herkend (recognized) en dan zouden bepaalde woorden niet of slechter worden gevonden. De staat van het boek is voor het OCR proces enorm belangrijk.

Deze OCR techniek kun je natuurlijk op allerlei documenten, formulieren, brieven, contracten of rekeningen enz. toepassen. En omdat OCR letters en woorden herkend en doorzoekbaar maakt, kun je in die berg papier heel snel iets terugvinden.

OCR begint met het maken van een scan, dan heb je een plaatje (image), bijvoorbeeld een TIF, JPG, PNG of ander formaat. In dit scanproces heb je software nodig, die de OCR uitvoert en exporteert in bijvoorbeeld een doorzoekbare PDF of in een bewerkbaar tekstbestand als Word.

 

Hoe werkt OCR?

Hierop kun je in ieder geval twee verschillende antwoorden geven:

1. OCR is feitelijk wat wij doen met onze ogen, wanneer we lezen. We scannen de letters en herkennen vervolgens de verschillende letters aan hun patronen.

Het begint met het scannen ven een bladzijde, boek, brief, rekening enz., met als resultaat een afbeelding. Het nadeel van een gescande afbeelding is, dat je die niet kunt doorzoeken. Dat doe je met OCR…

Iedere letter bestaat uit pixels. Als die pixels heel dicht, in een bepaald patroon, tegen elkaar aan staan krijg je een letter. Die letter is op het oog zwart. Als je de pixels echter heel sterk vergroot, dan zie je dat er openingen tussen zitten. OCR ziet al die pixels in een bepaald patroon en ziet deze als een letter, cijfer, leesteken etc. Dat pixelpatroon hebben wij het programma “aangeleerd”, bijvoorbeeld doordat het tijdens het scannen in het woordenboek “kijkt”. Zo heeft iedere OCR een eigen woordenboek. Soms zijn er heel ingewikkelde patronen, die niet in het woordenboek staan. Als je bijvoorbeeld oude boeken in de kast hebt staan, met Gotische letters en deze wilt OCR-en, dan heb je nog betere en andere technieken nodig. Daarvoor moet de OCR naar de universiteit, want dan is wetenschappelijk niveau vereist en heel veel training. Dat brengt ons bij het tweede antwoord…

2. Nog niet zo heel lang geleden ontstond er een OCR methode, die LSTM heet. Het is een methode die anders te werk gaat dan de ‘traditionele OCR’. Bij de traditionele OCR wordt om elk willekeurig symbool een kadertje gezet. Vervolgens wordt de corresponderende uni code waarde ingetypt. Deze methode werkt prima voor de huidige handschriften, maar is niet nauwkeurig genoeg voor de oude Gotische letter of incunabelen (letters van voor 1500).

LSTM neemt een hele regel van symbolen tegelijk en verdeelt de regel verticaal in, zeg maar 25000 dunne reepjes van 1 pixel breed. Er ontstaat dan een soort curve, zoals in de muziek. Zie figuur.

LSTM

De training die hier moet plaatsvinden is het intypen van uni code waarden die corresponderen met de symbolen. Zie figuur.

character recognition

LSTM gaat nu in een herhaaldelijk proces (iteraties), vaste patronen ontdekken in de reeksen en volgorden aan tekens. Bij een bepaalde herhaling (dat kan bijvoorbeeld de duizendste herhaling zijn) duikt het foutpercentage onder de 1%. Zie figuur.

Na herhaling “duizend” wordt dit taalmodel opgeslagen. Vervolgens voert dit taalmodel een voorspelling (predictie) uit op een willekeurige tekst met dat bepaalde type font. Met name voor oude handschriften is deze methode ideaal want het foutpercentage is minimaal.

 

Wat zijn de voordelen van OCR?

  1. Er gaat geen tijd verloren aan het intypen van allerlei gegevens.
  2. Eenvoudig scannen met BIQE scan -en OCR software en de ge-OCR-de tekst exporteren naar uw tekstverwerker.
  3. U kunt d.m.v. een zoekactie al uw gegevens eenvoudig terugvinden.
  4. Door de OCR zijn uw opgeslagen bestanden kleiner dan het oorspronkelijke plaatje.
  5. U en iedereen met wie u het document deelt, kan de tekst aanpassen.
  6. U bent de baas (houdt de regie) over de tekst – en niet uw plaatje op het scherm.
  7. U kunt de lay-out van de tekst aanpassen; cursief, vetgedrukt, etc.

 

Met BIQE lopen wij voorop, wanneer het gaat om ontwikkelingen op OCR-gebied. Ons Scan- en softwareproduct werkt met Tesseracct 4 LSTM. Dit zorgt voor de beste OCR-herkenning van uw gescande image. Wanneer uw gescande image van slechte kwaliteit is, dan kunt u met de ruim 30 Imagefilters eerst uw image bewerken, om alsnog het beste OCR-resultaat te krijgen.

BIQE is de best betaalbare oplossing – en uw partner – voor alle scan- OCR-software activiteiten.[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]

BIQE Scan- en OCR Software.

Wij bieden 4 verschillende BIQE versies aan. Heeft u vragen?
Neem gerust contact met ons op, we helpen u met alle plezier![/vc_column_text][vc_row_inner][vc_column_inner width=”1/4″][product id=”206103″][/vc_column_inner][vc_column_inner width=”1/4″][product id=”203114″][/vc_column_inner][vc_column_inner width=”1/4″][product id=”206223″][/vc_column_inner][vc_column_inner width=”1/4″][product id=”206224″][/vc_column_inner][/vc_row_inner][/vc_column][/vc_row]

About the author
Place comment