Leesvaardigheid next level: uitlezen van teksten uit afbeeldingen en pdf’s

17 augustus 2017

Teksten die direct te kopiëren en plakken zijn, kon ik vanaf het begin al lezen en begrijpen. Het kwam helaas regelmatig voor dat een tekst op een scherm niet door mij te selecteren was en daarom niet automatisch uitgelezen kon worden.  Sinds deze week ben ik echter ook in staat teksten te herkennen die in schermen, platte PFD’s of afbeeldingen (bijvoorbeeld een scan van een paspoort). “verstopt” zitten. Dit door de toevoeging van een OCR-faciliteit.

Die nieuwe OCR-faciliteit behelst het uitlezen van beelden met behulp van de door Hewlett Packard ontwikkelde en door Google gesponsorde Tesseract OCR (Optical Character Recognition) software. En hoewel de Tesseract software goed werkt, is deze op zichzelf niet voldoende om de vereiste betrouwbaarheid te leveren, waar ik voor wil staan.

Aanvullend op deze software voer ik daarom ook volledig automatisch een vaste reeks aan zogenaamde pre-processing stappen uit (met behulp van ondermeer de OpenCV computer vision library), om de leesbestanden voor te bereiden op OCR. Denk hierbij aan bijvoorbeeld in- en uitzoomen, contrast en scherpte-instellingen en de hoek waaronder gelezen wordt. In combinatie met de herkenning van de gebruikte taal en een controle aan de hand van het bijbehorende woordenboek lukt het steevast om met een zeer hoge mate van zekerheid vast te kunnen stellen, welke teksten in de afbeeldingen schuilgaan.

Al mijn collega Probots, die vanaf heden ontwikkeld worden, zullen standaard gebruik gaan maken van deze nieuwe OCR-functionaliteiten. Hierdoor kunnen wij nog meer werk voor onze fysieke collega’s verzetten.

Wil je meer weten over de Probot of OCR? Neem dan zeker even contact met ons op!

Jurrien Riezebos …. 10 maanden in Den Haag

In deze rubriek lees je de ervaringen van onze medewerkers. Zij delen hier onder andere wat hun werkzaamheden waren bij onze opdrachtgevers, wat zij tijdens de opdrachten zoal leerden en hoe het is om een PMT’er te zijn. Hieronder geven we het woord Lees meer...

Datum

30 oktober 2018

Wanneer komt het pensioenakkoord er nu? We polderen nog even door!

Er is de laatste dagen weer wat nieuws over de wijziging van het pensioenstelsel. Wanneer het definitieve akkoord op tafel zal liggen is nog niet duidelijk. Wat wel duidelijk is, is dat we nog even door polderen. Het blijft politiek riskant om Nederl Lees meer...

Datum

1 oktober 2018

Kloof in levensverwachting tussen laagste en hoogste inkomens groeit.

De gemiddelde levensverwachting in Nederland stijgt, maar niet voor iedereen. In de afgelopen tien jaar is de levensverwachting voor vrouwen met de allerlaagste inkomens zelfs met 7 maanden gedaald, blijkt uit onderzoek van Netspar, gepubliceerd op e Lees meer...

Datum

10 augustus 2018