Come Estrarre il Testo da un Documento Scannerizzato

di Samuele

Estrarre il testo di un documento scannerizzatoDurante il mese di Maggio ho presentato alcuni programmi OCR per estrarre testo da immagini. Erano 5, per la precisione, e tutti funzionali e precisi. Oggi faccio una postilla a quell’articolo, aggiungendo un sesto programma per estrarre il testo da un documento scannerizzato. Anzi, più che un programma è meglio parlare di un’applicazion online gratuita.

Con solo una piccola accortezza da tener presente: funziona bene per i testi in lingua inglese, e un po’ meno bene per italiano, francese e tedesco. E, ovviamente, può essere utilizzato solamente online. Ma lasciamo perdere le ciance e concentriamoci su OCRonline.com.

Come estrarre testo da un’immagine scannerizzata

Link | OCRonline

Sito per estrarre il testo da un'immagine di un documento scannerizzato

Per la spiegazione teorica su cosa sia l’OCR vi rimando al primo articolo, quello dove ho presentato i primi 5 programmi gratis per riconoscere il testo in un’immagine. Penso, a volte, di essere pedante, oltre che noioso, a rispiegare sempre le stesse cose. Quindi, niente approfondimento sul significato di Optical Character Recognition (questo il significato della sigla OCR) e di come i vari programmi siano migliorati nel tempo.

C’è una cosa, però, da dire assolutamente: per riconoscere correttamente una parola all’interno di un’immagine un software OCR si basa su un database di simboli. Di conseguenza se diamo in pasto a un programma un documento scannerizzato male, di bassa qualità o macchiato, ci sono buone probabilità che il testo non venga riconosciuto e tantomento estratto correttamente.

Stesso discorso per la scrittura manuale. Esistono, è vero, alcuni software OCR in grado di capire la scrittura a mano libera. Ma sono software costosi, molto costosi. O sono programmi che devono essere addestrati. Nel senso che prima di utilizzarli dobbiamo scrivere una serie di termini, e vincolare la nostra scrittuara ad alcune regole grafiche e grafologiche.

OCRonline è un’applicazione gratis, e non è in grado di riconoscere la nostra grafia. Ma può permetterci di estrarre del testo da un’immagine e di salvarla come documento. Per farlo è sufficiente caricare un file sul sito. Come? Bè, alla solita maniere: tasto upload e si sceglie l’immagine giusta. Poi si dà il via, e si aspetta il tempo necessario.

C’è una limitazione di cui tener conto, però. Quale? Che possiamo convertire al massimo 100 pagine al giorno. Sono tante o sono poche? Bè, penso che per un utilizzo quotidiano medio siano più che sufficienti. Anche perché la cosa migliore di OCRonline non è la sua velocità quanto il suo essere sempre online. Perché? Perché può essere utilizato come servizio d’emergenza per le volte in cui dobbiamo estrarre del testo da un’immagine ma non possiamo utilizzare il nostro PC, e quindi i programmi che abbiamo installato appositamente per svolgere questo compito.

Per finire, qual’è il mio giudizio su questa applicazione OCR? Positivo, per i documenti in lingua inglese. Positivo anche per la sua funzione di supporto per le occasione in cui non ho con me il mio PC ma posso comunque accedere ad internet.
Negativa, invece, la mia valutazione sull’OCR in lingua italiana, e sulla sua lentezza nell’estrarre testo da un’immagine scannerizzata. Negativa, anche se non del tutto, la scelta di limitare a 100 i documenti che si possono convertire in una giornata.