Come Copiare Testo da PDF Mantenendo la Formattazione

di Samuele

I PDF sono uno degli strumenti migliori per condividere documenti complessi. A differenza degli ePub riescono a gestire bene la formattazione e le immagini, rispetto all’HTML è più facile da gestire e da condividere. Ma hanno un problema, sono poco flessibili. O, meglio, il loro pregio è proprio questo, possiamo creare un PDF con la certezza di condividere esattamente lo stesso documento a prescindere dal programma usato per leggerlo. Il problema nasce quando vogliamo lavorare con del testo estratto da un PDF. Se, ad esempio, copiamo un testo in colonna otterremo una formattazione strana: dopo ogni riga ci sarà un “a capo” mentre per noi sarebbe meglio mantenere i periodi uniti. O, spesso, perderemo i grassetti, i corsivi e i vari segni speciali. Come possiamo risolvere questo problema? Come possiamo copiare del testo da un file PDF mantenendone la formattazione?

La risposta

Immagine generica sui PDF
Per rispondere a questa domanda dobbiamo per prima cosa capire bene cos’è un PDF. Il PDF è un formato creato per simulare una pagina stampata. E come ogni pagina stampata è solamente un formato di output, non di input. O, in altre parole, serve solo per leggere informazioni, non per immetterle o interagire con noi. Fondamentalmente i PDF sono delle mappe contente la posizione esatta dei caratteri (le lettere, la punteggiatura, i caratteri speciali, ecc…) e delle immagini. La maggior parte dei PDF non memorizza in alcuno modo la fine di una parola, o la fine di una frase: sarebbe uno spreco di memoria per quella che è la funzione del documento.
È anche vero, però, che alcuni PDF utilizzano una tecnologia più moderna in grado di conservare queste informazioni. Ma dovremmo essere doppiamente fortunati per poterla sfruttare. Innanzitutto il file deve essere creato in modo da mantenere queste informazioni; e in secondo luogo il lettore PDF che utilizziamo deve interpretare correttamente una sintassi non comune.
In ogni caso da “lato PDF” non ci possiamo fare nulla, il formato non prevede di copiare testo mantenendone la formattazione. Ma possiamo intervenire dal “lato software”. Quello che ci serve è una specie di “intelligenza artificiale” in grado di estrarre non solo i singoli caratteri ma anche di capire quali compongono una parola, quali una frase, quali un paragrafo e così via. Ma la cosa non è così semplice come potrebbe sembrare. Anche perché ogni documento PDF può essere fatto in una miriade di modi diversi, alcuni semplificandone l’esportazioni, altri complicandola in maniera esagerata. Senza contare quei PDF protetti appositamente. In ogni caso non ci dovremmo mai aspettare risultati perfetti da un’operazione di questo genere. Anzi, se volete sentire il mio parere, se possibile procuratevi il documento originale: alla fine è l’unico modo per ottenere un buon risultato.
A volte però non è possibile far altro che passare per il file PDF. In questo caso potete provare a convertire il file PDF in HTML e poi da quest’ultimo estrarne il testo. Se già l’avete potete usare Adobe Acrobat Professional, ma non il lettore gratuito, la soluzione più costosa di Adobe. Ma non spendete soldi solo per questo, esistono anche dei programmi gratuiti, non perfetti ma funzionali. Possiamo usare, ad esempio, Calibre (per convertire i PDF in formato RTF), pdf to html o il word processor AbiWord. E per chi utilizza LibreOffice od OpenOffice esistono anche dei plugin fatti apposta a questo scopo.
Ricordate comunque una cosa, copiare e incollare del testo da PDF mantenendone la formattazione non è mai cosa semplice, e i risultati possono essere diversi passando dal “benino” al “pessimo”.

Altri strumenti utili per i PDF