Categories: HardwareSoftware

OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

Author: IlSoftware.it

Quando si lavora con file in formato PDF inviati da collaboratori, dipendenti e colleghi, spesso ci si accorge che le pagine sono formate solamente da immagini di fogli cartacei acquisiti tramite scanner. Il documento PDF viene quindi utilizzato solamente come “contenitore” mentre le informazioni acquisite tramite scanner non sono né selezionabili né copiabili altrove.
La tecnologia OCR (acronimo di Optical Character Recognition) consente di rilevare i caratteri che compongono qualunque documento salvato come immagine e di trasformarli in testo modificabile, talvolta conservando anche il layout del documento originale.

OCR da smartphone con Office Lens, Adobe Scan e Google Keep

Iniziamo col dire che se si volesse trasformare istantaneamente una pagina cartacea in un testo modificabile usando solo il proprio smartphone è possibile usare speciali applicazioni che integrano funzionalità OCR.
La più ridotta in termini di funzionalità ma anche la più rapida da usare è Google Keep. Selezionando Scatta foto o Scegli immagine in Google Keep si può dapprima acquisire la foto di una pagina stampata; cliccando sul pulsante in alto a destra raffigurante tre puntini in colonna quindi su Recupera testo immagine, il contenuto dell’immagine sarà interamente sottoposto a riconoscimento ottico dei caratteri (OCR).

Come spiegato nell’articolo Google Keep: per gestire promemoria e note, con OCR e riconoscimento vocale, tuttavia, il testo riconosciuto da parte del modulo OCR sarà testo semplice, “da Blocco Note”, senza la conservazione di una formattazione del documento.Office Lens e Adobe Scan offrono invece risultati nettamente migliori creando file PDF a partire dalle foto dei documenti acquisite tramite la fotocamera del dispositivo mobile.
La foto viene automaticamente ottimizzata e inserita in un file in formato PDF. Ogni area di testo del documento, una volta sottoposta a OCR, diventa selezionabile e copiabile altrove.

Abbiamo presentato Office Lens e Adobe Scan, rispettivamente, negli articoli Scansione documenti con Android: arriva il nuovo Office Lens e Scansione di un documento dallo smartphone con Adobe Scan.

OCR online con SmallPDF

Tra le soluzioni che offrono i migliori risultati in assoluto c’è sicuramente SmallPDF: questo strumento offre risultati eccezionali anche con i documenti PDF contraddistinti da un layout complessi con testi (font di carattere non comuni) e molte immagini. Il bello di SmallPDF è che accedendo questa pagina quindi selezionando PDF to Word il documento viene dapprima analizzato, viene sottoposto a OCR quindi trasformato in formato Word.

Se il file PDF contenesse pagine con immagini acquisite da scanner, quindi senza alcun testo selezionabile, il file Word che SmallPDF produrrà consentirà di selezionare e copiare altrove tutto quanto di proprio interesse.

Riconoscimento ottico dei caratteri con IceCream PDF Converter

In passato abbiamo presentato nelle pagine de IlSoftware.it l’ottimo IceCream PDF Editor un completo editor che permette di apportare direttamente modifiche sul contenuto dei documenti PDF: Modifica PDF esistenti con l’editor IceCream.
Il programma è molto valido (tra l’altro è completamente gratuito) ma soffre di una mancanza: è privo di un modulo OCR. IceCream PDF Editor non riesce a rendere selezionabili e copiabili altrove i testi contenuti nei documenti scannerizzati.

In alternativa è possibile utilizzare IceCream PDF Converter che integra le funzionalità OCR.
Il programma è distribuito anche in versione gratuita che soffre però di alcune limitazioni rispetto alla versione Pro.

Nel momento in cui si aprirà un documento scannerizzato in formato PDF, IceCream PDF Converter riconoscerà la presenza di immagini contenenti del testo e proporrà l’attivazione dell’OCR.

Soluzione gratuita: PDF-XChange Editor

L’immarcescibile PDF-XChange Editor offre un set di funzionalità piuttosto ridotto quando si tratta di modificare il contenuto di un PDF (mentre IceCream PDF Editor è attualmente “il re” tra i software gratuiti) ma si mette in evidenza per le sue abilità OCR.
La procedura da seguire per convertire immagini in testo a partire dal contenuto del file PDF è molto semplice: basta dapprima scaricare e installare PDF-XChange Viewer, caricare il pacchetto per il riconoscimento OCR della lingua italiana prelevando questo file quindi cliccando due volte sull’eseguibile in esso contenuto.

Dopo aver avviato PDF-XChange Viewer e aperto il documento PDF contenente le immagine dei fogli cartacei scannerizzati, si potrà fare clic sul menu Documento, Scansione testo pagine con OCR e impostare le varie opzioni come in figura.

Dopo che il riconoscimento ottico dei caratteri sarà completato, basterà scegliere File, Salva con nome e memorizzare il file PDF con un altro nome. Aprendo il file con un qualunque lettore di file PDF si noterà come le varie parti del documento risulteranno selezionabili e copiabili altrove.

WPS PDF to Word Converter con funzionalità OCR gratuite

Una valida alternativa è il poco conosciuto WPS PDF to Word Converter che avevamo presentato qualche tempo fa nell’articolo Convertire PDF in Word, quali programmi usare.
WPS PDF to Word Converter consente di trasformare file PDF in Word modificabili ma a differenza di altri programmi permette di utilizzare funzionalità OCR sulle immagini di documenti scannerizzati.

Con un clic su Settings si possono specificare informazioni aggiuntive sul layout del PDF e indicare su quali elementi dovrà essere attivato il riconoscimento ottico dei caratteri (OCR).
Nella versione gratuita WPS PDF to Word Converter può convertire in Word documenti composti da un numero massimo di 5 pagine.
Menzione speciale per gImageReader che è semplicemente un front-end grafico per il notissimo motore OCR Tesseract.

admin

Recent Posts

The Lian Li Hydroshift LCD 360S AIO Cooler Review: Sleek, Stylish, and Lively

Author: AnandTech Among the packed field of PC hardware manufacturers, Lian Li is a company…

28 Giugno 2024

Questa BELLISSIMA tastiera meccanica è in DOPPIO SCONTO con coupon!

Author: Tom's Hardware Alla ricerca di una tastiera meccanica di alta qualità che unisca versatilità,…

28 Giugno 2024

Steam ha svelato il suo tool integrato per la registrazione del gameplay: Beta già disponibile!

Author: GAMEmag Con un annuncio a sorpresa, Valve ha svelato uno strumento integrato di Steam…

28 Giugno 2024

Celebrating Pride month: How Diversity, Equity, and Inclusion drive success at Schneider Electric US Services

Author: Schneider Electric This audio was created using Microsoft Azure Speech Services Pride Month is…

28 Giugno 2024

La verità sui modelli usati per l’intelligenza artificiale: quali non sono open source

Author: IlSoftware Negli ultimi anni, nel settore delle soluzioni basate sull’intelligenza artificiale (IA) si è…

28 Giugno 2024

NASA OSIRIS-REx: trovati fosfati nei campioni dell’asteroide Bennu

Author: Hardware Upgrade La missione statunitense NASA OSIRIS-REx ha riportato sulla Terra 121,6 grammi di…

28 Giugno 2024