OCR no Ubuntu

 
Introdução

OCR (Optical Character Recognition) corresponde à interpretação de imagens que possuam textos, aí incluindo-se arquivos PDF, para extraí-los.

Há vários programas comerciais para tal fim, como o excelente Abby Fine Reader, para Windows, mas, até pouco tempo, as soluções livres para o universo Linux, pelo menos as com interface gráfica ao usuário, eram bem fracas. Isso parece ter mudado com o Linux-Intelligent-Ocr-Solution.
Instalando:
No Terminal (Ctrl+Alt+T), digite os comandos abaixo:

Comece baixando o programa com o comando a seguir (as duas linhas compreendem um comando apenas):

wget -O lios.deb http://ufpr.dl.sourceforge.net/project/lios/Lios_1.9.3_all.deb



 

Em seguida, rode os dois comandos seguintes para instalá-lo:


sudo dpkg -i lios.deb 


sudo apt-get install -f -y


Para acionar o programa, digite Lion ou Lios no Dash do Ubuntu.


Nota: é possível escolher uma entre duas ferramentas de extração de texto para ser usado pelo programa: cuneiform ou Tesseract , este último conhecido como "talvez a mais acurada ferramenta de OCR disponível". Se ele não estiver disponível em seu sistema, para instalá-lo basta rodar o seguinte comando no Terminal:


sudo apt-get install tesseract-ocr