Está aqui

Conversão de arquivos de imagem em arquivos de texto

por Cristiana
Categoria do truque/dica:

Para converter textos escaneados usando o OCR Terminal, acesse
http://www.ocrterminal.com/
O site permite converter 20 páginas por mês gratuitamente. Para ter acesso a este serviço, é preciso fazer o cadastro no site. Seguem instruções detalhadas abaixo.

Situação: Tenho dois arquivos em formato imagem no meu computador e quero convertê-los para texto. Estes arquivos, denominados testejpg.jpg e testepdf.pdf, estão na pasta c:\cris.

Como proceder após acessar o site do Terminal OCR:
1. Clique em “OCR for free”, que significa “escaneamento gratuito”.
2. Clique em “user create” para criar login e senha. Anote os dados para não perdê-los. Caso você não se lembre da senha, terá de clicar em “lost password?” (Perdeu a senha?) e em “reset password” (reiniciar senha). Você receberá um email com a nova senha, no endereço que você cadastrou no site do OCR Terminal.
3. Depois de criar o login e a senha, o que só consegui fazer com o auxílio de pessoas que enxergam, digite o nome do usuário no campo “username” e a senha no campo “password”. Para sair do sistema, clique em “logoff”.
4. Navegue com a letra “h” até o cabeçalho “please select a file for upload”, que significa “selecione arquivo a ser copiado do seu computador”. Ele será copiado do seu computador para o servidor do OCR Terminal, ou seja, será feito o upload deste arquivo.
5. Tecle tab até “selecionar arquivo botão” e tecle enter. Agora você está na tradicional tela “nome do arquivo”.
6. No item “nome do arquivo”, digite o drive e a pasta em que está localizado o arquivo a ser convertido. No meu caso, os dois arquivos estão localizados em c:\cris. Tecle enter.
7. Vá com shift+tab até a lista de arquivos da pasta selecionada e selecione com as setas o arquivo que você quer escanear. No meu caso, digitei a letra T para encontrar o arquivo “testejpg.jpg” e fui com o tab até o botão “abrir”. Teclei enter nele.
8. Caso o upload do arquivo tenha sido feito corretamente, aparece um cabeçalho chamado “choose recognition language”, ou “escolha idioma para reconhecimento”. Escolhi a língua portuguesa, idioma em que os dois textos estão escritos.
9. Você tem a opção de fazer download, isto é, copiar o resultado do escaneamento para o seu computador, em quatro formatos: doc, txt, pdf ou rtf. Vou clicar em “download MS-Word output” para baixar (ou seja, fazer o download) do arquivo doc, que é aberto pelo Microsoft Word.
10. Siga os procedimentos mencionados nos itens de 6 a 9 para converter outros arquivos. Para selecionar vários arquivos, é necessário clicar no link “desktop client”, e em “contact us” para solicitar que eles enviem o programa Desktop Client, que é instalado no computador do usuário. Não sei se é gratuito.

Resultados da conversão:
O OCR Terminal armazenou os resultados em dois arquivos: testepdf.doc e testejpg.doc. Ou seja: manteve o nome dos arquivos e alterou apenas a extensão (.doc, que foi o formato que escolhi para fazer o download). O texto dos arquivos saiu sem acentos e sem cedilha, o que pode ser corrigido utilizando-se o recurso “localizar e substituir” do Word.