O que é OCR e o que esta tecnologia faz exatamente?
Camila
Camila, a tecnologia conhecida como OCR (Optical Character Recognition, em inglês) faz o que seu nome já diz: é capaz de reconhecer um arquivo PDF e converter a imagem em milhares de palavras.
Você também pode utilizar um programa OCR para extrair as palavras de um texto escaneado.
Google OCR
Já que o arquivo PDF nada mais é que uma imagem com palavras embutidas — essas palavras podem, então, ser indexadas e encontradas nas buscas, de modo que esses documentos passam a ser mais facilmente encontrados.
Por isso, utilizando tecnologia OCR o Google já encontra texto em documentos escaneados
e consegue ler o que está escrito em arquivos PDF.
Este é um passo importante na missão do Google de tornar todas as informações no mundo acessíveis e úteis.
Há muito tempo os motores de busca já vinham indexando arquivos salvos como PDF, mas os documentos escaneados são bem mais difíceis de ser lidos por um computador. Escanear é o contrário de imprimir.
A impressão transforma palavras digitais em texto no papel, enquanto o escaneamento faz uma imagem digital do texto que está no papel. Assim você pode guardar o documento e visualizá-lo no computador.
hum…
Empougante
Mais nao é interessante
Obrigado pela participação.
Google docs é muito fácil pra usar mais para reconcer os grandes volumes de documentos prefiro usar abbyy fienreader. trabalha com muito formatos como djvu e html e conserva a formatação do texto original