Google já encontra texto em documentos escaneados e PDF

O scanner é uma ferramenta e tanto.
Todos os dias são publicados documentos escaneados na web — desde relatórios oficiais do governo até ensaios acadêmicos de gosto duvidoso. Estes arquivos contêm imagens de textos, em vez do texto em si.
O interessante é que estes documentos tem algo em comum: alguém, em algum lugar, achou que estes textos são valiosos o bastante a ponto de compartilhar com o mundo.
Antigamente, documentos escaneados raramente eram incluídos nos resultados das buscas do Google e não se podia ter certeza do seu conteúdo. O que se conseguia, de vez em quando, eram pistas baseadas nas referências ao documento — você conseguia resultados para sua pesquisa com um título mas sem o velho snippet resumindo o conteúdo do arquivo.
Hoje, felizmente, as coisas mudaram. A busca do Google já consegue aplicar a tecnologia de OCR em qualquer documento escaneado que estiver indexado no formato PDF da Adobe. Coisa boa, hein?
Para ver o novo sistema funcionando, clique nas busca abaixo. Note o resumo dos documentos nos resultados da pesquisa, junto com o texto inteiro apresentado após o link ‘View as HTML’ link:
[Manual de Configuração Rápida do Monitor a Cores Dell™ E151FP]
[thinkgeek bluetooth-headset-instructions]
[portal da pesquisa Manual usuário]

8 Comments

  1. Camila 31 de outubro, 2008
  2. Pingback: O que é tecnologia OCR e para que serve? 31 de outubro, 2008
  3. milton candoia de araujo filho 29 de abril, 2009
  4. milton candoia de araujo filho 29 de abril, 2009
  5. clecio 11 de maio, 2009
  6. Eduardo Tetera 17 de maio, 2009
  7. Maria 3 de julho, 2009
  8. Eduardo Tetera 3 de julho, 2009
  9. Maria 3 de julho, 2009

Reply Cancel Reply