Undergoogle

terça-feira, setembro 05, 2006

Google quer popularizar o OCR

Passou em branco aqui pelo blog, porém foi lembrado pelo Lucas Rafael que a Google está retomando o desenvolvimento de um sistema de OCR. Desde que a HP decidiu sair do negócio de OCR em 1995, aquele monte de código de primeira qualidade estava estacionado na garagem. Há um ou dois anos a Google começou a trabalhar com a HP para liberar esse código como open-source.

O programa, conhecido com Tesseract OCR, está aberto a qualquer um que queira colaborar e deve ser o artista por trás do Google Book Search, o famoso buscador em livros mantido pela empresa de Mountain View.

Leia mais: Google Code

2 Comentários:

  • Mas já não é possível fazer isto com os PDFs da Adobe ?

    Por Anonymous Anônimo, Às 05 setembro, 2006  

  • Compare e tire suas próprias conclusões:

    Origem:
    http://books.google.es/books?id=H8Owsb672LkC&pg=PA7&img=1&zoom=3&q=shakespeare&hl=es&sig=3TneXq66XBD9TPtlaUOvooaWMhA

    Resultado do OCR com o Tesserat:
    http://google.dirson.com/resultado-ocr-shakespeare.txt

    Por Blogger Pedro, Às 05 setembro, 2006  

Postar um comentário

Assinar Postar comentários [Atom]



<< Página inicial