Undergoogle

terça-feira, abril 10, 2007

Google investe em sistema OCR Open-Source

Sem dúvidas, o OCR é algum muito útil e de interesse dos engenheiros do Google. Afinal ele é responsável por scanear todos os livros que estão disponíveis no Google Books, além de ser peça fundamental para futuros projetos de indexação e disponibilização de todo tipo de conteúdo para os usuários dos serviços Google.

Não é de hoje que a empresa vem investindo em softwares de reconhecimento óptico. (Veja: Google quer popularizar OCR).

Baseado no Tesseract ( melhor software de OCR disponível no momento), a Google está dando apoio a um novo Open-Source para o reconhecimento de caracteres, chamado OCRopus. O objetivo do novo investimento é um software com mais qualidade, que possa facilitar a indexação de grandes bibliotecas e documentos históricos, além de ter funcionalidade doméstica.

Entre os projetos ambiciosos da equipe de desenvolvimento, está a idéia de fazer uma interface Web para o serviço, reconhecimento do arquivos PDF, fotos de Câmeras e da própria tela do PC, além da integração com aplicativos como o Google Desktop, Beagle e Spotlight.

Uma versão Alpha deve estar disponível no no segundo semestre deste ano.

Veja a página do projeto no Google Code.

0 Comentários:

Postar um comentário

Assinar Postar comentários [Atom]



<< Página inicial