segunda-feira, 14 de julho de 2008

Busca com IBM Omnifind Yahoo!

Realizei alguns testes para avaliação do OYE (OmniFind Yahoo! Edition).
Bom, Omnifind é o nome da linha de produtos IBM relacionados a busca e indexação de conteúdo. Destre as três versões comercialmente disponíveis, a versão Yahoo!, foi a escolhida para os testes.
O produto Omnfind Yahoo! Edition (oye), é um sistema de busca e indexação de documentos, baseando no motor de buscas Apache Lucene e desenvolvido na linguagem Java.

Algumas características do produto
  • Suporta mais de 200 tipos de documentos para indexação (xls, doc, ppt, pdf, odt, ods, ppt, html, xml, etc...);
  • API webservice (REST) e em java, para administação básica do sistema, indexação de conteúdos e buscas;
  • Suporta os padrões opensearch;
  • Suporta metadados (campos personalizados para documentos);
  • Suporte a língua portuguesa;
  • Suporte a sinônimos, sugestão de termos e links de destaque;
  • Crawlers (sistema de indexação) web e de arquivos, nativos.
  • Até 500,000 documentos e até 5 espaços de busca (coleções).
  • Suporte IBM

Detalhes do produto IBM Omnifind Yahoo! Edition: http://842docs.omnifind.info/oye_datasheet.pdf

Comparativo entre os produtos da linha Omnifind: ftp://ftp.software.ibm.com/software/data/cmgr/pdf/omnifind-portfolio.pdf

Testes
Os testes foram realizados com o objetivo de indexar documentos presentes em um banco de dados. Como o oye, não possui suporte nativo para buscas em banco de dados, a api de indexação foi utilizada em conjunto com um script para consulta ao banco Oracle. Postei a classe em Python no site http://omnifind.ibm.yahoo.net/forums/index.php?topic=1140.0

Para a consulta de dados customizada, uma página foi criada, também utilizando a api do produto.

Pontos Positivos
A utilização de uma api foi essencial para o trabalho de indexação de conteúdo em banco de dados e o fato desta suportar nativamente webservices, proporcionou uma forma simples de estender as funcionalidades do produto, e possibilita o escalonamento horizontal e a integração com as mais diversas fontes de dados.
O fato do oye ser gratuito, oferece uma vantagem adicional, já que os custos em soluções corporativos de busca, são altos. Veja o Google Search Appliance e Omnifind Enterprise Edition.

Pontos Negativos
Foram encontrados alguns problemas na documentação do produto, principalmente em relação a api de buscas.
O sistema de sinônimos do oye é muito simples e nem todos os termos são encontrados. Para contornar este problema, no protótipo de buscas, integrei a api externa do Google. Sempre imbatível ;)
Aparentemente esta versão não anda recebendo atualizações.

O software pode ser encontrado em: http://omnifind.ibm.yahoo.net/
No charge - No Source

Notícias Selecionadas