PageRank Sistema de Recuperação de Informação da Área Médica: CONCEITO DE RECUPERAÇÃO DA INFORMAÇÃO

Páginas

Pesquisa

quarta-feira, 10 de novembro de 2010

CONCEITO DE RECUPERAÇÃO DA INFORMAÇÃO

RECUPERAÇÃO DE INFORMAÇÃO  (RI)
É uma área da computação que lida com o armazenamento de documentos e a recuperação automática de informação associada a eles. É uma ciência de pesquisa sobre busca por informações em documentos, busca pelos documentos propriamente ditos, busca por metadados que descrevam documentos e busca em banco de dados, sejam eles relacionais e isolados ou banco de dados interligados em rede de hipermídia, tais como a World Wide Web. A mídia pode estar disponível sob forma de textos, de sons, de imagens ou de dados. Há, entretanto, muita confusão entre os termos e conceitos "recuperação de dados", "recuperação de documentos", "recuperação de informações" e "recuperação de textos". Na verdade, cada um destes é uma área especial que possui seu próprio corpo de conhecimento e literatura, teoria, praxis e tecnologias.

Histórico acadêmico

O termo foi criado por Calvin Mooers entre 1948 e 1950, e o campo de pesquisa é interdisciplinar, baseado em muitas áreas. Por sua abrangência ele não é muito bem compreendido, sendo abordado tipicamente sob uma ou outra perspectiva. Ele está posicionado na junção de muitos campos já estabelecidos, tais como psicologia cognitiva, arquitetura da informação, projeto da informação, comportamento da informação humana, linguística, semiótica, ciência da informação, ciência da computação, biblioteconomia e estatística.
Sistemas (automatizados) de recuperação da informação foram originalmente usados para gerenciar a explosão da informação na literatura científica na segunda metade do século XX. Muitas universidades e bibliotecas públicas usam estes sistemas para prover acesso a livros, jornais, periódicos e outros documentos.
Em 1992 o Departamento de Defesa dos Estados Unidos, em conjunto com o Instituto Nacional de Padrões e Tecnologia (NIST), do mesmo país, patrocinou a Text Retrieval Conference (TREC, Conferência de Recuperação de Textos) como parte do programa TIPSTER. O objetivo disto foi observar a transformação da comunidade de recuperação de informações a partir do provimento de uma infraestrutura de suporte que era necessária para tal gigantesca avaliação das metodologias de recuperação de textos.

Objetivo

Os documentos são geralmente textos ou partes do texto de documentos e o principal objetivo de um sistema de RI é recuperar informação (contida nos documentos) que possa ser útil ou relevante para o usuário. Tal informação (de interesse do usuário) é normalmente chamada de necessidade de informação do usuário. Infelizmente, caracterizar a necessidade de informação do usuário não é uma tarefa simples. Considere, por um momento, a seguinte necessidade de informação de um usuário no contexto da World Wide Web (ou simplesmente Web):
"Encontre todos os documentos contendo informações sobre a doença Neoplasma Benigno de forma que: (1) O paciente com a doença possua idade inferior a 50 anos e (2) seja diabético."

Palavras-chave

Claramente, a descrição completa acima não pode ser usada para solicitar uma informação através das interfaces do utilizador das máquinas de busca na Web. Para obter documentos de seu interesse, o usuário deverá traduzir uma necessidade de informação em uma consulta. Em sua forma mais comum, esta consulta é um conjunto de palavras-chave que são usadas para recuperar documentos em uma coleção. Na grande maioria das vezes, a formulação da consulta consiste em determinar quais são as palavras-chave que resumem a informação desejada pelo usuário. Uma inconveniência imediata dessa abordagem é que o uso de palavras-chave usualmente introduz uma diferença de semântica entre a intenção do usuário e o conjunto de documentos retornados. Além disso, essa diferença de semântica pode ser ampliada devido à dificuldade adicional em se lidar com textos em linguagem natural, que nem sempre são bem estruturados e podem ser semanticamente ambíguos.

Resultados

Como resultado, a presença de documentos (textos) não relevantes entre os documentos retornados por uma consulta é praticamente certa. Nesse cenário, o principal objetivo dos sistemas de RI é recuperar o maior número possível de documentos relevantes e o menor número possível de documentos não relevantes.
Uma forma simples de obter um conjunto de respostas para uma consulta de usuário é determinar quais documentos em uma coleção contém as palavras da consulta. Todavia, isto não é o suficiente para satisfazer ao usuário em um sistema de RI.

Grau de relevância

A razão é que, o usuário está mais interessado em recuperar informação associada a um tópico descrito em uma consulta - uma tarefa freqüentemente denominada como o problema de RI. Para ser eficaz na tarefa de satisfazer a necessidade de informação do usuário, os sistemas de RI ordenam os documentos de uma coleção de acordo com o seu grau de relevância com a consulta do usuário. A noção de relevância é um conceito fundamental em recuperação de informação e é um componente chave para calcular a classificação (ordenação) de documentos em um conjunto de respostas a uma consulta do usuário.

Principais passos

  • Operação de Consulta - envolve a especificação de um conjunto de termos, associados ou não por operadores booleanos, que representa a necessidade de informação do usuário.
  • Operação de Indexação - envolve a criação de estruturas de dados associados aos documentos de uma coleção. Uma estrutura de dados bastante utilizada são as listas invertidas de termos/documentos.
  • Pesquisa e Ordenação - envolve o processo de recuperação de documentos de acordo com a consulta do usuário e sua ordenação através de um grau de similaridade entre o documento e a consulta.
Para calcular uma classificação, o sistema de RI usualmente adota um modelo para representar os documentos e a consulta do usuário. Muitos modelos ou abordagens para a computação da classificação tem sido propostos ao longo dos anos, sendo três modelos considerados clássicos:
Atualmente, vários outros modelos baseados em argumentos probabilísticos também foram propostos. Apesar desse desenvolvimento, ainda existe uma grande necessidade por novos arcabouços que permitam o aumento da qualidade das respostas a uma consulta do usuário.

Esquema global

Os modelos clássicos de recuperação de informação consideram que cada documento é representado por um conjunto de palavras-chave representativas, ou termos de indexação, que são consideradas como mutuamente independentes. Como um mesmo termo pode aparecer em diferentes documentos, é necessário distinguir a ocorrência de um termo ki em um documento dj da ocorrência deste mesmo termo em outro documento dl. Para isso, a cada par termo-documento [ki,dj] associa-se um peso wij. Este peso deve ser utilizado para refletir a importância do termo ki no documento dj, como discutido adiante. Analogamente, a cada par termo-consulta [ki,q] associa-se um peso wi,q. Esses pesos quantificam a importância da palavra chave em relação as outras palavras chaves em um mesmo documento ou consulta e em relação a outras palavras chaves em outros documentos de uma coleção.

Exemplos de sistemas de recuperação da informação

  • Biblioteca virtual de saúde - Recupera a informação de diversos periodicos, e alguns são disponibilizados online, sendo que todos estes são voltados para a area de saúde
  • Domínio público - Reune livros que já podem ser disponibilizados online, ou seja, são de dominio público
  • Portal Capes - Disponibiliza artigos de periódicos de varias revistas nacionais e internaconais.

Nenhum comentário:

Postar um comentário