http://repositorio.febab.org.br/files/original/60/6352/SNBU1998_046.pdf 0620087f73755eb9fa5e168c6d658cd0 PDF Text Text INDEXAÇÃO AUTOMATICA E SEMI-AUTOMÁTICAl VIRGÍNIA BENTES PINTO RESUMO: Nos últimos 30 anos a indexação documentária tem sido a a'rea da Ciência da Informação que mais evoluiu. Esta evolução está estritamente ligada às mudanças de paradigmas que ocorrem na nossa sociedade, independente do domínio do conhecimento. Este trabalho constitui-se na segunda parte do trabalho sobre indexação, enquadra-se nestas mudanças e trata da automática e semi-automática, apresentamos alguns exemplos de sistemas de indexação automática Palavras-Chave: Indexação Automática, Semi-automática, Sistemas de Indexação Automática 1 INTRODUÇÃO A indexação automática, assim como a manual, tem como objetivo identificar e extrair do documento os elementos indicadores do seu conteúdo, visando a sua recuperação posterior. A realização desta atividade consiste em estabelecer, inicialmente, um anti-dicionári03 de palavras vazias, ou puramente gramaticais, cuja significação não contribui para a compreensão do conteúdo do documento. É o caso dos artigos, dos pronomes, das preposições, dos advérbios, das conjunções (de coordenação e de subordinação), as marcas de pontuação e de separação (espaços em branco), verbos (ser e estar e suas formas com apostrofes e conjugadas), certos nomes, adjetivos ( e suas formas derivadas), aspas, etc. Em seguida, as palavras do texto são comparadas com as do anti-dicionário, as que coincidirem serão automaticamente eliminadas, as outras serão consideradas como prováveis representantes dos elementos que fazem parte do conteúdo do documento. 2 PERSPECTIVA EVOLUTIVA DA INDEXAÇÃO Nós podemos considerar que, efetivamente, as aplicações da indexação automática remontam aos estudos desenvolvidos por H.P.Luhn (1959) através do 247 �desenvolvimento e aplicação do Índice KWIC (Key Word in Context), que é constituído a partir das palavras significativas do título do documento depois da eliminação das palavras vazias. Elas são identificadas automaticamente e realçadas no meio da página e as outras aparecem ao seu redor. A partir da década de 60, as experiências em torno da indexação automática se multiplicaram dando importância aos modelos estatísticos e utilizando outras aproximações interdisciplinares. As primeiras experiências foram colocadas em prática por Salton (1971) através do sistema SMART, por Austin (1974), com o sistema PRECIS e por Bourrely e Chouraqui (1975) que desenvolveram o sistema SAIN. Mesmo com todos as ferramentas propostas por estes sistemas, eles apresentam como desvantagem a não atenção aos aspectos morfo-sintáticos dos textos. Depois destas experiências, começaram a aparecer os sistemas mistos, ou seja, que utilizam as ferramentas da estatística e da linguística. Exemplo o Sistema Probabilístico de Indexação e de Recuperação de Informação (SPIRIT) que foi desenvolvido por Christian Fluhr e Alexandre Andreewsky (1981), o Sistema CLARIT, o Sistema FASIT (Fu1ly Syntactic Indexing of Text) entre outros. N este início, a indexação automática era baseada nas palavras dos títulos ou numa representação resumida dos elementos do documento. Atualmente, esta atividade procura utilizar o texto completo, principalmente se os documentos são eletrônicos. Dessa forma, o seu produto não será limitado a quaisquer termos como na indexação manual ou mesmo nas primeiras experiências automatizadas, mas considera todos os termos que não fazem parte do dicionário de palavras vazias. Mesmo com as vantagens da indexação do texto completo, estes métodos se baseiam sobretudo nos modelos estatísticos que não levam em consideração as expressões, as palavras compostas, os espaços e os caracteres de pontuação que são considerados como separadores de palavras. Em conseqüência os índices serão constituídos normalmente, por unitermos que nem sempre serão úteis como 248 �1 representantes dos elementos indicadores do conteúdo dos documentos, o que contribuirá para aumentar o ruído durante a recuperação da informação. Mesmo com todas estas desvantagens, [FIDEL94] considera a indexação automática mais amigável para o usuário porque: (i) cada vez mais os sistemas automáticos aceitam as demandas em linguagem natural. Assim os usuários não tem necessidade de expressar suas necessidades segundo as lógicas boleanas; (ii) os sistemas podem responder positivamente aos usuários que integram mecanismos de reformulação no momento das buscas; (iii) os sistemas mostram as respostas por ordem decrescente de pertinência; (iv) a indexação automática facilita a expansão das buscas à medida que os termos podem ser somados automaticamente à formulação da busca original para melhorá-la. Acrescentamos a estas vantagens (i) a facilidade de colocar em prática; (ii)a rapidez no tratamento de grandes quantidades de documentos; (iii) a redução do custo beneficio. 3 INDEXAÇÃO ATOMÁTICA A indexação automática pode ser realizada através das palavras-chave (unitermos) ou por intermédio das unidades complexas. Os métodos de indexação que utilizam as palavras-chave são classificados como métodos elementares e métodos estatísticos. Os métodos elementares extraem, dos documentos (texto), os termos, após a eliminação das palavras vazias. Os métodos estatísticos são baseados nos modelos probabilísticos de ocorrência ou co-ocorrência das palavras que pertencem a um documento em uma coleção. Na visão de HERSH (1993), eles podem ser baseados sobre nos conceitos, nas palavras que pertencem a um domínio especifico, na combinação de conceitos e de palavras e fmalmente nos conceitos reconhecidos como mais gerais. Assim temos : a) os sistemas que se baseiam sobre os conceitos: retém os conceitos da forma que eles aparecem no texto. Em geral, aqui, é utilizado um tesauros para situar o meio ambiente semântico dos termos da indexação. A vantagem desta 249 1 �maneira de indexar é que a busca de informação pode ser realizada em linguagem natural. Mas se não for possível identificar alguma idéia referente a um conceito no texto, naturalmente ela não será indexada o que contribuirá para aumentar o silêncio durante a recuperação da informação; b) os sistemas que se baseiam sobre as palavras: eles são utilizados para a indexação de textos plenos. Nesta perspectiva, o índice é constituído por todas as palavras do texto, mesmo as consideradas secundárias, o que vai facilitar o ruído na recuperação da informação; c) os sistemas que se baseiam sobre as palavras que pertencem a um domínio especifico: como o próprio nome o diz, o sistema retém unicamente as palavras pertencentes ao domínio especifico tratado no documento; d) os sistemas que se baseiam sobre os conceitos e as palavras: eles atribuem um peso a cada uma das palavras que não fazem parte dos conceitos predefinidos. O inconveniente deste sistema é que ele poderá contribuir para aumentar o ruído, pois farão parte dos índice palavras que não são pertinentes para a representar os elementos que fazem parte do conteúdo do documento; e) os sistemas que se baseiam sobre os conceitos mais gerais: aqui é possível reconhecer um conceito mesmo que todas as palavras capazes de defmí-Io não estejam presentes, o que facilita o ruído na recuperação da informação. Os métodos que utilizam as unidades complexas, se baseiam sobretudo na extração dos sintagmas ou de frases. Estas duas vias de realização desta atividade, ou seja os métodos baseados sobre os modelos estatísticos e igualmente sobre os modelos lingüísticos, serão mostrados em seguida. 3.1 Indexação automática baseada nos modelos estatísticos Segundo o professor Jacques Rouault (1987), os métodos estatísticos e probabilísticos foram os primeiros a ser utilizados no domínio da indexação automática. Eles se apoiaram sobre os modelos probabilísticos de freqüência de ocorrências e co-ocorrências das palavras em um texto o que lhes caracteriza como 250 �métodos quantitativos, naturalmente. H.P. Luhn, Van Rijsbergen et al. , 1. Spark e Gerald Salton, foram os primeiros à apresentar suas experiências neste domínio. A prática destes métodos consiste em uma contagem das frequências4 de ocorrência ou de co-ocorrência das palavras dos textos analisados. Depois as palavras candidatas a descritor são escolhidas em função de sua freqüência no texto, após a eliminação das palavras vazias. Em seguida elas são apresentadas em ordem alfabética decrescente ou crescente de acordo com a sua freqüência de aparição no texto. A partir dessa identificação é estabelecida uma freqüência mínima para escolher os conceitos que serão candidatos a representar os elementos que fazem parte do conteúdo do documento. A decisão de levar em consideração as ocorrências e co-ocorrências das palavras é justificada por LUHN 1959) quando diz que "a freqüência duma palavra em um texto fornece uma medida útil de representação da palavra no texto" [e que] "a co-ocorrência relativa, em uma frase, das palavras as quais foram afetadas com o peso da significação é uma medida útil de sua significação nesta frase. " Mesmo considerando de grande importância a utilização dos métodos estatísticos na atividade de indexação automática, ROUAULT (1977, p.61), menciona como inconveniente a dificuldade de "pesquisar se uma palavra M figurando em um corpus correspondente a um acervo é ou não um "bom" descritor." LANCASTER (1991) nessa mesma linha de raciocínio, assinala que a freqüência de ocorrência e co-ocorrência de palavras em um texto não deve ser o único parâmetro para determinar se elas são eficazes como representantes dos elementos pertencentes ao seu conteúdo. O conceito deficiente, por exemplo, pertencendo a um acervo especializado em Ciência da Informação pode ser um "hapax", palavra que aparece uma única vez ou raramente em um texto. Se nós levarmos em conta a freqüência de ocorrência e/ou de co-ocorrência ele vai ser considerado como de um valor informativo muito baixo, então não será considerada como um bom conceito e, naturalmente, ela não poderá ser escolhido. Ao contrário, os conceitos informação e biblioteca terão 251 �freqüência altamente representativas neste contexto e, portanto, serão escolhidos, mesmo que o conceito deficiente seja muito mais representativo. Assim, se faz necessário levar em consideração não a freqüência absoluta de ocorrência ou coocorreência das palavras sobre a coleção, mas a freqüência relativa das palavras com relação aos documentos, a uma parte ou todo o acervo. É preciso considerar a lei de Zipf pois ela admite que os conceitos pouco utilizados podem ser altamente significativos como indicadores do conteúdo do documento.(LANCASTER, 1991 ; EYMARD, 1992) Um outro inconveniente do tratamento estatístico é que ele não considera as variações de escrita de uma mesma palavra (secção=seção, enxerga=s' enxerga) e muito menos os homônimos e os sinônimos. Assim, segundo LALLICH & ROUAULT, (1995, p.46) o uso da análise estatística do texto demanda que seja feita anteriormente uma análise lingüística "mesmo mínima, como a segmentação em formas". Corroborando com essa linha de análise, FLUH (1992, p.112) diz que a linguística é fundamental para a indexação automática, pois é através dela que é possível: (i) "identificar as unidades significantes, quer elas sejam de um ou vários tipos de caracteres; • aproximar os sinônimos; • distinguir os homógrafos, etc." Os exemplos apresentados em seguida ilustram esses defeitos de uma indexação automática baseada unicamente nos modelos estatísticos. • Dada a expressão educação popular, o índice será constituído por duas entradas: educação e popular, o que muda completamente o sentido da expressão inicial; • Certas expressões polissêmicas como direito dos trabalhadores e trabalhadores do direito os terão índices constituídos por direito e trabalhadores. O resultado é a perda do sentido inicial das duas expressões 252 �• As formas derivadas que tenham a mesma raiz, constituirão entradas distintas no índice: veste, vestido, vestiário, vestir, vestimenta, o resultado é uma redundância nas entradas dos índices; • Os homógrafos apresentados em um documento e que, naturalmente, representam noções diferentes de sentido terão uma entrada única nos índices, o que acarretará o silêncio quando da recuperação da informação. Para que as entradas apresentem seu sentido real é preciso lhes desambuiguisa-las através da utilização dos modificadores. Linha fiada e tecida Porção de metal Corrente de líquido que cai sem despegar Ex.: Fio Bater um fio (telefonar) Por um fio (por um triz) Fio de pedra (meio fio) Estes poucos exemplos mostram os problemas que podem ser decorrentes da aplicação dos métodos de indexação automática de textos em linguagem natural baseados apenas nos modelos estatísticos, os quais contribuem enormemente para aumentar o silêncio no momento da recuperação da informação. Esta maneira de indexar é considerada como de baixo nível pois ela se baseia apenas no aspecto superficial do documento, ou seja, ela é centrada sobre os caracteres e não sobre o senso dos elementos que fazem parte do conteúdo do documento. Ora, como estes métodos levam em consideração apenas as frequências de ocorrência e co-ocorrência dos conceitos, naturalmente eles ignoram a semântica e outros aspectos lingüísticos. Como vantagens destes métodos consideramos : • a facilidade de colocar em funcionamento; 253 �• a possibilidade de uma boa utilização quando aplicados aos domínios científicos e técnicos cuja a terminologia é bem definida. Por exemplo à fisica, a matemática. Tomando consciência da pouca eficácia ou da ineficácia nos métodos estatísticos, foram desenvolvidos outros métodos que levam em consideração os aspectos lingüísticos cujo o objetivo é efetuar uma indexação e uma recuperação da informação bem mais eficaz. A seguir, serão apresentados os fundamentos teóricos destes métodos. 1.3.2 Indexação automática baseada nos modelos lingüísticos A atividade de indexação automática baseada nos modelos lingüísticos visa melhorar a pelformance da indexação e também da recuperação da informação em linguagem natural. Eles fazem uma análise lingüística sobre os textos, no que conceme aos aspectos morfológicos, sintáticos, semânticos e pragmáticos. Eles podem reconhecer as palavras compostas, os sintagmas, os sinônimos, as formas nominais, verbais e adjetivais e ainda reagrupam as formas conjugadas em uma única entrada. Segundo [BERRUT88], estes métodos podem melhorar a performance da recuperação da informação ao nível de: • interface homem-máquina; no momento da interrogação/demanda no sistema; • definição dos termos de indexação; eles podem ser vistos como unidades lingüísticas complexas, como os sintagmas nominais, em lugar dos unitermos; • respostas dadas aos usuários; elas serão diretamente ligadas às demandas do usuário através de um diálogo de perguntas respostas. Através da literatura sobre esta área verificamos que, normalmente a primeira etapa do tratamento do texto e da busca da informação é a correção ortográfica das palavras e das expressões. Em seguida são determinadas as unidades lexicais do documento, registrando-se os separadores (virgula, pontos, espaços brancos, etc.). A partir daí, é possível estabelecer o reconhecimento morfológico dos termos 254 �(desinência verbal, grupo nominal), o reconhecimento semântico, entre outros [LANT1994]. Estas análises são apresentadas em seguida. • análise morfológica: ela faz o reconhecimento das diferentes formas de palavras no texto. Seu objetivo é de assegurar a cada forma una analise morfológica (categoria e valor da variável do singular ao plural, a lematização dos verbos conjugados - passando ao infinitivo - em outras palavras, as passagens das formas conjugadas em um lema, como as entradas nos dicionários - forma canônica). Ela pode ainda corrigir as formas ortográficas e tipográficas Ex: Indexar, indexei, indexamos (tempo, modo e pessoa) Subterrâneo - sub+terra+aneo (prefixo, radical, sufixo) • análise sintática: tem como objetivo a decomposição das frases en unidades sintáticas, do tipo sujeito, verbo e complementos e resolver as ambiguidades gramaticais (homógrafos) através de um conjunto de regras (gramática de reconhecimento da língua) e reagrupa as palavras em síntagmas. Ex: Eles são uma figura Eles-pronome não, substantivo São-verbo ser não, substantivo Uma-pronome indefinido não, numeral Figura-substantivo não, verbo figurar • análise semântica: tem como objetivo determinar o senso da palavra e igualmente das frases (no contexto no qual elas inseridas, ou seja ela mete em evidência as situações do mundo real). Estabelece a proximidade entre as palavras através da ligação existente entre elas e resolve as ambigüidades. Ex: O cachorro do Alfredo continua na bebedeira 255 -- ·--- �, o cachoro de Ana é simpático Maria comeu o cachoro e passou mal • análise pragmática: seu objetivo é estudar a significação em um contexto prático do conhecimento ou seja em um domínio de aplicação. Por exemplo a palavra moto, pode ser analisada segundo a sua origem, seu emprego em uma frase, em um texto (signicicante), ou segundo a sua descrição, função etc. (significado). Na pragmática ela será normalmente associadaà liberdade, à juventude. à acidente. • Além disso, identifica os sinônimos e antônimos. Utiliza o tesauros para facilitar a identificação das palavras e a relação existente entre elas e contribui para melhorar a indexação e a recuperação da informação, de um lado. De outro, eles podem não ser adaptados a certos domínios do conhecimento, por exemplo no caso da literatura técnico e científica é possível que eles não sejam 100% apropriados, pOlS as terminologias próprias de cada domínio estão constantemente evoluindo e os tesauros nem sempre são atualizados ou o pior, existem certos domínios que ainda não são cobertos pelos tesauros; Mansour ELGHOUL [ELGHOUL90] Considera como vantagens destes métodos: • a aplicabilidade em uma lingua determinada, pois as especificidades de cada língua exigem tratamentos específicos; • a facilidade de comunicaçao entre o usuáario e o sistema em linguagem natural, pois eIs tem possibilidades de indicar o senso as palavras; • a eficácia, quando aplicadas à textos curtos Como inconvenientes o autor cita as necessidades seguintes: • a criação, o funcionamento, a manutençao, etc. dos dicionáarios/lexicos, • a escolha de um modelo de gramática contendo as regras da língua do sistema; 256 �• a concepção de algoritmos adaptados aos analisadores morfológicos e sintáticos [ELGHOUL90]. Finalmente, temos consciência que as proposições apresentadas aqui talvez não tragam nada de novo para o domínio da indexação, contudo, elas poderão servir de base como ponto de reflexão por parte dos tomadores de decisão com relação ao estabelecimento das políticas de indexação de suas instituições, pois estas não podem ser defInidas isoladamente da missão e dos objetivos da instituição e nem sem um estudo das necessidades de sua população alvo. E mais ainda, ela deve ser descrita em um manual de serviços, pois desta forma muitos constrangimentos poderão ser evitados à medida que a maneira de indexar poderá ser normalizada e assim quem sabe o barulho e/ou o silêncio durante a Recuperação da Informação poderão ser bem menores. 1.3.3 Softwares de Idexação Automática O avanço das pesquisas sobre o domínio da indexação e da recuperação automática da informação é um fato notório na nossa sociedade. Isto pode ser observado através dos vários softwares comercializados e também dos que restam ainda como protótipos. Assim, convivem no mercado informático, tanto os sistemas desenvolvidos com bases nos modelos estatísticos como aqueles apoiados sobre os modelos lingüísticos ou ainda os chamados sistemas mistos, os quais fazem o tratamento, tanto utilizando a lingüística, quanto a estatística . A seguir, apresentaremos alguns exemplos de sistemas de indexação automática: a)O SMART OSMART é um sistema de indexação automática e de recuperação da informação, proposto por Gerard Salton. Ele se baseia nos modelos lingüísticos e estatísticos. 257 �, No sistema SMART, [SALTON7l], considera o espaço documentário como um conjunto D={Dl, D2, D3 , ... Dn} , onde a representação de cada documento é constituida pelo conjunto de descritores d={dl, d2, d3 , ... , dn} . O conjunto dos vetores d, assim como os coeficientes de semelhança que medem as distâncias entre dois documentos vai se constituir no chamado espaço documentário. Assim, quanto mais os documentos forem próximos, maior será o valor do coeficiente. Este sistema procede a análise estatística através dos passos seguintes: l.inicialmente faz a contagem das palavras; 2.a partir dessas palavras, ele processa o cálculo de semelhança entre os documento; 3.em seguida ele obtém as relações semânticas entre as palavras; 4.utilisa um valor chamado de discriminação para distinguir os descritores que poderão dispersar o espaço documentário; 5.calcula a semelhança média entre os pares de documento; 6.defini a densidade do espaço documentário; 7.aplica um coeficiente de pertinência dos documentos No SMART, existem quaisquer critérios diferentes para que possamos estabelecer a coincidência, com a ponderação de termos, cujo o objetivo é representar a taxa de ocorrência em uma base de dados, a coincidência das expressões e igualmente a coincidência entre as raízes das palavras. Ele possibilita, ainda, a « retro alimentação de relevância », ou seja, o usuário poderá mostrar os termos relevantes e não relevantes e em seguida os pesos dos termos da base de dados. Nessa proposta, Salton considera que os melhores vetores d, são aqueles cuja freqüência é considerada média. b) O sistema ALETH O ALETH é um sistema de indexação e de recuperação de informação que foi desenvolvido pela Societé d'Etude det de Recherche en Linguistique et Informatique-ERLI. A partir de 1983, este sistema substitui o anterior ALEXIS (LEXIcal System). Seu objetivo é de garantir as aplicações lingüísticas, 258 �terminológicas e documentárias através das gestões dos dicionários, das de ajuda a indexação e também das de ajuda à interrogação. As gestões documentárias e dos tesauros são realizados pelos Sistemas de Gestão de Bases de Dados (SGBD) relacional, que possibilitam uma resposta mais eficaz. Este sistema se apoia sobre quatro ferramentas: 1) um tesauros, para a indexação e também para a demanda de informação. 2) um dicionário da língua, para facilitar a análise lingüística 3) as regras gramaticais, que facilitam as análises das frases 4) as regras de produção, que possibilitam as ligações entre o dicionário e o thesaurus • Antes do traballio de indexação, o ALETH efetua as análises morpológicas, sintáticas e semânticas e ainda utiliza as regras gramaticais. • As análises morfológicas reconhecem as palavras, as expressões e eliminam as ambigüidades. Aqui o analisador utiliza as regras de derivação morfológica para reconstituir as palavras compostas a partir de um conjunto de palavras dispersas, e as regras de flexão para passar de uma forme primitiva a uma derivada. Estas regras são aplicadas as variações de gênero e de número para substantivos, adjetivos, particípio etc.; • As análises sintáticas dividem os textos em sintágmas; • As análises semânticas traduzem os léxicos em unitermos que não são as entradas do tesauros; As regras são: • -regras de desambiguisação; determinam o tipo gramatical extraído de um léxico, • -regras semânticas; partindo do dicionário e do tesauros e aplicando as regras da língua,o ALETH identifica as palavras em função de sua existência tanto no dicionário quanto no tesauros; • -regras que identificam os termos compostos • -regra que eliminam os termos não descritores. 259 �Este sistema, oferece como vantagens o tratamento lingüístico dos textos e também a possibilidade de traduzir as buscas em linguagem natural, para uma linguagem documentária, oferecendo ainda a possibilidade de modificar a estratégia de busca, através da lógica boleana. eLO projeto SYDO(Sistema Documentário) O SYDO é um projeto cooperativo desenvolvido entre os centros de pesquisa das Universidades de Lyon 1, Lyon 2, Grenoble lI, Frigurg(Suissa), e dos Centros de Documentação da Merlin Geran à Grenoble e o Centro Cancemet à Paris. Ele foi desenvolvido sobre a direção dos Profs. Jacques Rouault e Richard Bouché. Os objetivos do SYDO visam construir um modelo lingüístico de análise do francês especificamente um analisador morfossintático, e extrair os candidatos à descritor através da indexação automática e da busca do usuário. Ele favorisa o tratamento lingüístico e estatístico. O tratamento lingüístico se processa através da análise morfossintática; a qual realiza uma indexação baseada nos sintagmas e cujo o objetivo é de construir o tesauros. O tratamento estatístico vem complementar a análise lingüistica e é realizado através dos seguintes procedimentos: • constitui-se uma amostragem, não ambíguo de certas frases e após a análise morfológica, efetua-se uma contagem parase obter a freqüência bruta de ocorrência de cada categoria morfológica. Em seguida o sistema constrói uma matriz quadrada, na qual cada elemento Ai, j corresponde ao número de ocorrências dos pares (Ci, Cj) referentes a duas categorias morfológicas consecutivas em um documento textual; • para examinar o grau de freqüência das categorias, o sistema faz o cálculo da distribuição das categorias morfológicas. • Dependendo do resultado, modifica-se o modelo morfológico; • a matriz quadrada é transformada em uma matriz de dependência levando em consideração o número total das unidades léxicas da amostra N, Pi, a freqüência 260 �de aparição da categoria Ci correspondente ao primeiro elemento do par, assim como também aquela na qual aparece a categoria Cj como ultimo elemento de um par. Assim se constrói uma tabela de contingência para os pares (C i, Cj) conforme a tabela seguinte. A vantagem deste sistema é a possibilidade de tratamento estatístico e lingüístico, mas infelizmente ele continua como protótipo d) O sistema SPIRIT O SPIRIT (Sistema Probabilístico de Interrogação e Recuperação de Informação Textual), é um sistema francês desenvolvido pelos pesquisadores A. Andreewesky e Christian Fluhr. Ele é um sistema multilíngue de indexação automática de texto integral e de recuperação de informação, em lingua natural. Para essas duas funções ele utiliza dois programas: um de análise gramatical e outro de cálculos estatísticos, ou seja ele se baseia sobre os modêlos estatísticos e lingüísticos, portanto é um sistema misto. Este sistema possui um dicionário com 500.000 entradas em versão francesa, mais de 100.000 em versão inglesa, mais 600.000 em versão árabe e agora procura trabalhar a língua portuguesa. O SPIRIT é considerado como um sistema misto, à medida que procede o tratamento lingüístico e estatístico os quais serão apresentados à seguir: O tratamento lingüístico do SPIRIT se processa através das fases seguintes: o recorte do texto, a análise morfológica, o reconhecimento das locuções, uma análise sintática, eliminação das palavras vazias e a normalização 1) o recorte do texto; através das regras lingüísticas, o SPIRIT procede o recorte dos textos extraindo o conjunto de caracteres separados por espaços ou pelos sinais de pontuação; 2) análise morfológica; através da consulta aos dicionários ela reconhece dos sinônimos, dos erros tipográficos, das formas primitivas (não flechiés) e de suas formas derivadas (flechiés)da mesma categoria gramatical. Reconhece as formas 261 �derivadas de uma mesma raiz que tenham um mesmo perfil semântico, mesmo que não sejam da mesma categoria gramatical; Ex. cabra, cabralia, cabrocha, 3) análise sintáticaldesambiguisação; efetua a desambiguisação dos termos homógrafos e reconhece as expressões de relação de dependência, por exemplo grupos de palavras, palavras compostas; 4) o reconhecimento das locuções; graças ao dicionário de expressões idiomáticas, procede o reconhecimento das locuções; Ex. A medida que, com relação à; 5) eliminação das palavras vazias; através dos critérios gramaticais e morfológicos, elimina as palavras vazias; Ex. conjunções, preposições 6) normalização; através do dicionário principal é possível encontrar um modo de representação e de limitar o número de entradas no tesauros. Assim a normalização pde ser feita em vários níveis: F orma flexionaI Ã forma canônica Ex. mangas Ã manga (substantivo) mangas Ã mangar (verbo) Sinônimo Ã termo preferencial Ex. livros (substantivo) Ã obras Forma derivacional A forma de base Ex. afixaram Ã afixo Ortografias diferentes Ex. O.N.U Ã ONU O tratamento estatístico do SPIRIT se funda na matemática (baysiana) e calcula a função e o peso de cada palavra do texto. Assim, baseado na fórmula da entropia, o sistema procede o cálculo segundo a fórmula seguinte: Peso(M i ) = log 2 N -H{:M; )+1 262 �Onde: N= número de documentos do acervo Mi=uma palavra ou um conceito dado í H(Mi)=função transformada da fórmula da entropia Assim teremos a fórmula seguinte como resultado: Onde: Dj désigna o documento j P(Dj/Mi) é calculado através de uma fórmula que se assemelha à forma baysiana p( M)p·(D j) Dj) ~D~j_ ( i P Mi ~ :i)( M )P.(D i K.-l DK K ) Onde: p* representa uma grandeza proporcional à extensão da ponderação do documento e homogênea a uma probabilidade O SPIRIT apresenta como vantagens: • a busca em linguagem natural; • resultado das buscas é apresentado segundo o grau de pertinência dos documentos encontrados; 1.0 tratamento lingüístico das informação textuais. Os inconvenientes deste sistema são: • pouca interatividade; • ausência de ajuda semântica aos usuários, embora possua o dicionário; • ausência de ferramentas de ajuda à indexação 263 -- -- --- �e) O sisteme CLARlT O sistema CLARlT (Computational Linguistics Aproaches to Indexing and Retrieval of Text), é um sistema americano de indexação automática de textos integral e de recuperação de informação. Ele foi desenvolvido por D.A.EVANS pesquisador do Laboratório de Lingüística Informática à Universidade Carnegie Mellon-Pittsburg. Ele tem como base os modelos estatísticos e lingüísticos, portanto, está enquadrado como um sistema misto. Este sistema possui um dicionário de termos, chamado Thesaurus de Primeira Ordem o qual é constituído por sintagmas nominais normalizados ao nível morfológico. Ele é organizado hierarquicamente através das relações genéricas e de proximidade e extrai as frases mais importantes do texto em língua natural e cria igualmente uma lista de NPs (não frases). Mas, infelizmente, o CLARlT não defme as relações semânticas existentes entre os termos individuais. Segundo [PAIJMANS93], ele é um sistema de indexação derivada e seletiva que, extrai dos documentos, os sintagmas nominais e em seguida lhes compara com os descritores do tesauros e depois apresenta uma lista de termos segundo três categorias: os termos exatos, os gerais e os novos. O termo é considerado exato, se existir uma perfeita coincidência entre ele e os termos do tesauro; ele é geral, se coincide em parte ou se ele é um sub-termo do tesauros; os termos são novos, quando não há coincidência à algum termo do tesauros. A figura a seguir, mostra um exemplo destes categoria de termos com os seus respectivos pesos de cada palavra a direita de cada coluna. 264 �.....= .....= . . .~ . rlT~e~ rm ~~= ~.=. ~=·· ~= ~O=·~=···===·=·····= ·····=· ·····=.·. = .....=.....=.....= ... 'rr T~ erm == o= sEx -atos ~'=" ""='''''=''·''=··~·''~. T~ e= rm ~o~ sGer-ru' s~'=""'=""'=""'= " "'=""'=" "'="".= r""""---------, '-----·----~---T---'-'-;;..-'-------_---::.: 2.322 nasdaq 115.392 petroleun 1.161 est i 5.392 pmewswire 2.696 pmewswire 0.387 toronto :!0.928 asset 0.122 giant 0.379 wholly owned 110.928 subsidiary incorporated ~! ............. ...................................................... ...... ..... ~ t............. FIG. Indexação 0 .0 • 0.0 ••• 0.0 _ . . • • • • • • •• a 12.818 pmewswire giant • • •, . , . , . ,.". . . . . . . . . . . . partir do • • • • • • • • • • • • • • • • • • • • • • 0.0 •••• • • • • • • • • • CLARIT 11.985 pacific petroleun subsidiary i • •••••••••• i. o • • • • • • • • • • • 0'0 • • • • • • • • • • • • • • • • • • • • • • • • • • • • 0'_ • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • _ baseada no texto .0 • • • • • • • • • • • • • • • ' . de [[PAIJMANS93 :386] A indexação do sistema CLARIT perpassa pelas etapas seguintes: 1.Pré-tratamento ou formatagem 2.Primeiramente ele formata, integralmente, o texto do documento, utilizando os delimitadores para separar suas unidades de informação. Esses delimitadores podem ser criados de acordo com as necessidades. Por exemplo, um delimitador cuja a seqüência de caracteres é «/*» indica o início e o fim de um artigo. Além destes, outros delimitadores poderão ser criados, de acordo com as necessidades do usuário. 3. Tratamento lingüístico Para extrair os sintagmas nominais, candidatos à representar os elementos indicadores do conteúdo do documentos o CLARIT efetua as análises morfológicas, as sintáticas e a desambiguização. A análise morfológica do texto é feita através do programa MORPH e compreende a análise flexionaI e derivacional. Ela apresenta as unidades lexicais e as categorias. A análise sintática é feita à partir da lista de escolha e passada no STA T- para (o analisador sintático) no qual a gramática identifica os constituintes dos sintágmas em "cabeça" e «os modificadores » distinguindo as classes que serão automaticamente eliminadas da posição de 265 �"cabeça". Por exemplo na expressão "uns dos estudantes", o sistema eliminará automaticamente o termo "um dos" conservando "estudantes" como a "cabeça" do índice. A desambiguização permite que os termos (sintagmas) tenham somente uma, portanto o sistema oferece uma lista de escolha. 4. A fIltragem A filtragem do CLARIT é feita a partir dos termos da lista dos sintagmas nominais candidatos que foram obtidos à partir dos tratamentos lingüísticos. Ela permite a criação de um índice de acordo com as categorias de termos exatos, gerais, e novos. Esta fIltragem se realiza em duas etapas: a etapa de atribuição do valor aos termos candidatos e a etapa de aparelhamento. I. Inicialmente, são atribuídos, aos termos candidatos, os seus valores de acordo com a freqüência, a distribuição e a raridade. Para estes cálculos das freqüências, leva-se em consideração o tamanho do texto: t TRS= frequencia z + distribuiçao z + raridade j z~ n a) documentos muito curtos (questões e os sintágmas) calcula-se a freqüência através da fórmula seguinte: b) documentos curtos(resumos) 266 �-- - - -- - ------ c) documentos longos(artigos, capítulos de livros) Onde: Wid=nÚIDero de ocorrência da palavra i no documento d. WiD=número de ocorrência da palavra i em um corpus representativo do domínio tratdo W d=nÚIDero de palavras no documento d WD=número de palavras no corpus D A distribuição é baseada em um domínio do corpus e é calculada através da formula seguinte: IDF=Inverse Document Frequency dD=número de documentos de D di=número de documentos de D que contem a palavra i Observação: Quando o valor do IDF é elevado, significa que as palavras são específicas de um certo domínio, entretanto, quando ele é baixo é porque as palavras são gerais a um domínio. A raridade corresponde à medida de freqüência das palavras em inglês, geralmente. A fórmula para este cálculo é a seguinte: MWE= freqüência mediana das palavras e um corpus de termos comuns WiE = número de ocorrências da palavra i no corpus 267 �11. A etapa de parelhamento compara os termos candidatos com a lista de termos certificados que é o tesauros de primeira ordem. Este tesauros apresenta as relações hierárquicas do tipo: "próximo de" (relacionado) e "amplo"(genérico), para fornecer a lista dos termos exatos, gerais e novos Finalmente, o CLARIT é um sistema que utiliza a indexação derivada, portanto a linguagem natural, ou seja os termos são extraídos diretamente do documento. Esta maneira de indexar pode ser considerada flexível, porque ela segue as evoluções terminológicas naturais do conhecimento através da redação dos textos. Com isto é muito mais fácil a manutenção, o que é uma das vantagens deste sistema. Como inconveniente, o sistema apresenta a dificuldade de colocá-lo em prática. e) O sistema TOPIC O sistema TOPIC anteriormente chamado RUBRIC, é um sistema de tratamento automático da informação de texto integral, desenvolvido pela Société Verity Inc. Além das ferramentas de indexação este sistema possui também as de recuperação da informação e uma interface para as buscas interativas [PAIJMANS93]. O sistema possibilita a criação de um arqUIVO invertido, completo, dos «topics» (conceitos) de ocorrência em um documento, ou seja, os elementos informativos de um parágrafo ou uma parte específica do documento são preservadas neste arquivo. Ele também permite que os usuários criem os «topics» determinando os pesos de suas escolhas. A apresentação deste «topics» é em forma de árvore com vários níveis hierárquicos, baseados em uma relação lógica do tipo gênero/espécie, todo/parte e são retidas na memória com o objetivo de ser utilizada por outros usuários. Mas, nem sempre elas são aceitas, pois as necessidades dos usuários são específicas a cada um, portanto, raramente coincidirão. 268 �----------- - -----~ - Além destas relações, o TOPIC pode ainda, representar as relações associativas entre os conceitos as quais são divididas segundo as categorias seguintes: • as relações paradigmaticas, as quais definem os campos lexicais mostrando as relações de semelhança, substituição ou de equivalência. Aqui nós observamos a semelhança com os tesauros; • estudo dos contextos, o qual compreende as palavras ou locuções, marcadas principalmente por uma relação de complementaridade, de implicação. Neste caso, os contextos tem como objetivo, de um lado, a língua na qual se efetua a busca, e de outro, os textos que são interrogados. Essas hierarquias semânticas tem uma importância fundamental no caso das polissemias, pois elas facilitam o reconhecimento do senso das palavras segundo o contexto no qual elas aparecem. Assim, as palavras podemos ser escolhidas à partir do conhecimento que se tem do contexto onde elas se encontram. Com relação ao tratamento morfológico, o sistema permite também que se encontre a aproximação do senso das palavras, portanto, por meio da troncatura é possível pesquisar as famílias das apalavras e também escolher aquelas que se tem necessidade. Ex. Index, indexar, indexação No TOPIC, também é possível criar e gerenciar várias bases de dados, tanto constituidas por referências bibliográficas, quanto de texto integral, de Índice ou mesmo de arquivar descritores que indicam a estrutura e o lugar dos documentos. Neste sentido ele permite as operações de indexação e de descrição. As operações de descrição se processam sobre as partições e são constituídas de duas etapas. A primeira, trata-se da segmentação do texto em diferentes zonas (dados textuais, numéricos, gráficos, etc.). Na segunda, os textos são estruturados segundo suas zonas, por exemplo corte por campos bibliográficos (autor, titulo, data, editor, 269 �-------------------- etc.). Assim, a base TOPIC, é composta por um conjunto de informações concernentes a uma coleção documentária, constituída do conteúdo dos documentos, de seu formato e de sua localização. Esta forma de tratar os documentos apresenta as seguintes vantagens: a) independência e localização dos documentos permitindo que eles conservem seu formato original e quando demandados o sistema identifique as informações sobre suas partições para encontrar o documento sobre a rede. Depois, ele reformata automaticamente este documento sobre uma forma possível de afixar em função da plataforma cliente utilizada para que o usuário possa lhe visualizar; b) o TOPIC facilita uma pesquisa incrementaI onde os documentos são encontrados segundo a partição, cujo os primeiros são imediatamente explorados e assim sucessivamente, até a elaboração da lista final ; c) com relação a administração das bases de dados, o TOPIC pode ser considerado um sistema flexível e parametrizável, pois as partições são as entidades individuais, que podem ser criadas, somadas, atualizadas ,ordenadas ou suprimidas independentemente ou simultaneamente umas das outras, portanto elas otimizam a gestão administrativa. A prática da indexação no TOPIC A indexação proposta pelo TOPIC é classificada como indexação derivada e fornece, inicialmente uma lista alfabética de todas as palavras contidas em um documento com suas posições nos respectivos documentos. Esta lista vai se constituir nos arquivos invertidos que são compostos por cada termo registrado. A cada termo é associado uma lista de pares identificando seu arquivo e sua posição nos respectivos arquivos. Em um segundo momento, o sistema organiza um índice dos conceitos fornecidos pelo usuário e que vai se constituir nos índices de segundo nível. Este índice permite aumentar a velocidade da pesquisa à medida que ele é utilizado pelos módulos de pesquisa do TOPIC para encontrar todos os documentos relativos aos conceitos do assunto demandado. A prática da busca de informação 270 . �No TOPIC a busca se efetua por conceitos «topics», de acordo com o seguinte procedimento. Inicialmente, o usuário explica o senso dos conceitos, em seguida os cria e termina com a interrogação no sistema. Mas, para criar um conceito, é preciso fazer atenção aos aspectos seguintes: Com relação ao TOPIC, um conceito é constituído de três elementos principais: a estrutura, as ponderações e as operações lógicas. A estrutura define as relações hierárquicas entre as palavras, sub-conceitos e os sintagmas que formam o conceito. As ponderações favorecem a indicação da importância relativa das palavras, sub-conceitos ou sintagmas, com relação aos diferentes ramos composantes do conceito. Ele pode, igualmente utilizar as ponderações fornecidas pelo TOPIC. É através das ponderações que o sistema poderá colocar em prática os algoritmos para calcular a pertinência dos documentos encontrados. Os operadores lógicos são fornecidos pelo sistema e possibilitam que o usuário faça uma escolha daqueles que poderão melhor contribuir para sua demanda. Os operadores lógicos são classificados como: a) Os operadores de conjunção ou de produto lógico, demandam que todos os termos ou todos os conceitos ligados pelos operadores, sejam presentes no documento. Esses operadores são; « AND, ALL, PARAGRAPH, SENTENCE, PHRASE». Os operadores «AND» e « ALL», são verdadeiramente lógicos, entretanto, os outros são algumas vezes lógicos e de proximidade; b) Os operadores de união lógica ou disjunção, não exigem que um só dos termos ou dos conceitos sejam presentes no documento. Os operadores são; «OR, ANY, WORDGROUP». c) O operador «ACCRUE», SaIU da lógica booleana e permite avaliar a pertinência com relação a um conceito em função da presença relativa em um documento das palavras que servem para definir os conceitos. 271 I �- --- - --- - - Após estas operações, os conceitos são criados e podem ser utilizados para lançar as buscas, salvar enquanto que conceito privado, utilizado para construir outros conceitos mais elaborados, ou ainda disponíveis para outros usuários. Assim, o resultado de uma busca por conceitos é uma lista correspondente aos documentos, com os seus respetivos pontos. Nesta lista, os documentos mais pertinentes aparecem em prunerro lugar, permitindo o acesso imediato à informação. A possibilidade de busca por conceitos oferecida pelo sistema TOPIC, é abrangente, e não importa o perfil do usuário, portanto, ele pode atender tanto um grande publico, quanto um especialista, entretanto, quando se trata de uma aplicação bem precisa, os conceitos são definidos por um especialista de informação. 4 CONCLUSÃO Nossa problemática, neste trabalho, foi apresentar o estado da arte da indexação, mostrando o seu conceito, sua prática, os tipos de indexação manual, automátique e semi-automática e' alguns sistemas de indexação automática. Nós observamos que graças à interdisciplinaridade da ciência da informação, notadamente, com a informática, a estatística, a lingüística, e a psicologia cognitiva, o campo da indexação evoluiu bastante durante estes últimos 30 anos. Esta evolução é bem conhecida através da literatura quando observamos que inicialmente, as experiências foram calcadas em uma prática manual simples e de forma intuitiva, cujo o objetivo era fornecer um conjunto de palavras que fossem capazes de oferecer algumas pistas para o usuário encontrar o documento que ele tinha necessidade. Com esta mesma visão foram desenvolvidos os primeiros sistemas de indexação automática, os quais se baseavam nas palavras dos títulos do documento (Índices KWIC) Em seguida surgiram os sistemas baseados nas freqüentes de ocorrências e concorrências das palavras no documento, mas não se preocupavam com os aspectos lingüísticos, ou seja eram apoiados nos modelos estatísticos e probabilisticos. A partir daí, foram 272 �- -- - -~------- desenvolvidos os sistemas de indexação apoiados nos modelos lingüísticos, os quais visam sobretudo evitar distorções semânticas, sintáticas e pragmáticas Entre estes últimos modelos, encontramos os igualmente destinados aos tratamentos ds textos integrais, ou seja de documentos eletrônicos. Outra constatação é que atualmente estão disponíveis no mercado alguns sistemas de indexação automática mais eficientes, à medida que se apoiam nos modelos estatísticos e lingüísticos, e o resultado é uma indexação mais eficaz. Outra vantagem é que entre este sistemas encontramos aqueles dedicados tanto à indexação, que a recuperação da informação, o que mostra que este domínio está em constante evolução. Contudo, o assunto em questão ainda não foi capaz de resolver os problemas do tipo diferentes maneiras de escrever uma palavra (se enxerga, s'enxerga, secção, seção), os homógrafos etc. 1 Este trabalho constitui-se na Segunda parte de um estudo sobre indexação. A primeira parte versa sobre as teorias de indexação e indexação manual, publicada na revista « Olhar Midiático : Informação e Comunicação, do Departamento de Comunicação Social e Biblioteconomia da UFC, v.l, n.2 , 1998. 2 Professora do Depto. de Comunicação Social e Bibliotecon. Dotoranda em Ciência da Informação e da Comunicação na Universidade Stendhal-Grenoble-3France 3 Chamado por GADINE (1974) « dicionário negativo ». Em inglês, « stop list ». 4 As freqüências das palavras podem se apresentar na seguinte ordem: baixa, média e alta. As palavras se apresentam de três maneiras: raras, candidatas à descritor e úteis. As que o valor das freqüências se encontram entre alta e baixa são candidatas a descritor. Aquelas cuja a freqüência é alta são consideradas como palavras úteis e as demais são as raras. 273 �--- . ------ R EFERENCIAS BmLIOGRAFICAS BERTRAND, A.(1993), Compréhension et catégorisation dans une activité complexe, indexation de documents scientifiques. Toulouse. These de doctoral, Université de Toulouse le MIRAI L BERRUT, C.(1988) Une méthode d'indexation fondées sur I'analyse sémantique de documents spécialisés. Le prototype RIME et son application à un corpus médical. These de doctorat, Université Joseph Fournier BOUGNOUX, CHAUMIER, J.(1990), L'indexation documentaire; de l'analyse conceptuelle humaine à l'analyse automatique morphosyntaxique. Documentaliste, vo1.27, n.6., p.275-284, nov.dec. CHE(1995) CLEVELAND, (1997) CUNHA, I.M.R.F.(1990), Análise documentaria. In: SMIT, J.W. Análise documentaria :análise da síntese. Brasília: mICT ELGHOUL, M. (1990), Méthodologie de conception d'un siad pour la gestion documentaire:aide a I'indexation, aide a la construction du thesaurus, aide a la recherche et aide a I'apprentissage. Paris: These de doctorat Université Paris Dauphine U.F.R Sciences des Organisations,.215p. EVANS, D.A.(1991), A summary of de c1arit project. Technical report n.cmuIcI-91-2. Laboratory for computational Iingusitics, Carnegie Mellon UniversityPittsburg,: 12p. ___ .(1991), Automatic indexing using selective NLP and frist-rdre therauri. In: RIAO ' 91, apr. 2-5. Barcelone, Autonoma Univerity ofBarce1ona, p.624-644 _ _ _(1994), Clarit-tec experiments. Laboratory for computational linguistics Carnegie Melon University _ _ _(1991), Mapping vocabularies using 'Iatent semantics'. Laboratory for computational linguistics Carnegie Melon University. Raport n.cmu-IcI 91-1, july EYMARD, G. (1992), Traitement documentaire des sommaires: des mots-c1és à I'extration de connaissances. Application à une documentation technique. Grenoble: L'Université Pierre Mendes-France-Grenoble-II-These de doctorat. 274 �FERREIRA, A.B.H. (1986), Novo dicionário da língua portuguesa. Rio de Janeiro: Nova Fronteira. p. 1592 FIDEL, R.(1994), "User-centered indexing", JASIS, v.45, n.8" p.572-576 FLUHR, C.(1992) Le traitement du langage natural dans la recherche d'information documentaire. Les interfaces intelligentes dans l'INIST. Rapport INRIA FLUHR, C.(1981), « SPRIT systeme probabiliste d'indexation et de recherche d'informations textuelles », In: ADBS & ANRT-IDT 81, Versailles, pp.113116 ___(date a préciser), «Le traitement et I'interrogation des bases de donnes textuelles », informatique et droit en Europe, ed. de l'Université de Bruxelles, éditions Bruylant, pp.97-114 GARDIN (1974) Les analyses des discours. Neuchâtel:Delachaux et Nestlé HERSH, W. R., HICKAM, D.H., LEONE, T.J. (1993), "Words, concepts or both: optimal indexing units for automated information retrieval." In: Proceedings SCAM 93. p.644-648 KIM, H.-K. (1997), Détection automatique des mouviments de caméra et des régions de textes pour la structuration et I'indexation de documents audiovisuels" . Toulouse: L'Université PAul-Sabatier de Toulouse. KURAMOTO, H.(1998), Proposition d'un systeme de recherche d'information assisté par ordinateur, avec application à la langue portugaise. Lyon: l'Université Lumiére-Lyon 2-These de doutorat à apparaitre. LALLICH-BOIDIN, G. et ROUAULT, J. (1995), Coopération statistiqueIinguistique:pour I'analyse textuelle. In; Joumées d'analyse de données textuelles, Rome, LANCASTER, F.W.(1991), Indexing and abstracting in theory and practice. London:Library Association. LANCASTER, F.W.(1979), Information retrieval system characteristies, testing end evolution. New York, John Wiley. 381p. cap.l, p.I-14 LANTEIGNE, D.(1994), "Prolégomenes au développement d' un systeme d'aide a l'indexation de monographies", ICO, v.6. n.I-2, p.41-50 275 �-- - - - -- LE GUERN, M. (1982), Les descripteurs d'un systeme documentaire:essai de définition, In: Actes du colloque traitement automatique des langues naturelles et systemes documentaires. L'Université Clermont Ferrand. p. 163173. ____ .(1991)"Un alalyseur morpho-syntaxique pour l'indexation automatique." Le français moderne. v.59, n.l, p.22-35 LEVI, P. (1997), L'intelligence collective: pour une anthropologie du cyperspace. Paris;La découverte/Poche.p.21 ; 24 LUHN, H.P. (1959), Keyword-in-context index for technical Iiterature (KWIC index). Ney York, IBM. _ _ _(1995) PAIJMANS, H.(1993) «Comparing the document représentations of two IR systems:clarit and topic». JASIS, v.44, n.7, p.383-392 ROUAULT, 1. (1987), Linguistique automatique. Applications documentaires. Beme: Peter Lang. 309p _ _ _ _(1994), Interfaces et systemes d'information. Grenoble, CRISS. SALTON, G. (1971) The SMART retrieval system; experiments in automatic document processing. Englewood Cliffs, N.J:Prentice-Hiall SMIT, 1.W.(1989) "Análise documentaria :analise da sintese". Brasilia:IBICT 276 - � Dublin Core The Dublin Core metadata element set is common to all Omeka records, including items, files, and collections. For more information see, http://dublincore.org/documents/dces/. Title A name given to the resource SNBU - Edição: 10 - Ano: 1998 (UFC - Fortaleza/CE) Subject The topic of the resource Biblioteconomia Documentação Ciência da Informação Bibliotecas Universitárias Description An account of the resource Tema: O Capital Humano e o seu Desenvolvimento Contínuo Creator An entity primarily responsible for making the resource SNBU - Seminário Nacional de Bibliotecas Universitárias Publisher An entity responsible for making the resource available UFC Language A language of the resource pt Type The nature or genre of the resource Evento Coverage The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant Fortaleza (Ceará) Event A non-persistent, time-based occurrence. Metadata for an event provides descriptive information that is the basis for discovery of the purpose, location, duration, and responsible agents associated with an event. Examples include an exhibition, webcast, conference, workshop, open day, performance, battle, trial, wedding, tea party, conflagration. Dublin Core The Dublin Core metadata element set is common to all Omeka records, including items, files, and collections. For more information see, http://dublincore.org/documents/dces/. Title A name given to the resource Indexação automática e semi-automática 1. Creator An entity primarily responsible for making the resource Pinto, Virginia Bentes Coverage The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant Fortaleza (Ceará) Publisher An entity responsible for making the resource available UFC Date A point or period of time associated with an event in the lifecycle of the resource 1998 Language A language of the resource pt Type The nature or genre of the resource Evento Description An account of the resource Nos últimos 30 anos a indexação documentária tem sido a área da Ciência da Informação que mais evoluiu. Esta evolução está estritamente ligada às mudaças de paradigmas que ocorrem an nossa sociedade, indipendente do domínio do conhecimento. Este trabalho constitui-se na segunda parte do trabalho sobre indexação, enquadra-se nestas mudanças e trata da automática e semi-automática, apresentando alguns exemplos de sistemas de indexação automática.