<?xml version="1.0" encoding="UTF-8"?>
<item xmlns="http://omeka.org/schemas/omeka-xml/v5" itemId="6352" public="1" featured="0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://omeka.org/schemas/omeka-xml/v5 http://omeka.org/schemas/omeka-xml/v5/omeka-xml-5-0.xsd" uri="http://repositorio.febab.org.br/items/show/6352?output=omeka-xml" accessDate="2026-04-15T09:11:51-07:00">
  <fileContainer>
    <file fileId="5415">
      <src>http://repositorio.febab.org.br/files/original/60/6352/SNBU1998_046.pdf</src>
      <authentication>0620087f73755eb9fa5e168c6d658cd0</authentication>
      <elementSetContainer>
        <elementSet elementSetId="4">
          <name>PDF Text</name>
          <description/>
          <elementContainer>
            <element elementId="92">
              <name>Text</name>
              <description/>
              <elementTextContainer>
                <elementText elementTextId="72199">
                  <text>INDEXAÇÃO AUTOMATICA E SEMI-AUTOMÁTICAl
VIRGÍNIA BENTES PINTO
RESUMO:

Nos últimos 30 anos a indexação documentária tem sido a a'rea da Ciência da
Informação que mais evoluiu. Esta evolução está estritamente ligada às mudanças de
paradigmas que ocorrem na nossa sociedade, independente do domínio do
conhecimento. Este trabalho constitui-se na segunda parte do trabalho sobre
indexação, enquadra-se nestas mudanças e trata da automática e semi-automática,
apresentamos alguns exemplos de sistemas de indexação automática
Palavras-Chave: Indexação Automática, Semi-automática, Sistemas de Indexação

Automática
1 INTRODUÇÃO

A indexação automática, assim como a manual, tem como objetivo identificar
e extrair do documento os elementos indicadores do seu conteúdo, visando a sua
recuperação posterior. A realização desta atividade consiste em estabelecer,
inicialmente, um anti-dicionári03 de palavras vazias, ou puramente gramaticais, cuja
significação não contribui para a compreensão do conteúdo do documento. É o caso
dos artigos, dos pronomes, das preposições, dos advérbios, das conjunções (de
coordenação e de subordinação), as marcas de pontuação e de separação (espaços
em branco), verbos (ser e estar e suas formas com apostrofes e conjugadas), certos
nomes, adjetivos ( e suas formas derivadas), aspas, etc. Em seguida, as palavras do
texto são comparadas com as do anti-dicionário, as que coincidirem serão
automaticamente eliminadas, as outras serão consideradas como prováveis
representantes dos elementos que fazem parte do conteúdo do documento.
2 PERSPECTIVA EVOLUTIVA DA INDEXAÇÃO

Nós podemos considerar que, efetivamente, as aplicações da indexação
automática remontam aos estudos desenvolvidos por H.P.Luhn (1959) através do
247

�desenvolvimento e aplicação do Índice KWIC (Key Word in Context), que é
constituído a partir das palavras significativas do título do documento depois da
eliminação das palavras vazias. Elas são identificadas automaticamente e realçadas
no meio da página e as outras aparecem ao seu redor.
A partir da década de 60, as experiências em torno da indexação automática
se multiplicaram dando importância aos modelos estatísticos e utilizando outras
aproximações interdisciplinares. As primeiras experiências foram colocadas em
prática por Salton (1971) através do sistema SMART, por Austin (1974), com o
sistema PRECIS e por Bourrely e Chouraqui (1975) que desenvolveram o sistema
SAIN. Mesmo com todos as ferramentas propostas por estes sistemas, eles
apresentam como desvantagem a não atenção aos aspectos morfo-sintáticos dos
textos.
Depois destas experiências, começaram a aparecer os sistemas mistos, ou
seja, que utilizam as ferramentas da estatística e da linguística. Exemplo o Sistema
Probabilístico de Indexação e de Recuperação de Informação (SPIRIT) que foi
desenvolvido por Christian Fluhr e Alexandre Andreewsky (1981), o Sistema
CLARIT, o Sistema FASIT (Fu1ly Syntactic Indexing of Text) entre outros.
N este início, a indexação automática era baseada nas palavras dos títulos ou
numa representação resumida dos elementos do documento. Atualmente, esta
atividade procura utilizar o texto completo, principalmente se os documentos são
eletrônicos.
Dessa forma, o seu produto não será limitado a quaisquer termos como na
indexação manual ou mesmo nas primeiras experiências automatizadas, mas
considera todos os termos que não fazem parte do dicionário de palavras vazias.
Mesmo com as vantagens da indexação do texto completo, estes métodos se
baseiam sobretudo nos modelos estatísticos que não levam em consideração as
expressões, as palavras compostas, os espaços e os caracteres de pontuação que são
considerados como separadores de palavras. Em conseqüência os índices serão
constituídos normalmente, por unitermos que nem sempre serão úteis como
248

�1
representantes dos elementos indicadores do conteúdo dos documentos, o que
contribuirá para aumentar o ruído durante a recuperação da informação.
Mesmo com todas estas desvantagens, [FIDEL94] considera a indexação
automática mais amigável para o usuário porque: (i) cada vez mais os sistemas
automáticos aceitam as demandas em linguagem natural. Assim os usuários não tem
necessidade de expressar suas necessidades segundo as lógicas boleanas; (ii) os
sistemas podem responder positivamente aos usuários que integram mecanismos de
reformulação no momento das buscas; (iii) os sistemas mostram as respostas por
ordem decrescente de pertinência; (iv) a indexação automática facilita a expansão
das buscas à medida que os termos podem ser somados automaticamente à
formulação da busca original para melhorá-la. Acrescentamos a estas vantagens (i) a
facilidade de colocar em prática; (ii)a rapidez no tratamento de grandes quantidades
de documentos; (iii) a redução do custo beneficio.

3 INDEXAÇÃO ATOMÁTICA

A indexação automática pode ser realizada através das palavras-chave
(unitermos) ou por intermédio das unidades complexas. Os métodos de indexação
que utilizam as palavras-chave são classificados como métodos elementares e
métodos estatísticos. Os métodos elementares extraem, dos documentos (texto), os
termos, após a eliminação das palavras vazias.
Os métodos estatísticos são baseados nos modelos probabilísticos de
ocorrência ou co-ocorrência das palavras que pertencem a um documento em uma
coleção. Na visão de HERSH (1993), eles podem ser baseados sobre nos conceitos,
nas palavras que pertencem a um domínio especifico, na combinação de conceitos e
de palavras e fmalmente nos conceitos reconhecidos como mais gerais.
Assim temos :
a) os sistemas que se baseiam sobre os conceitos: retém os conceitos da
forma que eles aparecem no texto. Em geral, aqui, é utilizado um tesauros para
situar o meio ambiente semântico dos termos da indexação. A vantagem desta
249

1

�maneira de indexar é que a busca de informação pode ser realizada em linguagem
natural. Mas se não for possível identificar alguma idéia referente a um conceito no
texto, naturalmente ela não será indexada o que contribuirá para aumentar o silêncio
durante a recuperação da informação;
b) os sistemas que se baseiam sobre as palavras: eles são utilizados para a
indexação de textos plenos. Nesta perspectiva, o índice é constituído por todas as
palavras do texto, mesmo as consideradas secundárias, o que vai facilitar o ruído na
recuperação da informação;
c) os sistemas que se baseiam sobre as palavras que pertencem a um domínio
especifico: como o próprio nome o diz, o sistema retém unicamente as palavras
pertencentes ao domínio especifico tratado no documento;
d) os sistemas que se baseiam sobre os conceitos e as palavras: eles atribuem
um peso a cada uma das palavras que não fazem parte dos conceitos predefinidos. O
inconveniente deste sistema é que ele poderá contribuir para aumentar o ruído, pois
farão parte dos índice palavras que não são pertinentes para a representar os
elementos que fazem parte do conteúdo do documento;
e) os sistemas que se baseiam sobre os conceitos mais gerais: aqui é possível
reconhecer um conceito mesmo que todas as palavras capazes de defmí-Io não
estejam presentes, o que facilita o ruído na recuperação da informação.
Os métodos que utilizam as unidades complexas, se baseiam sobretudo na
extração dos sintagmas ou de frases. Estas duas vias de realização desta atividade,
ou seja os métodos baseados sobre os modelos estatísticos e igualmente sobre os
modelos lingüísticos, serão mostrados em seguida.

3.1 Indexação automática baseada nos modelos estatísticos

Segundo o professor Jacques Rouault (1987), os métodos estatísticos e
probabilísticos foram os primeiros a ser utilizados no domínio da indexação
automática. Eles se apoiaram sobre os modelos probabilísticos de freqüência de
ocorrências e co-ocorrências das palavras em um texto o que lhes caracteriza como
250

�métodos quantitativos, naturalmente. H.P. Luhn, Van Rijsbergen et al. , 1. Spark e
Gerald Salton, foram os primeiros à apresentar suas experiências neste domínio.
A prática destes métodos consiste em uma contagem das frequências4 de
ocorrência ou de co-ocorrência das palavras dos textos analisados. Depois as
palavras candidatas a descritor são escolhidas em função de sua freqüência no texto,
após a eliminação das palavras vazias. Em seguida elas são apresentadas em ordem
alfabética decrescente ou crescente de acordo com a sua freqüência de aparição no
texto. A partir dessa identificação é estabelecida uma freqüência mínima para
escolher os conceitos que serão candidatos a representar os elementos que fazem
parte do conteúdo do documento.
A decisão de levar em consideração as ocorrências e co-ocorrências das
palavras é justificada por LUHN 1959) quando diz que "a freqüência duma palavra
em um texto fornece uma medida útil de representação da palavra no texto" [e que]
"a co-ocorrência relativa, em uma frase, das palavras as quais foram afetadas com o
peso da significação é uma medida útil de sua significação nesta frase. "
Mesmo considerando de grande importância a utilização dos métodos
estatísticos na atividade de indexação automática, ROUAULT (1977, p.61),
menciona como inconveniente a dificuldade de "pesquisar se uma palavra M
figurando em um corpus correspondente a um acervo é ou não um "bom" descritor."
LANCASTER (1991) nessa mesma linha de raciocínio, assinala que a freqüência de
ocorrência e co-ocorrência de palavras em um texto não deve ser o único parâmetro
para determinar se elas são eficazes como representantes dos elementos pertencentes
ao seu conteúdo.
O conceito deficiente, por exemplo, pertencendo a um acervo especializado
em Ciência da Informação pode ser um "hapax", palavra que aparece uma única vez
ou raramente em um texto. Se nós levarmos em conta a freqüência de ocorrência
e/ou de co-ocorrência ele vai ser considerado como de um valor informativo muito
baixo, então não será considerada como um bom conceito e, naturalmente, ela não
poderá ser escolhido. Ao contrário, os conceitos informação e biblioteca terão
251

�freqüência altamente representativas neste contexto e, portanto, serão escolhidos,
mesmo que o conceito deficiente seja muito mais representativo. Assim, se faz
necessário levar em consideração não a freqüência absoluta de ocorrência ou coocorreência das palavras sobre a coleção, mas a freqüência relativa das palavras com
relação aos documentos, a uma parte ou todo o acervo. É preciso considerar a lei de
Zipf pois ela admite que os conceitos pouco utilizados podem ser altamente
significativos como indicadores do conteúdo do documento.(LANCASTER, 1991 ;
EYMARD, 1992)
Um outro inconveniente do tratamento estatístico é que ele não considera as
variações de escrita de uma mesma palavra (secção=seção, enxerga=s' enxerga) e
muito menos os homônimos e os sinônimos. Assim, segundo LALLICH &amp;
ROUAULT, (1995, p.46) o uso da análise estatística do texto demanda que seja feita
anteriormente uma análise lingüística "mesmo mínima, como a segmentação em
formas". Corroborando com essa linha de análise, FLUH (1992, p.112) diz que a
linguística é fundamental para a indexação automática, pois é através dela que é
possível: (i) "identificar as unidades significantes, quer elas sejam de um ou vários
tipos de caracteres;

•

aproximar os sinônimos;

•

distinguir os homógrafos, etc."

Os exemplos apresentados em seguida ilustram esses defeitos de uma
indexação automática baseada unicamente nos modelos estatísticos.
• Dada a expressão educação popular, o índice será constituído por duas entradas:
educação e popular, o que muda completamente o sentido da expressão inicial;
•

Certas expressões polissêmicas como direito dos trabalhadores e trabalhadores
do direito os terão índices constituídos por direito e trabalhadores. O resultado é
a perda do sentido inicial das duas expressões
252

�•

As formas derivadas que tenham a mesma raiz, constituirão entradas distintas no
índice: veste, vestido, vestiário, vestir, vestimenta, o resultado é uma
redundância nas entradas dos índices;

•

Os homógrafos apresentados em um documento e que, naturalmente,
representam noções diferentes de sentido terão uma entrada única nos índices, o
que acarretará o silêncio quando da recuperação da informação. Para que as
entradas apresentem seu sentido real é preciso lhes desambuiguisa-las através da
utilização dos modificadores.

Linha fiada e tecida
Porção de metal
Corrente de líquido que cai sem despegar
Ex.: Fio Bater um fio (telefonar)
Por um fio (por um triz)
Fio de pedra (meio fio)
Estes poucos exemplos mostram os problemas que podem ser decorrentes da
aplicação dos métodos de indexação automática de textos em linguagem natural
baseados apenas nos modelos estatísticos, os quais contribuem enormemente para
aumentar o silêncio no momento da recuperação da informação.
Esta maneira de indexar é considerada como de baixo nível pois ela se baseia
apenas no aspecto superficial do documento, ou seja, ela é centrada sobre os
caracteres e não sobre o senso dos elementos que fazem parte do conteúdo do
documento.
Ora, como estes métodos levam em consideração apenas as frequências de
ocorrência e co-ocorrência dos conceitos, naturalmente eles ignoram a semântica e
outros aspectos lingüísticos.
Como vantagens destes métodos consideramos :
• a facilidade de colocar em funcionamento;
253

�• a possibilidade de uma boa utilização quando aplicados aos domínios científicos
e técnicos cuja a terminologia é bem definida. Por exemplo à fisica, a
matemática.
Tomando consciência da pouca eficácia ou da ineficácia nos métodos
estatísticos, foram desenvolvidos outros métodos que levam em consideração os
aspectos lingüísticos cujo o objetivo é efetuar uma indexação e uma recuperação da
informação bem mais eficaz. A seguir, serão apresentados os fundamentos teóricos
destes métodos.

1.3.2 Indexação automática baseada nos modelos lingüísticos

A atividade de indexação automática baseada nos modelos lingüísticos visa
melhorar a pelformance da indexação e também da recuperação da informação em
linguagem natural. Eles fazem uma análise lingüística sobre os textos, no que
conceme aos aspectos morfológicos, sintáticos, semânticos e pragmáticos. Eles
podem reconhecer as palavras compostas, os sintagmas, os sinônimos, as formas
nominais, verbais e adjetivais e ainda reagrupam as formas conjugadas em uma
única entrada.
Segundo [BERRUT88], estes métodos podem melhorar a performance da
recuperação da informação ao nível de:
• interface homem-máquina; no momento da interrogação/demanda no sistema;
• definição dos termos de indexação; eles podem ser vistos como unidades
lingüísticas complexas, como os sintagmas nominais, em lugar dos unitermos;
• respostas dadas aos usuários; elas serão diretamente ligadas às demandas do
usuário através de um diálogo de perguntas respostas.
Através da literatura sobre esta área verificamos que, normalmente a primeira
etapa do tratamento do texto e da busca da informação é a correção ortográfica das
palavras e das expressões. Em seguida são determinadas as unidades lexicais do
documento, registrando-se os separadores (virgula, pontos, espaços brancos, etc.). A
partir daí, é possível estabelecer o reconhecimento morfológico dos termos
254

�(desinência verbal, grupo nominal), o reconhecimento semântico, entre outros
[LANT1994]. Estas análises são apresentadas em seguida.
•

análise morfológica: ela faz o reconhecimento das diferentes formas de palavras
no texto. Seu objetivo é de assegurar a cada forma una analise morfológica
(categoria e valor da variável do singular ao plural, a lematização dos verbos
conjugados - passando ao infinitivo - em outras palavras, as passagens das
formas conjugadas em um lema, como as entradas nos dicionários - forma
canônica). Ela pode ainda corrigir as formas ortográficas e tipográficas
Ex: Indexar, indexei, indexamos (tempo, modo e pessoa) Subterrâneo -

sub+terra+aneo (prefixo, radical, sufixo)
•

análise sintática: tem como objetivo a decomposição das frases en unidades
sintáticas, do tipo sujeito, verbo e complementos e resolver as ambiguidades
gramaticais (homógrafos) através de um conjunto de regras (gramática de
reconhecimento da língua) e reagrupa as palavras em síntagmas.
Ex: Eles são uma figura
Eles-pronome
não, substantivo
São-verbo ser
não, substantivo
Uma-pronome indefinido
não, numeral
Figura-substantivo
não, verbo figurar

•

análise semântica: tem como objetivo determinar o senso da palavra e
igualmente das frases (no contexto no qual elas inseridas, ou seja ela mete em
evidência as situações do mundo real). Estabelece a proximidade entre as
palavras através da ligação existente entre elas e resolve as ambigüidades.
Ex: O cachorro do Alfredo continua na bebedeira
255

--

·---

�,

o cachoro de Ana é simpático
Maria comeu o cachoro e passou mal
•

análise pragmática: seu objetivo é estudar a significação em um contexto prático
do conhecimento ou seja em um domínio de aplicação. Por exemplo a palavra
moto, pode ser analisada segundo a sua origem, seu emprego em uma frase, em
um texto (signicicante), ou segundo a sua descrição, função etc. (significado). Na
pragmática ela será normalmente associadaà liberdade, à juventude. à acidente.

• Além disso, identifica os sinônimos e antônimos. Utiliza o tesauros para facilitar
a identificação das palavras e a relação existente entre elas e contribui para
melhorar a indexação e a recuperação da informação, de um lado. De outro, eles
podem não ser adaptados a certos domínios do conhecimento, por exemplo no
caso da literatura técnico e científica é possível que eles não sejam 100%
apropriados,

pOlS

as

terminologias

próprias

de

cada

domínio

estão

constantemente evoluindo e os tesauros nem sempre são atualizados ou o pior,
existem certos domínios que ainda não são cobertos pelos tesauros;

Mansour ELGHOUL [ELGHOUL90] Considera como vantagens destes
métodos:
•

a aplicabilidade em uma lingua determinada, pois as especificidades de cada
língua exigem tratamentos específicos;

•

a facilidade de comunicaçao entre o usuáario e o sistema em linguagem natural,
pois eIs tem possibilidades de indicar o senso as palavras;

•

a eficácia, quando aplicadas à textos curtos
Como inconvenientes o autor cita as necessidades seguintes:

•

a criação, o funcionamento, a manutençao, etc. dos dicionáarios/lexicos,

• a escolha de um modelo de gramática contendo as regras da língua do sistema;

256

�•

a concepção de algoritmos adaptados aos analisadores morfológicos e sintáticos
[ELGHOUL90].

Finalmente, temos consciência que as proposições apresentadas aqui talvez
não tragam nada de novo para o domínio da indexação, contudo, elas poderão servir
de base como ponto de reflexão por parte dos tomadores de decisão com relação ao
estabelecimento das políticas de indexação de suas instituições, pois estas não
podem ser defInidas isoladamente da missão e dos objetivos da instituição e nem
sem um estudo das necessidades de sua população alvo. E mais ainda, ela deve ser
descrita em um manual de serviços, pois desta forma muitos constrangimentos
poderão ser evitados à medida que a maneira de indexar poderá ser normalizada e
assim quem sabe o barulho e/ou o silêncio durante a Recuperação da Informação
poderão ser bem menores.

1.3.3 Softwares de Idexação Automática

O avanço das pesquisas sobre o domínio da indexação e da recuperação
automática da informação é um fato notório na nossa sociedade. Isto pode ser
observado através dos vários softwares comercializados e também dos que restam
ainda como protótipos. Assim, convivem no mercado informático, tanto os sistemas
desenvolvidos com bases nos modelos estatísticos como aqueles apoiados sobre os
modelos lingüísticos ou ainda os chamados sistemas mistos, os quais fazem o
tratamento, tanto utilizando a lingüística, quanto a estatística .
A seguir, apresentaremos alguns exemplos de sistemas de indexação
automática:
a)O SMART
OSMART é um sistema de indexação automática e de recuperação da
informação, proposto por Gerard Salton. Ele se baseia nos modelos lingüísticos e
estatísticos.
257

�,
No sistema SMART, [SALTON7l], considera o espaço documentário como
um conjunto D={Dl, D2, D3 , ... Dn} , onde a representação de cada documento é
constituida pelo conjunto de descritores d={dl, d2, d3 , ... , dn} . O conjunto dos
vetores d, assim como os coeficientes de semelhança que medem as distâncias entre
dois documentos vai se constituir no chamado espaço documentário. Assim, quanto
mais os documentos forem próximos, maior será o valor do coeficiente.
Este sistema procede a análise estatística através dos passos seguintes:
l.inicialmente faz a contagem das palavras;
2.a partir dessas palavras, ele processa o cálculo de semelhança entre os
documento;
3.em seguida ele obtém as relações semânticas entre as palavras;
4.utilisa um valor chamado de discriminação para distinguir os descritores
que poderão dispersar o espaço documentário;
5.calcula a semelhança média entre os pares de documento;
6.defini a densidade do espaço documentário;
7.aplica um coeficiente de pertinência dos documentos
No SMART, existem quaisquer critérios diferentes para que possamos
estabelecer a coincidência, com a ponderação de termos, cujo o objetivo é
representar a taxa de ocorrência em uma base de dados, a coincidência das
expressões e igualmente a coincidência entre as raízes das palavras. Ele possibilita,
ainda, a « retro alimentação de relevância », ou seja, o usuário poderá mostrar os
termos relevantes e não relevantes e em seguida os pesos dos termos da base de
dados. Nessa proposta, Salton considera que os melhores vetores d, são aqueles cuja
freqüência é considerada média.
b) O sistema ALETH
O ALETH é um sistema de indexação e de recuperação de informação que foi
desenvolvido pela Societé d'Etude det de Recherche en Linguistique et
Informatique-ERLI. A partir de 1983, este sistema substitui o anterior ALEXIS
(LEXIcal System).

Seu objetivo é de garantir as aplicações lingüísticas,
258

�terminológicas e documentárias através das gestões dos dicionários, das de ajuda a
indexação e também das de ajuda à interrogação. As gestões documentárias e dos
tesauros são realizados pelos Sistemas de Gestão de Bases de Dados (SGBD)
relacional, que possibilitam uma resposta mais eficaz.
Este sistema se apoia sobre quatro ferramentas:
1) um tesauros, para a indexação e também para a demanda de informação.
2) um dicionário da língua, para facilitar a análise lingüística
3) as regras gramaticais, que facilitam as análises das frases
4) as regras de produção, que possibilitam as ligações entre o dicionário e o
thesaurus
•

Antes do traballio de indexação, o ALETH efetua as análises morpológicas,
sintáticas e semânticas e ainda utiliza as regras gramaticais.

•

As análises morfológicas reconhecem as palavras, as expressões e eliminam as
ambigüidades. Aqui o analisador utiliza as regras de derivação morfológica para
reconstituir as palavras compostas a partir de um conjunto de palavras dispersas,
e as regras de flexão para passar de uma forme primitiva a uma derivada. Estas
regras são aplicadas as variações de gênero e de número para substantivos,
adjetivos, particípio etc.;

•

As análises sintáticas dividem os textos em sintágmas;

•

As análises semânticas traduzem os léxicos em unitermos que não são as
entradas do tesauros;
As regras são:

•

-regras de desambiguisação; determinam o tipo gramatical extraído de um léxico,

•

-regras semânticas; partindo do dicionário e do tesauros e aplicando as regras da
língua,o ALETH identifica as palavras em função de sua existência tanto no
dicionário quanto no tesauros;

•

-regras que identificam os termos compostos

•

-regra que eliminam os termos não descritores.
259

�Este sistema, oferece como vantagens o tratamento lingüístico dos textos e
também a possibilidade de traduzir as buscas em linguagem natural, para uma
linguagem documentária, oferecendo ainda a possibilidade de modificar a estratégia
de busca, através da lógica boleana.

eLO projeto SYDO(Sistema Documentário)
O SYDO é um projeto cooperativo desenvolvido entre os centros de pesquisa
das Universidades de Lyon 1, Lyon 2, Grenoble lI, Frigurg(Suissa), e dos Centros de
Documentação da Merlin Geran à Grenoble e o Centro Cancemet à Paris. Ele foi
desenvolvido sobre a direção dos Profs. Jacques Rouault e Richard Bouché.
Os objetivos do SYDO visam construir um modelo lingüístico de análise do
francês especificamente um analisador morfossintático, e extrair os candidatos à
descritor através da indexação automática e da busca do usuário.
Ele favorisa o tratamento lingüístico e estatístico. O tratamento lingüístico se
processa através da análise morfossintática; a qual realiza uma indexação baseada
nos sintagmas e cujo o objetivo é de construir o tesauros.
O tratamento estatístico vem complementar a análise lingüistica e é realizado
através dos seguintes procedimentos:
•

constitui-se uma amostragem, não ambíguo de certas frases e após a análise
morfológica, efetua-se uma contagem parase obter a freqüência bruta de
ocorrência de cada categoria morfológica. Em seguida o sistema constrói uma
matriz quadrada, na qual cada elemento Ai, j corresponde ao número de
ocorrências dos pares (Ci, Cj) referentes a duas categorias morfológicas
consecutivas em um documento textual;

•

para examinar o grau de freqüência das categorias, o sistema faz o cálculo da
distribuição das categorias morfológicas.

•

Dependendo do resultado, modifica-se o modelo morfológico;

•

a matriz quadrada é transformada em uma matriz de dependência levando em
consideração o número total das unidades léxicas da amostra N, Pi, a freqüência
260

�de aparição da categoria Ci correspondente ao primeiro elemento do par, assim
como também aquela na qual aparece a categoria Cj como ultimo elemento de
um par. Assim se constrói uma tabela de contingência para os pares (C i, Cj)
conforme a tabela seguinte.
A vantagem deste sistema é a possibilidade de tratamento estatístico e
lingüístico, mas infelizmente ele continua como protótipo

d) O sistema SPIRIT

O SPIRIT (Sistema Probabilístico de Interrogação e Recuperação de
Informação Textual), é um sistema francês desenvolvido pelos pesquisadores A.
Andreewesky e Christian Fluhr. Ele é um sistema multilíngue de indexação
automática de texto integral e de recuperação de informação, em lingua natural. Para
essas duas funções ele utiliza dois programas: um de análise gramatical e outro de
cálculos estatísticos, ou seja ele se baseia sobre os modêlos estatísticos e
lingüísticos, portanto é
um sistema misto. Este sistema possui um dicionário com 500.000 entradas
em versão francesa, mais de 100.000 em versão inglesa, mais 600.000 em versão
árabe e agora procura trabalhar a língua portuguesa.
O SPIRIT é considerado como um sistema misto, à medida que procede o
tratamento lingüístico e estatístico os quais serão apresentados à seguir:
O tratamento lingüístico do SPIRIT se processa através das fases seguintes: o
recorte do texto, a análise morfológica, o reconhecimento das locuções, uma análise
sintática, eliminação das palavras vazias e a normalização
1) o recorte do texto; através das regras lingüísticas, o SPIRIT procede o
recorte dos textos extraindo o conjunto de caracteres separados por espaços ou pelos
sinais de pontuação;
2) análise morfológica; através da consulta aos dicionários ela reconhece dos
sinônimos, dos erros tipográficos, das formas primitivas (não flechiés) e de suas
formas derivadas (flechiés)da mesma categoria gramatical. Reconhece as formas
261

�derivadas de uma mesma raiz que tenham um mesmo perfil semântico, mesmo que
não sejam da mesma categoria gramatical;
Ex. cabra, cabralia, cabrocha,
3) análise sintáticaldesambiguisação; efetua a desambiguisação dos termos
homógrafos e reconhece as expressões de relação de dependência, por exemplo
grupos de palavras, palavras compostas;
4) o reconhecimento das locuções; graças ao dicionário de expressões
idiomáticas, procede o reconhecimento das locuções;
Ex. A medida que, com relação à;

5) eliminação das palavras vazias; através dos critérios gramaticais e
morfológicos, elimina as palavras vazias;
Ex. conjunções, preposições
6) normalização; através do dicionário principal é possível encontrar um
modo de representação e de limitar o número de entradas no tesauros. Assim a
normalização pde ser feita em vários níveis:
F orma flexionaI Ã forma canônica
Ex. mangas Ã manga (substantivo)
mangas Ã mangar (verbo)
Sinônimo Ã termo preferencial
Ex. livros (substantivo) Ã obras
Forma derivacional A forma de base
Ex. afixaram Ã afixo
Ortografias diferentes
Ex. O.N.U Ã ONU
O tratamento estatístico do SPIRIT se funda na matemática (baysiana) e
calcula a função e o peso de cada palavra do texto. Assim, baseado na fórmula da
entropia, o sistema procede o cálculo segundo a fórmula seguinte:

Peso(M i )

=

log 2 N -H{:M;

)+1

262

�Onde:
N= número de documentos do acervo
Mi=uma palavra ou um conceito dado í
H(Mi)=função transformada da fórmula da entropia
Assim teremos a fórmula seguinte como resultado:

Onde:
Dj désigna o documento j
P(Dj/Mi) é calculado através de uma fórmula que se assemelha à forma
baysiana

p( M)p·(D j)
Dj)
~D~j_
(
i

P Mi

~ :i)( M )P.(D
i

K.-l

DK

K

)

Onde: p* representa uma grandeza proporcional à extensão da ponderação do
documento e homogênea a uma probabilidade

O SPIRIT apresenta como vantagens:
•

a busca em linguagem natural;

•

resultado das buscas é apresentado segundo o grau de pertinência dos
documentos encontrados;

1.0 tratamento lingüístico das informação textuais.
Os inconvenientes deste sistema são:
•

pouca interatividade;

•

ausência de ajuda semântica aos usuários, embora possua o dicionário;

•

ausência de ferramentas de ajuda à indexação
263

--

--

---

�e) O sisteme CLARlT
O sistema CLARlT (Computational Linguistics Aproaches to Indexing and
Retrieval of Text), é um sistema americano de indexação automática de textos
integral e de recuperação de informação. Ele foi desenvolvido por D.A.EVANS
pesquisador do Laboratório de Lingüística Informática à Universidade Carnegie
Mellon-Pittsburg. Ele tem como base os modelos estatísticos e lingüísticos, portanto,
está enquadrado como um sistema misto.
Este sistema possui um dicionário de termos, chamado Thesaurus de Primeira
Ordem o qual é constituído por sintagmas nominais normalizados ao nível
morfológico. Ele é organizado hierarquicamente através das relações genéricas e de
proximidade e extrai as frases mais importantes do texto em língua natural e cria
igualmente uma lista de NPs (não frases).
Mas, infelizmente, o CLARlT não defme as relações semânticas existentes
entre os termos individuais.
Segundo [PAIJMANS93], ele é um sistema de indexação derivada e seletiva
que, extrai dos documentos, os sintagmas nominais e em seguida lhes compara com
os descritores do tesauros e depois apresenta uma lista de termos segundo três
categorias: os termos exatos, os gerais e os novos. O termo é considerado exato, se
existir uma perfeita coincidência entre ele e os termos do tesauro; ele é geral, se
coincide em parte ou se ele é um sub-termo do tesauros; os termos são novos,
quando não há coincidência à algum termo do tesauros. A figura a seguir, mostra um
exemplo destes categoria de termos com os seus respectivos pesos de cada palavra a
direita de cada coluna.

264

�.....=
.....=
. . .~
. rlT~e~
rm
~~=
~.=.
~=··
~=
~O=·~=···===·=·····=
·····=·
·····=.·. =
.....=.....=.....=
...

'rr
T~
erm
==
o=
sEx
-atos ~'="
""='''''=''·''=··~·''~.
T~
e=
rm
~o~
sGer-ru' s~'=""'=""'=""'=
" "'=""'="
"'="".=
r""""---------,

'-----·----~---T---'-'-;;..-'-------_---::.:

2.322 nasdaq

115.392 petroleun

1.161 est

i 5.392 pmewswire

2.696 pmewswire

0.387 toronto

:!0.928 asset

0.122 giant

0.379 wholly owned

110.928 subsidiary incorporated
~!

............. ...................................................... ...... ..... ~ t.............

FIG.

Indexação

0 .0 • 0.0 ••• 0.0 _ . . • • • • • • ••

a

12.818 pmewswire giant

• • •, . , . , . ,.". . . . . . . . . . . .

partir

do

• • • • • • • • • • • • • • • • • • • • • • 0.0 •••• • • • • • • • • •

CLARIT

11.985 pacific petroleun subsidiary

i

• ••••••••••

i.

o • • • • • • • • • • • 0'0 • • • •

• • • • • • • • • • • • • • • • • • • • • • • • 0'_ • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • _

baseada

no

texto

.0 • • • • • • • • • • • • • • • ' .

de

[[PAIJMANS93 :386]
A indexação do sistema CLARIT perpassa pelas etapas seguintes:
1.Pré-tratamento ou formatagem
2.Primeiramente ele formata, integralmente, o texto do documento, utilizando
os delimitadores para separar suas unidades de informação. Esses delimitadores
podem ser criados de acordo com as necessidades. Por exemplo, um delimitador
cuja a seqüência de caracteres é «/*» indica o início e o fim de um artigo. Além
destes, outros delimitadores poderão ser criados, de acordo com as necessidades do
usuário.
3. Tratamento lingüístico
Para extrair os sintagmas nominais, candidatos à representar os elementos
indicadores do conteúdo do documentos o CLARIT efetua as análises morfológicas,
as sintáticas e a desambiguização. A análise morfológica do texto é feita através do
programa MORPH e compreende a análise flexionaI e derivacional. Ela apresenta as
unidades lexicais e as categorias. A análise sintática é feita à partir da lista de
escolha e passada no STA T- para (o analisador sintático) no qual a gramática
identifica os constituintes dos sintágmas em "cabeça" e «os modificadores »
distinguindo as classes que serão automaticamente eliminadas da posição de
265

�"cabeça". Por exemplo na expressão "uns dos estudantes", o sistema eliminará
automaticamente o termo "um dos" conservando "estudantes" como a "cabeça" do
índice. A desambiguização permite que os termos (sintagmas) tenham somente uma,
portanto o sistema oferece uma lista de escolha.
4. A fIltragem
A filtragem do CLARIT é feita a partir dos termos da lista dos sintagmas
nominais candidatos que foram obtidos à partir dos tratamentos lingüísticos. Ela
permite a criação de um índice de acordo com as categorias de termos exatos, gerais,
e novos. Esta fIltragem se realiza em duas etapas: a etapa de atribuição do valor aos
termos candidatos e a etapa de aparelhamento.
I. Inicialmente, são atribuídos, aos termos candidatos, os seus valores de
acordo com a freqüência, a distribuição e a raridade. Para estes cálculos das
freqüências, leva-se em consideração o tamanho do texto:

t
TRS=

frequencia z + distribuiçao z + raridade j

z~

n

a) documentos muito curtos (questões e os sintágmas) calcula-se a freqüência
através da fórmula seguinte:

b) documentos curtos(resumos)

266

�--

-

-

--

-

------

c) documentos longos(artigos, capítulos de livros)

Onde:
Wid=nÚIDero de ocorrência da palavra i no documento d.
WiD=número de ocorrência da palavra i em um corpus representativo do
domínio tratdo
W d=nÚIDero de palavras no documento d
WD=número de palavras no corpus D
A distribuição é baseada em um domínio do corpus e é calculada através da
formula seguinte:

IDF=Inverse Document Frequency
dD=número de documentos de D
di=número de documentos de D que contem a palavra i
Observação:
Quando o valor do IDF é elevado, significa que as palavras são específicas de
um certo domínio, entretanto, quando ele é baixo é porque as palavras são gerais a
um domínio. A raridade corresponde à medida de freqüência das palavras em inglês,
geralmente. A fórmula para este cálculo é a seguinte:

MWE= freqüência mediana das palavras e um corpus de termos comuns
WiE = número de ocorrências da palavra i no corpus
267

�11. A etapa de parelhamento compara os termos candidatos com a lista de
termos certificados que é o tesauros de primeira ordem. Este tesauros apresenta as
relações hierárquicas do tipo: "próximo de" (relacionado) e "amplo"(genérico), para
fornecer a lista dos termos exatos, gerais e novos
Finalmente, o CLARIT é um sistema que utiliza a indexação derivada,
portanto a linguagem natural, ou seja os termos são extraídos diretamente do
documento. Esta maneira de indexar pode ser considerada flexível, porque ela segue
as evoluções terminológicas naturais do conhecimento através da redação dos textos.
Com isto é muito mais fácil a manutenção, o que é uma das vantagens deste sistema.
Como inconveniente, o sistema apresenta a dificuldade de colocá-lo em prática.

e) O sistema TOPIC
O sistema TOPIC anteriormente chamado RUBRIC, é um sistema de
tratamento automático da informação de texto integral, desenvolvido pela Société
Verity Inc. Além das ferramentas de indexação este sistema possui também as de
recuperação

da informação e uma interface para as

buscas

interativas

[PAIJMANS93].
O sistema possibilita a criação de um arqUIVO invertido, completo, dos
«topics» (conceitos) de ocorrência em um documento, ou seja, os elementos
informativos de um parágrafo ou uma parte específica do documento são
preservadas neste arquivo.
Ele também permite que os usuários criem os «topics» determinando os pesos
de suas escolhas. A apresentação deste «topics» é em forma de árvore com vários
níveis hierárquicos, baseados em uma relação lógica do tipo gênero/espécie,
todo/parte e são retidas na memória com o objetivo de ser utilizada por outros
usuários. Mas, nem sempre elas são aceitas, pois as necessidades dos usuários são
específicas a cada um, portanto, raramente coincidirão.
268

�-----------

-

-----~ -

Além destas relações, o TOPIC pode ainda, representar as relações
associativas entre os conceitos as quais são divididas segundo as categorias
seguintes:

•

as relações paradigmaticas, as quais definem os campos lexicais mostrando as
relações de semelhança, substituição ou de equivalência. Aqui nós observamos a
semelhança com os tesauros;

•

estudo dos contextos, o qual compreende as palavras ou locuções, marcadas
principalmente por uma relação de complementaridade, de implicação. Neste
caso, os contextos tem como objetivo, de um lado, a língua na qual se efetua a
busca, e de outro, os textos que são interrogados.
Essas hierarquias semânticas tem uma importância fundamental no caso das

polissemias, pois elas facilitam o reconhecimento do senso das palavras segundo o
contexto no qual elas aparecem. Assim, as palavras podemos ser escolhidas à partir
do conhecimento que se tem do contexto onde elas se encontram.
Com relação ao tratamento morfológico, o sistema permite também que se
encontre a aproximação do senso das palavras, portanto, por meio da troncatura é
possível pesquisar as famílias das apalavras e também escolher aquelas que se tem
necessidade.
Ex. Index, indexar, indexação
No TOPIC, também é possível criar e gerenciar várias bases de dados, tanto
constituidas por referências bibliográficas, quanto de texto integral, de Índice ou
mesmo de arquivar descritores que indicam a estrutura e o lugar dos documentos.
Neste sentido ele permite as operações de indexação e de descrição. As
operações de descrição se processam sobre as partições e são constituídas de duas
etapas.
A primeira, trata-se da segmentação do texto em diferentes zonas (dados
textuais, numéricos, gráficos, etc.). Na segunda, os textos são estruturados segundo
suas zonas, por exemplo corte por campos bibliográficos (autor, titulo, data, editor,
269

�--------------------

etc.). Assim, a base TOPIC, é composta por um conjunto de informações
concernentes a uma coleção documentária, constituída do conteúdo dos documentos,
de seu formato e de sua localização. Esta forma de tratar os documentos apresenta as
seguintes vantagens:
a) independência e localização dos documentos permitindo que eles
conservem seu formato original e quando demandados o sistema identifique as
informações sobre suas partições para encontrar o documento sobre a rede. Depois,
ele reformata automaticamente este documento sobre uma forma possível de afixar
em função da plataforma cliente utilizada para que o usuário possa lhe visualizar;
b) o TOPIC facilita uma pesquisa incrementaI onde os documentos são
encontrados segundo a partição, cujo os primeiros são imediatamente explorados e
assim sucessivamente, até a elaboração da lista final ;
c) com relação a administração das bases de dados, o TOPIC pode ser
considerado um sistema flexível e parametrizável, pois as partições são as entidades
individuais, que podem ser criadas, somadas, atualizadas ,ordenadas ou suprimidas
independentemente ou simultaneamente umas das outras, portanto elas otimizam a
gestão administrativa.
A prática da indexação no TOPIC
A indexação proposta pelo TOPIC é classificada como indexação derivada e
fornece, inicialmente uma lista alfabética de todas as palavras contidas em um
documento com suas posições nos respectivos documentos. Esta lista vai se
constituir nos arquivos invertidos que são compostos por cada termo registrado. A
cada termo é associado uma lista de pares identificando seu arquivo e sua posição
nos respectivos arquivos. Em um segundo momento, o sistema organiza um índice
dos conceitos fornecidos pelo usuário e que vai se constituir nos índices de segundo
nível. Este índice permite aumentar a velocidade da pesquisa à medida que ele é
utilizado pelos módulos de pesquisa do TOPIC para encontrar todos os documentos
relativos aos conceitos do assunto demandado.
A prática da busca de informação
270

.

�No TOPIC a busca se efetua por conceitos «topics», de acordo com o
seguinte procedimento. Inicialmente, o usuário explica o senso dos conceitos, em
seguida os cria e termina com a interrogação no sistema. Mas, para criar um
conceito, é preciso fazer atenção aos aspectos seguintes:
Com relação ao TOPIC, um conceito é constituído de três elementos
principais: a estrutura, as ponderações e as operações lógicas. A estrutura define as
relações hierárquicas entre as palavras, sub-conceitos e os sintagmas que formam o
conceito.
As ponderações favorecem a indicação da importância relativa das palavras,
sub-conceitos ou sintagmas, com relação aos diferentes ramos composantes do
conceito. Ele pode, igualmente utilizar as ponderações fornecidas pelo TOPIC. É
através das ponderações que o sistema poderá colocar em prática os algoritmos para
calcular a pertinência dos documentos encontrados. Os operadores lógicos são
fornecidos pelo sistema e possibilitam que o usuário faça uma escolha daqueles que
poderão melhor contribuir para sua demanda. Os operadores lógicos são
classificados como:
a) Os operadores de conjunção ou de produto lógico, demandam que todos os
termos ou todos os conceitos ligados pelos operadores, sejam presentes no
documento. Esses operadores são; « AND, ALL, PARAGRAPH, SENTENCE,
PHRASE». Os operadores «AND» e « ALL», são verdadeiramente lógicos,
entretanto, os outros são algumas vezes lógicos e de proximidade;
b) Os operadores de união lógica ou disjunção, não exigem que um só dos
termos ou dos conceitos sejam presentes no documento. Os operadores são; «OR,
ANY, WORDGROUP».
c) O operador «ACCRUE»,

SaIU

da lógica booleana e permite avaliar a

pertinência com relação a um conceito em função da presença relativa em um
documento das palavras que servem para definir os conceitos.

271

I

�-

---

-

---

-

-

Após estas operações, os conceitos são criados e podem ser utilizados para
lançar as buscas, salvar enquanto que conceito privado, utilizado para construir
outros conceitos mais elaborados, ou ainda disponíveis para outros usuários.
Assim, o resultado de uma busca por conceitos é uma lista correspondente
aos documentos, com os seus respetivos pontos.
Nesta lista, os documentos mais pertinentes aparecem em prunerro lugar,
permitindo o acesso imediato à informação.
A possibilidade de busca por conceitos oferecida pelo sistema TOPIC, é
abrangente, e não importa o perfil do usuário, portanto, ele pode atender tanto um
grande publico, quanto um especialista, entretanto, quando se trata de uma aplicação
bem precisa, os conceitos são definidos por um especialista de informação.

4 CONCLUSÃO
Nossa problemática, neste trabalho, foi apresentar o estado da arte da
indexação, mostrando o seu conceito, sua prática, os tipos de indexação manual,
automátique e semi-automática e' alguns sistemas de indexação automática.
Nós observamos que graças à interdisciplinaridade da ciência da informação,
notadamente, com a informática, a estatística, a lingüística, e a psicologia cognitiva,
o campo da indexação evoluiu bastante durante estes últimos 30 anos.
Esta evolução é bem conhecida através da literatura quando observamos que
inicialmente, as experiências foram calcadas em uma prática manual simples e de
forma intuitiva, cujo o objetivo era fornecer um conjunto de palavras que fossem
capazes de oferecer algumas pistas para o usuário encontrar o documento que ele
tinha necessidade. Com esta mesma visão foram desenvolvidos os primeiros
sistemas de indexação automática, os quais se baseavam nas palavras dos títulos do
documento (Índices KWIC) Em seguida surgiram os sistemas baseados nas
freqüentes de ocorrências e concorrências das palavras no
documento, mas não se preocupavam com os aspectos lingüísticos, ou seja
eram apoiados nos modelos estatísticos e probabilisticos. A partir daí, foram
272

�-

--

-

-~-------

desenvolvidos os sistemas de indexação apoiados nos modelos lingüísticos, os quais
visam sobretudo evitar distorções semânticas, sintáticas e pragmáticas Entre estes
últimos modelos, encontramos os igualmente destinados aos tratamentos ds textos
integrais, ou seja de documentos eletrônicos.
Outra constatação é que atualmente estão disponíveis no mercado alguns
sistemas de indexação automática mais eficientes, à medida que se apoiam nos
modelos estatísticos e lingüísticos, e o resultado é uma indexação mais eficaz. Outra
vantagem é que entre este sistemas encontramos aqueles dedicados tanto à
indexação, que a recuperação da informação, o que mostra que este domínio está em
constante evolução. Contudo, o assunto em questão ainda não foi capaz de resolver
os problemas do tipo diferentes maneiras de escrever uma palavra (se enxerga,
s'enxerga, secção, seção), os homógrafos etc.

1 Este trabalho constitui-se na Segunda parte de um estudo sobre indexação.
A primeira parte versa sobre as teorias de indexação e indexação manual, publicada
na revista « Olhar Midiático : Informação e Comunicação, do Departamento de
Comunicação Social e Biblioteconomia da UFC, v.l, n.2 , 1998.
2 Professora do Depto. de Comunicação Social e Bibliotecon. Dotoranda em
Ciência da Informação e da Comunicação na Universidade Stendhal-Grenoble-3France
3 Chamado por GADINE (1974) « dicionário negativo ». Em inglês, « stop
list ».
4 As freqüências das palavras podem se apresentar na seguinte ordem: baixa,
média e alta. As palavras se apresentam de três maneiras: raras, candidatas à
descritor e úteis. As que o valor das freqüências se encontram entre alta e baixa são
candidatas a descritor. Aquelas cuja a freqüência é alta são consideradas como
palavras úteis e as demais são as raras.

273

�---

.

------

R EFERENCIAS BmLIOGRAFICAS

BERTRAND, A.(1993), Compréhension et catégorisation dans une activité
complexe, indexation de documents scientifiques. Toulouse. These de
doctoral, Université de Toulouse le MIRAI L
BERRUT, C.(1988) Une méthode d'indexation fondées sur I'analyse sémantique
de documents spécialisés. Le prototype RIME et son application à un
corpus médical. These de doctorat, Université Joseph Fournier
BOUGNOUX, CHAUMIER, J.(1990), L'indexation documentaire; de l'analyse
conceptuelle humaine
à
l'analyse automatique
morphosyntaxique.
Documentaliste, vo1.27, n.6., p.275-284, nov.dec.
CHE(1995) CLEVELAND, (1997) CUNHA, I.M.R.F.(1990), Análise
documentaria. In: SMIT, J.W. Análise documentaria :análise da síntese.
Brasília: mICT
ELGHOUL, M. (1990), Méthodologie de conception d'un siad pour la gestion
documentaire:aide a I'indexation, aide a la construction du thesaurus, aide
a la recherche et aide a I'apprentissage. Paris: These de doctorat Université
Paris Dauphine U.F.R Sciences des Organisations,.215p.
EVANS, D.A.(1991), A summary of de c1arit project. Technical report n.cmuIcI-91-2. Laboratory for computational Iingusitics, Carnegie Mellon
UniversityPittsburg,: 12p.
___ .(1991), Automatic indexing using selective NLP and frist-rdre therauri.
In: RIAO ' 91, apr. 2-5. Barcelone, Autonoma Univerity ofBarce1ona, p.624-644
_ _ _(1994), Clarit-tec experiments. Laboratory for computational linguistics
Carnegie Melon University
_ _ _(1991), Mapping vocabularies using 'Iatent semantics'. Laboratory for
computational linguistics Carnegie Melon University. Raport n.cmu-IcI 91-1,
july
EYMARD, G. (1992), Traitement documentaire des sommaires: des mots-c1és à
I'extration de connaissances. Application à une documentation technique.
Grenoble: L'Université Pierre Mendes-France-Grenoble-II-These de doctorat.

274

�FERREIRA, A.B.H. (1986), Novo dicionário da língua portuguesa. Rio de
Janeiro: Nova Fronteira. p. 1592
FIDEL, R.(1994), "User-centered indexing", JASIS, v.45, n.8" p.572-576
FLUHR, C.(1992) Le traitement du langage natural dans la recherche
d'information documentaire. Les interfaces intelligentes dans l'INIST.
Rapport INRIA
FLUHR, C.(1981), « SPRIT systeme probabiliste d'indexation et de recherche
d'informations textuelles », In: ADBS &amp; ANRT-IDT 81, Versailles, pp.113116
___(date a préciser), «Le traitement et I'interrogation des bases de donnes
textuelles », informatique et droit en Europe, ed. de l'Université de
Bruxelles, éditions Bruylant, pp.97-114
GARDIN (1974) Les analyses des discours. Neuchâtel:Delachaux et Nestlé
HERSH, W. R., HICKAM, D.H., LEONE, T.J. (1993), "Words, concepts or both:
optimal indexing units for automated information retrieval." In: Proceedings
SCAM 93. p.644-648
KIM, H.-K. (1997), Détection automatique des mouviments de caméra et des
régions de textes pour la structuration et I'indexation de documents
audiovisuels" . Toulouse: L'Université PAul-Sabatier de Toulouse.
KURAMOTO, H.(1998), Proposition d'un systeme de recherche d'information
assisté par ordinateur, avec application à la langue portugaise. Lyon:
l'Université Lumiére-Lyon 2-These de doutorat à apparaitre.
LALLICH-BOIDIN, G. et ROUAULT, J. (1995), Coopération statistiqueIinguistique:pour I'analyse textuelle. In; Joumées d'analyse de données
textuelles, Rome,
LANCASTER, F.W.(1991), Indexing and abstracting in theory and practice.
London:Library Association.
LANCASTER, F.W.(1979), Information retrieval system characteristies, testing
end evolution. New York, John Wiley. 381p. cap.l, p.I-14
LANTEIGNE, D.(1994), "Prolégomenes au développement d' un systeme d'aide a
l'indexation de monographies", ICO, v.6. n.I-2, p.41-50
275

�--

- - - --

LE GUERN, M. (1982), Les descripteurs d'un systeme documentaire:essai de
définition, In: Actes du colloque traitement automatique des langues
naturelles et systemes documentaires. L'Université Clermont Ferrand. p. 163173.
____ .(1991)"Un alalyseur morpho-syntaxique pour l'indexation automatique."
Le français moderne. v.59, n.l, p.22-35
LEVI, P. (1997), L'intelligence collective: pour une anthropologie du
cyperspace. Paris;La découverte/Poche.p.21 ; 24
LUHN, H.P. (1959), Keyword-in-context index for technical Iiterature (KWIC
index). Ney York, IBM.
_ _ _(1995)
PAIJMANS, H.(1993) «Comparing the document représentations of two IR
systems:clarit and topic». JASIS, v.44, n.7,
p.383-392
ROUAULT, 1. (1987), Linguistique automatique. Applications documentaires.
Beme: Peter Lang. 309p
_ _ _ _(1994), Interfaces et systemes d'information. Grenoble, CRISS.
SALTON, G. (1971) The SMART retrieval system; experiments in automatic
document processing. Englewood Cliffs, N.J:Prentice-Hiall
SMIT, 1.W.(1989) "Análise documentaria :analise da sintese". Brasilia:IBICT

276

-

�</text>
                </elementText>
              </elementTextContainer>
            </element>
          </elementContainer>
        </elementSet>
      </elementSetContainer>
    </file>
  </fileContainer>
  <collection collectionId="60">
    <elementSetContainer>
      <elementSet elementSetId="1">
        <name>Dublin Core</name>
        <description>The Dublin Core metadata element set is common to all Omeka records, including items, files, and collections. For more information see, http://dublincore.org/documents/dces/.</description>
        <elementContainer>
          <element elementId="50">
            <name>Title</name>
            <description>A name given to the resource</description>
            <elementTextContainer>
              <elementText elementTextId="71352">
                <text>SNBU - Edição: 10 - Ano: 1998 (UFC - Fortaleza/CE)</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="49">
            <name>Subject</name>
            <description>The topic of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="71353">
                <text>Biblioteconomia&#13;
Documentação&#13;
Ciência da Informação&#13;
Bibliotecas Universitárias</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="41">
            <name>Description</name>
            <description>An account of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="71354">
                <text>Tema: O Capital Humano e o seu Desenvolvimento Contínuo</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="39">
            <name>Creator</name>
            <description>An entity primarily responsible for making the resource</description>
            <elementTextContainer>
              <elementText elementTextId="71355">
                <text>SNBU - Seminário Nacional de Bibliotecas Universitárias</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="45">
            <name>Publisher</name>
            <description>An entity responsible for making the resource available</description>
            <elementTextContainer>
              <elementText elementTextId="71356">
                <text>UFC</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="44">
            <name>Language</name>
            <description>A language of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="71357">
                <text>pt</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="51">
            <name>Type</name>
            <description>The nature or genre of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="71358">
                <text>Evento</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="38">
            <name>Coverage</name>
            <description>The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant</description>
            <elementTextContainer>
              <elementText elementTextId="71359">
                <text>Fortaleza (Ceará)</text>
              </elementText>
            </elementTextContainer>
          </element>
        </elementContainer>
      </elementSet>
    </elementSetContainer>
  </collection>
  <itemType itemTypeId="8">
    <name>Event</name>
    <description>A non-persistent, time-based occurrence. Metadata for an event provides descriptive information that is the basis for discovery of the purpose, location, duration, and responsible agents associated with an event. Examples include an exhibition, webcast, conference, workshop, open day, performance, battle, trial, wedding, tea party, conflagration.</description>
  </itemType>
  <elementSetContainer>
    <elementSet elementSetId="1">
      <name>Dublin Core</name>
      <description>The Dublin Core metadata element set is common to all Omeka records, including items, files, and collections. For more information see, http://dublincore.org/documents/dces/.</description>
      <elementContainer>
        <element elementId="50">
          <name>Title</name>
          <description>A name given to the resource</description>
          <elementTextContainer>
            <elementText elementTextId="72191">
              <text>Indexação automática  e semi-automática 1.</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="39">
          <name>Creator</name>
          <description>An entity primarily responsible for making the resource</description>
          <elementTextContainer>
            <elementText elementTextId="72192">
              <text>Pinto, Virginia Bentes</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="38">
          <name>Coverage</name>
          <description>The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant</description>
          <elementTextContainer>
            <elementText elementTextId="72193">
              <text>Fortaleza (Ceará)</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="45">
          <name>Publisher</name>
          <description>An entity responsible for making the resource available</description>
          <elementTextContainer>
            <elementText elementTextId="72194">
              <text>UFC</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="40">
          <name>Date</name>
          <description>A point or period of time associated with an event in the lifecycle of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="72195">
              <text>1998</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="44">
          <name>Language</name>
          <description>A language of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="72196">
              <text>pt</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="51">
          <name>Type</name>
          <description>The nature or genre of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="72197">
              <text>Evento</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="41">
          <name>Description</name>
          <description>An account of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="72198">
              <text>Nos últimos 30 anos a indexação documentária tem sido a área da Ciência da Informação que mais evoluiu. Esta evolução está estritamente ligada às mudaças de paradigmas que ocorrem an nossa sociedade, indipendente do domínio do conhecimento. Este trabalho constitui-se na segunda parte do trabalho sobre indexação, enquadra-se nestas mudanças e trata da automática e semi-automática, apresentando alguns exemplos de sistemas de indexação automática.</text>
            </elementText>
          </elementTextContainer>
        </element>
      </elementContainer>
    </elementSet>
  </elementSetContainer>
</item>
