<?xml version="1.0" encoding="UTF-8"?>
<item xmlns="http://omeka.org/schemas/omeka-xml/v5" itemId="6795" public="1" featured="0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://omeka.org/schemas/omeka-xml/v5 http://omeka.org/schemas/omeka-xml/v5/omeka-xml-5-0.xsd" uri="http://repositorio.febab.org.br/items/show/6795?output=omeka-xml" accessDate="2026-05-28T06:34:17-07:00">
  <fileContainer>
    <file fileId="5857">
      <src>http://repositorio.febab.org.br/files/original/62/6795/SNBU2014_281.pdf</src>
      <authentication>428992f26b3127b0d0d2fb4cc9db32a8</authentication>
      <elementSetContainer>
        <elementSet elementSetId="4">
          <name>PDF Text</name>
          <description/>
          <elementContainer>
            <element elementId="92">
              <name>Text</name>
              <description/>
              <elementTextContainer>
                <elementText elementTextId="76165">
                  <text>XVIII Seminário Nacional de Bibliotecas Universitárias
SNBU 2014

PROCESSAMENTO DA LINGUAGEM NATURAL NA ÁREA DE MÚSICA: técnicas
e tecnologias

Juliana Rabelo do Carmo
Valdirene Pereira da Conceição

RESUMO
Estudo exploratório sobre extração automática de conceitos com base no Processamento da
Linguagem Natural (PLN). O objetivo da pesquisa consiste em analisar o cenário práticoconceitual da extração automática, visando a sistematização e organização de ferramentas de
gestão terminológica e recuperação da informação por meio da estruturação de um
vocabulário da área de Música. Apresenta os fundamentos da representação da informação e
explica as ferramentas semânticas para interpretação organizada de estruturas do
conhecimento, bem como as expressões de conceitos de um domínio, que representam a
maior proximidade entre a linguagem ou termos utilizados pelos usuários em sistemas de
buscas. Discorre sobre a categorização de domínios de especialidade fundamentada por
Ranganathan. Expõe o PLN como sub-área da Linguística Computacional, que propicia a
extração de termos com maior precisão semântica para recuperação da informação em
sistemas de busca automatizados. Caracteriza os níveis, limitações e a arquitetura do PLN em
bancos de dados, representados pelo léxico e acessado por analisadores léxicos, sintáticos e
semânticos. Indica as tipologias de softwares para processamento de corpus e extratores de
candidatos a termos, dividindo-os em três categorias: estatísticos, linguísticos e híbridos.
Aborda o Domínio Musical em suas várias facetas de expressão, artística, antropológica e
representação da informação musical. A metodologia e a descrição da pesquisa caracteriza-se
como pesquisa aplicada, de natureza descritiva, utiliza os procedimentos de pesquisa
bibliográfica e documental das áreas de CI, Linguística, Computação e Música, assumindo
assim, o caráter interdisciplinar. Emprega o modelo de pesquisa em PLN, com o corpus
composto pela amostra de 10 dissertações e 10 teses, disponíveis em 11 bases de dados de
Programas de Pós Graduação em Música no Brasil e na Biblioteca Digital de Teses e
Dissertações (BDTD), e 30 artigos de revistas científicas especializadas em Música, ambos os
gêneros técnico-científicos produzidos entre os anos de 2003 à 2013. Utiliza o ambiente
colaborativo de gestão terminológica, E-termos, para extração automática de termos, que irão
compor o vocabulário controlado do domínio musical. Apresenta como resultados um corpora
classificado como grande em termos quantitativos, composto por 424 textos com um total de
9.482.246 palavras, fato que implica na obtenção de um nível de representatividade alta de
termos, classificada como médio-grande para construção do vocabulário de Música. Mostra as
etapas executadas pelo E-termos para compilação, análise de corpus, contadores de freqüência
e extração automática de termos. Apresenta o comparativo entre as categorias estruturadas por
indexação manual e extração automática. Conclui indicando que a extração automática
baseada em PLN constitui-se de uma ferramenta efetiva para a tradução da linguagem natural,

3532

�utilizando as expressões utilizadas para a busca da informação como objetos lingüísticos e
rapidez na construção de terminologias.
Palavras-Chave: Processamento da Linguagem Natural
Informação; Semântica Lexical; Domínio de Música.

(PLN); Representação da

ABSTRACT
Exploratory study on automatic extraction of concepts based on Natural Language Processing
(PLN). The objective of the research is to analyze the practical and conceptual scenario of
automatic extraction, aimed at systematizing and organizing terminology management and
retrieval of information by structuring a vocabulary of the music area tools. Presents the
fundamentals of information representation and explains the semantic tools to organized
structures of knowledge interpretation, as well as expressions of concepts in a domain,
representing the closeness between the language or terms used by users in search systems.
Discusses the categorization of domains supported by Ranganathan specialty. Exposes the
PLN as a sub-field of Computational Linguistics, which facilitates the extraction of terms
with higher accuracy for semantic information retrieval in the automated search systems.
Features levels, limitations and the architecture of PLN in databases, represented by the
lexicon and accessed by lexical, syntactic and semantic parsers. Indicates the types of
software for processing and corpus extractors candidate terms, dividing them into three
categories: statistical, linguistic and hybrids. Domain addresses the Musical in its various
facets of expression, artistic, anthropological and representation of musical information. The
methodology and the description of the research is characterized as applied, theoretical and
exploratory research includes procedures for bibliographic research and document the areas of
CI, Linguistics, Computer Music, thus providing the interdisciplinary character. Employs the
research model in PLN, with the corpus of the sample of 10 dissertations and 10 theses
available in 11 databases of Graduate Programs in Music in Brazil and the Digital Library of
Theses and Dissertations (BDTD), and 30 articles in technical journals in Music, both
technical and scientific genres produced between the years 2003 to 2013. Uses collaborative
environment terminology management, E-terms for automatic extraction of terms, which will
compose the controlled vocabulary of the music sector . Displays results as one corpora
classified as large in quantitative terms, composed of 424 texts with a total of 9,482,246
words, a fact that implies in obtaining a high level of representativeness of terms, classified as
medium-to large vocabulary building Music . Shows the steps performed by the E-terms to
build, corpus analysis, frequency counters and automatic extraction of terms. Presents the
comparison between the structured for manual indexing and automatic extraction categories.
Concludes indicating that the automatic extraction based on PLN constitutes an effective tool
for the translation of natural language, using the keywords used for the search of information
as linguistic objects and speed in building terminologies.
Keywords: Natural Language Processing (PLN); Representation of Information; Lexical
Semantics; Domain Music.

1 INTRODUÇÃO
A necessidade de estudos na perspectiva da representação e recuperação da
informação em documentos musicais possui uma longa trajetória de discussões na área da
Ciência da Informação, uma vez que os catálogos bibliográficos não compreendem a

3533

�linguagem de indexação de modo a suprir as necessidades dos usuários na realização de
buscas. Antonio (1994, p. 3) apregoa que
[...] as dificuldades da comunidade musical na busca e sistematização das
informações são crescentes [...] Essa situação aponta para a necessidade de
desenvolver estudos que visem conhecer e sistematizar as condições da
pesquisa e da organização da informação em música.

Outro ponto que apoia essa problemática consiste na escassez de ferramentas para
pesquisa nos acervos de música, conforme expõe Mannis (2006, p. 2) “[...] não são muitas as
fontes de documentação musical no Brasil possuindo acervos catalogados em sistemas
automatizados [...]”. Ou seja, urge a necessidade de ação do bibliotecário frente a esse cenário
e considera-se o importante papel do profissional da informação com conhecimento em
assuntos específicos para possibilitar maior possibilidade de operacionalização de materiais
com características peculiares.
As motivações que levaram à sistematização da terminologia desta área do
conhecimento, e o consequente interesse pela elaboração de um vocabulário são originadas
por diferentes ordens: profissional, na Ciência da informação, no sentido de identificar
ferramentas de representação da informação musical, bem como da necessidade de
instrumentos de controle terminológico nesta área que possibilite a identificação dos itens
lexicais recorrentes.
O objetivo dessa pesquisa está em analisar o cenário prático-conceitual da
extração automática e representação da informação, com ênfase na sistematização,
organização e o uso de ferramentas de gestão terminológica para fins de recuperação da
informação por meio da estruturação de um vocabulário controlado do domínio musical, com
vistas a compreender como estes conceitos extraídos contribuem para representar tais
materiais como fontes de informação.
Concomitante aos propósitos apresentados, a discussão proposta pretende, antes
da atribuição de categorias e conceitos/léxicos para construção de um vocabulário, aborda o
léxico musical, apontando para a interpretação correta dos termos tratados, situando-os na
perspectiva da representação da informação, além de conferir-lhe o respectivo significado e
possibilitando relações entre outros conceitos.

2 REPRESENTAÇÃO DA INFORMAÇÃO E SEUS FUNDAMENTOS
A Ciência da Informação é uma disciplina que investiga as propriedades e o
comportamento da informação, as forças que governam seu fluxo e os meios de

3534

�processamento para otimizar sua acessibilidade e utilização. Fundamenta-se através da
produção, coleta, organização, armazenagem, recuperação, interpretação, transmissão,
transformação e utilização da informação.
O termo recuperação da informação, cunhado por Mooers (1951) buscava
representar “[...] aspectos intelectuais da descrição de informações e suas especificidades para
a busca, além de quaisquer sistemas, técnicas ou máquinas empregados para o desempenho da
operação.”. Oliveira (2011) corrobora ainda apresentando três questões implícitas no
enunciado de Mooers: a) como descrever intelectualmente a informação; b) como especificar
intelectualmente a busca; e, c) que sistemas, técnicas ou máquinas devem ser empregados.
Convém ainda ressaltar a explosão de informações científicas, que originou a
necessidade de uma documentação automatizada, tornando fundamental o uso das
contribuições da Linguística para suprir as necessidades da documentação neste contexto.
Resgatando os ideais da Semântica sobre significado, as suas contribuições para a indexação
são significativas no que diz respeito à pesquisa em processamento automático de texto, em
especial, nos estudos de indexação automática onde se buscam soluções baseadas no modelo
lingüístico.
Para tanto, o processo de Indexação destaca-se por entender que esta é a etapa que
está diretamente relacionada com a busca dos usuários, que também são considerados
instrumentos de representação, organização e recuperação da informação nas bases de dados.
Robredo (2005, p. 165) complementa ainda que “a indexação consiste em indicar o conteúdo
temático de uma unidade de informação, mediante a atribuição de um ou mais termos (ou
códigos) ao documento, de forma a caracterizá-lo de forma unívoca.”.
Um aspecto para análise da Indexação consiste nas dificuldades de extrair de
forma precisa os assuntos a serem buscados pelos usuários, Mai (2001, p. 606) explica a
limitação ao expor que:

Seria quase impossível, naturalmente, para qualquer pessoa ou, neste caso,
qualquer indexador, precisar todas as idéias e significados que estivessem
associados a qualquer documento, posto que sempre haverá idéias e
significados potenciais que diferentes pessoas em diferentes momentos e
lugares poderão descobrir nesse documento. Além do que, seria quase
impossível prever com exatidão quais das inúmeras idéias e significados que
estivessem associados ao documento seriam especificamente úteis para os
usuários ou dariam ao documento alguma utilidade duradoura. É de máxima
importância reconhecer e aceitar essa indefinição fundamental. O indexador
deve compreender, desde o início, que jamais descobrirá todas as idéias e
significados que estariam associados ao documento e que, portanto, não é
possível descrever todas essas idéias e significados.

3535

�Para suprir essa lacuna, alguns fatores possuem influência na exatidão no processo
de busca dos termos descritores, ou seja, por meio da adequação de critérios pode-se obter a
qualidade da Indexação, apoiada nas considerações de Guinchat e Menou (1994, p. 180), no
que diz respeito aos pontos: exaustividade; seletividade; especificidade; e uniformidade,
porém, Dias e Naves (2007, p. 33) revelam que tais critérios são difíceis de serem
operacionalizados. Tais questões precisam ser observadas visando obter uma indexação
orientada para o usuário, conforme adverte Mai (2000, p. 294):
Se se focalizar exclusivamente o aspecto da representação, ignorando os
usuários futuros, corre-se o risco de representar os documentos de uma
forma que não terá qualquer serventia para os usuários. Um indexador que
não dê muita atenção nos usuários poderá optar por representar assuntos de
documentos que não tenham interesse para eles, ou usar um vocabulário
diferente do vocabulário deles, ou representar o assunto em nível que seja
muito genérico ou muito específico para eles. No entanto, se o indexador der
excessiva atenção aos usuários do sistema, poderá representar os
documentos numa forma tal que a representação temática dos documentos
somente atenda aos usuários atuais e às necessidades de informação atuais.

Trata-se da observação da linguagem natural utilizada pelo usuário para descrever
um determinado assunto; da percepção do indexador para esse aspecto; e a aplicação da
linguagem documentária. Compreendem-se as linguagens documentárias como “[...] o
conjunto de termos, providos ou não de regras sintáticas, utilizadas para representar conteúdos
de documentos técnico-científicos com fins de classificação ou busca retrospectiva de
informações [...]” (GARDIN apud CINTRA et al., 2002, p. 35), com o intuito de facilitar a
comunicação entre a linguagem natural dos usuários e a unidade de informação, bem como
representar os conteúdos dos documentos. (TRISTÃO; FACHIN; ALARCON, 2004).

2.1 Compreendendo a categorização de domínios de especialidade
Ranganathan (1967) estrutura cinco idéias (ou categorias) fundamentais, que
podem ser compreendidas como “[...] categorias as mais genéricas possíveis e passíveis de se
manifestarem de diversas formas, capazes de hospedar todos os objetos da natureza até então
conhecidos pelo Homem, e de classificá-los de acordo com sua natureza conceitual, cada um
numa e somente numa categoria.”, ou seja, os níveis elencados servem como bases para uma
classificação flexível de um determinado domínio, bem como as relações conceituais
existentes nas categorias. As Cinco Categorias Fundamentais são apresentadas do seguinte
modo:

3536

�Há cinco e somente cinco Categorias Fundamentais; são elas: Tempo,
Espaço, Energia, Matéria e Personalidade. Estes termos e as idéias denotadas
são usadas estritamente no contexto da disciplina de classificação. Não têm
nada a ver com seu emprego em Metafísica ou Física. Em nosso contexto,
seu significado pode ser visto somente nas declarações sobre as facetas de
um assunto - sua separação e sequência. Este conjunto de categorias
fundamentais é, em síntese, denotado pelas iniciais PMEST.
(RANGANATHAN, 1967, p. 398, grifo nosso).
Para o autor, as facetas equivalem a ramificações dentro de um assunto para fins
de classificação, sendo atribuídos a cada categoria os seguintes sentidos: Tempo, onde se
atribui aspectos como milênio, século, década, ano, etc., características específicas como dia,
noite, verão e inverno, e qualidade meteorológica como úmido, seco, tormentoso; Espaço, no
que diz respeito aos ambientes geográficos da Terra, dentro e fora dela, tais como países,
estados, etc.; Energia, onde suas as manifestações de uma espécie sobre a outra, exigindo
assim um cuidado maior para sua compreensão, haja vista que esta ação pode ocorrer entre
espécies de entidade, inanimada, animada, conceitual, intelectual e intuitiva.
Expõe ainda as facetas: Matéria, sendo que esta categoria subdivide-se em duas
espécies, material e propriedade, e consiste basicamente na percepção que as propriedades
estão, na maioria das vezes, intrinsecamente ligadas ao material, constituindo-se assim como
uma de suas propriedades; e por fim, a Personalidade, que se apresenta indefinível por
Ranganathan, cabendo a sua atribuição somente no caso de negação à todas as outras
categorias. Ranganathan mostra ainda que cada categoria de um domínio de conhecimento
possui renques e cadeias para organização dos conceitos em estruturas classificatórias
hierárquicas.
Para o teórico, os renques e cadeias se diferem de acordo com as características de
divisão: enquanto os renques formam séries horizontais, a partir de uma única característica,
listando assim todos os conceitos relacionados de um aspecto, enquanto nas cadeias cada
conceito possui uma característica a mais ou a menos, podendo ser descendente ou ascendente
(CAMPOS; GOMES, 2003, p. 161). Entende-se a categorização como estruturas de
ordenação para fenômenos agrupados e relacionados, com base em suas diferenças, com base
na “[...] ocorrência de características comuns em diversos membros, ou seja, o conceito na sua
mais ampla extensão.” (ARTÊNCIO, 2007, p. 72).
Isso significa dizer que a categorização nada mais é do que a estruturação de
conceitos gerais de um domínio que se relacionam com os conceitos específicos de acordo
com seus atributos. O exemplo na Tabela x apresenta alguns exemplos de categorizações do
domínio musical.

3537

�Tabela 1: Exemplos de categorias, subcategorias e termos do domínio de Música
CATEGORIAS
Instrumentos musicais

SUBCATEGORIAS
• Instrumentos de sopro
•

TERMOS/DESCRITORES
Flauta doce
Tuba

Instrumentos de cordas Violão
Guitarra
Contra-baixo

Fonte: a autora

O exemplo mostra que dentro de cada categoria existem várias subordinações de
acordo com as características dos conceitos, como por exemplo, na categoria instrumentos
musicais, as subcategorias subsequentes podem ser instrumentos de sopro, instrumentos de
cordas, etc., de acordo com o exemplo citado. As subcategorias irão abrigar os termos de
acordo com o nível de especificidade são vinculados os conceitos pertencentes a cada
categoria, fato que reforça a ideia de categoria enquanto conceitos gerais de um domínio.
Em suma, a categorização utiliza o princípio de associação para representar um
domínio ou conceito, ou seja, quando a categoria Música é citada para busca, a necessidade
específica de informação pode ser relacionada a instrumentos musicais, gêneros, partituras,
Etnomusicologia, entre outros aspectos deste domínio.
Desse modo, considera-se a categorização como uma forma de organização de
Sistemas de Recuperação da Informação com a finalidade de facilitar a recuperação da
informação, sendo consideradas flexíveis e mutáveis de acordo com a abordagem a ser
utilizada de um conceito.

3 PROCESSAMENTO DA LINGUAGEM NATURAL (PLN): algumas considerações
Dentre os vários eixos de estudo da área de Computação, a Inteligência Artificial
centraliza-se em desenvolver métodos para que os computadores realizem tarefas de modo a
simular a inteligência humana na resolução de problemas. A comunicação e o uso da
linguagem em sistemas originaram a necessidade da tradução da linguagem humana para a
linguagem artificial, utilizada pelos computadores, constituindo assim uma de suas bases de
estudo.
Nesta perspectiva, como um ramo da IA surge a Linguística Computacional, que é
definida por Vieira e Lima (2001, p. 1) como “[...] a área de conhecimento que explora as
relações entre linguística e informática, tornando possível a construção de sistemas com
capacidade de reconhecer e produzir informação apresentada em linguagem natural.”. A

3538

�Linguística Computacional possui duas sub-áreas, que compreendem a Linguística de Corpus
e o PLN.
O PLN tem sido estudado pela área da CI na perspectiva teórica, em especial no
campo da Indexação e Recuperação da Informação, por entender que os softwares baseados
neste modelo propiciam a extração de termos com maior precisão semântica para recuperação
da informação em sistemas de busca automatizados. McDonald e Yazdani (1990, p. 176)
corroboram com a assertiva de que “[...] a pesquisa em PLN pode proporcionar insights
bastante úteis sobre processos e representações da linguagem na mente humana, apontando,
assim, para a verdadeira IA.”. Em suma, a aplicação do PLN refere-se às áreas de: acesso a
banco de dados; recuperação da informação; extração da informação; tradução automática e
geração de resumos.
O PLN subdivide-se em níveis de análise e/ou estudo que compreendem: a
interpretação, onde são desenvolvidas questões relativas ao estudo da língua de modo que as
palavras se tornem compreensíveis pelo computador e, consequentemente, o armazenamento
para que ocorra a utilização destas palavras em sistemas, tomando como exemplo os
tradutores (ou chatterbots); e de geração, que ocorre de forma inversa, a partir da inclusão de
termos ou expressões, o computador adquire a capacidade de traduzir a compreensão do
sistema para a linguagem natural por meio de estruturações semânticas pré-determinadas, no
caso dos resumos e palavras-chave.
Nesta perspectiva, o PLN enquanto Sistema baseado no Conhecimento utiliza-se
de cinco alicerces: gramática, léxico e o modelo de discurso, ou seja, as informações sobre a
língua; modelo de domínio, a ser aplicado; e modelo do usuário que utiliza o sistema
(NUNES et al., 1999). O nível morfológico consiste na definição da estrutura de palavras,
bem como a significação e função de cada palavra na frase (adjetivo, substantivo, verbo, etc.);
nível sintático, por meio da análise da construção gramatical, suas relações entre unidades
linguísticas e sua colocação (sujeito, predicado verbal, etc.); nível semântico, onde as palavras
são analisadas pelo seu significado, a partir da análise sintática; nível do discurso,
compreensão do significado da palavra a partir do contexto em que ele está inserido; nível
pragmático, onde ocorre a compreensão do conteúdo da frase ou texto, a partir da
determinação de sua tipologia (pergunta, afirmação) (NUNES et al., 1999).
Em contrapartida, dentre as vantagens do uso do PLN estão: a eliminação da
necessidade de adaptação a formas inusitadas de interação, cuja construção gramatical
costuma ser de difícil aprendizado e domínio, a exemplo das linguagens de consulta de
bancos de dados (NUNES, 2007, apud NANTES, 2008, p. 26); o usuário não precisa entender

3539

�o funcionamento de um banco de dados, ele apenas deseja que o resultado da pesquisa seja
mostrado de forma simples e objetiva (GARIBA et al., 2005 apud OLIVEIRA; TONIN;
PRIETCH, 2010, p. 2); é possível ainda, o entendimento de consulta com erros (termos
digitados erroneamente) e incompletas, buscando por palavras próximas e pelo contexto da
conversação (SILVA; LIMA, 2007, p. 2). Para tanto, basta que o usuário tenha um
conhecimento básico da área - e ainda, assunto ou domínio -, da especialidade da base de
dados.
3.1 Softwares de processamento de corpus
Na Linguística de corpus, o corpus de um determinado léxico pode ser analisado
por várias óticas e/ou critérios. Candido Junior (2008, p. 3) explica que:
Os softwares para processamento de córpus podem ser agrupados em quatro
grandes categorias, de acordo com a etapa de construção de córpus na qual
são usadas: compilação de textos (por exemplo, reconhecedores ópticos de
caracteres ou mineradores Web), anotação (por exemplo, editores de XML e
etiquetadores sintáticos), acesso a córpus (por exemplo, concordanceadores e
contadores de frequências) e extração de conhecimento (por exemplo,
tradutores de máquinas e sumarizadores).
Isso significa dizer que em suma o processamento de corpus visa a extração de
termos precisos o que nos remete à Terminologia, tendo como resultado principal deste
processo, a constituição de glossários, dicionários, vocabulários controlados e tesauros, com
auxílio das ferramentas computacionais, que no caso são os softwares extratores. De acordo
com Bagot (1999), a metodologia para utilização de termos ou sistemas extratores de
candidatos a termos classificam-se em três categorias: sistemas baseados em conhecimento
estatístico; sistemas baseados em conhecimento linguístico e; sistemas híbridos, dentre os
quais destacamos como exemplo, por tipologias:
•

Estatísticos: Pacote NSP (N-gram Statistics Pack-age); Corpógrafo; XExtractor;

•

Linguísticos: WebCorp, Unitex, GATE (General Architecture for Text Engineering);
LácioWeb; Syntex; ExatoLP;

•

Híbridos: OntoGen.

A partir destas considerações iniciais, vale ressaltar que o PLN não é um modelo
de recuperação da informação, e sim um método de interação que pode ser efetivado em
sistemas de informação (ou bancos de dados específicos) visando interpretar de forma mais
precisa possível a linguagem dos usuários, focando o texto, uma vez que as expressões
utilizadas para busca da informação são constituintes dos objetos linguísticos.

3540

�4 O DOMÍNIO MUSICAL COMO MEIO DE EXPRESSÃO
A Música é um elemento fundamental nas diversas dimensões da vida humana.
Como dado coletivo, social, a música reflete o meio ou a situação em que estamos inseridos.
E neste mesmo sentido, marca e identifica gerações. Compõe-se por informações de cunho
artístico, que diverge da informação textual pela forma de expressão do seu conteúdo, que
podem ser representados por sons, partituras, áudio digital, entre outros, que possuem uma
linguagem que necessitam de representações específicas.
Na perspectiva filosófica educacional as influências das Artes, em especial a
Música, tiveram seus reflexos registrados na história. Na Grécia, a Música era diretamente
relacionada à Filosofia e à Educação, acreditava-se que os seus efeitos agiam diretamente
sobre a mente, corpo e alma, e por estes motivos, eram restritas somente aos cidadãos livres.
A Música trata-se de um elemento antropológico-cultural, que embora se origine e
se desenvolva na esfera dos sentimentos, das emoções, do gosto pessoal, da sensibilidade e da
subjetividade, tem também uma objetividade, cujas fontes se encontram no ambiente natural,
histórico e social do povo. Para Queiroz (2000, p. 17)
O conteúdo musical trata da mensagem, de caráter emocional, presente na
música. Ou dizendo de outro modo, o conteúdo musical é aquilo que a
música transmite, o estado que a música porta. E, por mais contestação que
possa haver quanto à definição do quê ela porta, deve ser claro que algo ela
porta. [...] quando verdadeiramente artístico, dá testemunho da verdade e da
harmonia possível a vida - em uma forma compreensível à sensibilidade
emocional.

Assim, pode-se afirmar que a Música reflete o que somos, o nosso modo de ser,
de pensar as coisas, de relacionar-se com as pessoas e com o universo, ou seja, “[...] a música
é uma arte eminentemente social, portanto, vinculada a sua época e ao seu lugar, suscetível às
variações da sociedade incluindo evolução tecnológica.” (FERREIRA, 2001, p. 92).
Merriam (1964, apud HUMES, 2004) expõe que a Música constitui-se como um
produto da cultura de um povo. Hummes ressalta dez funções da Música na Etnomusicologia,
apresentada por Merriam, a saber: 1) expressão emocional; 2) prazer estético; 3) divertimento;
4) comunicação; 5) representação; 6) reação física; 7) impor conformidade às normas sociais;
8) validação das funções sociais e dos ritos religiosos; 9) contribuição para a continuidade e
estabilidade da cultura e; 10) contribuição para a integração da sociedade. Estes elementos são
resultados de processos e interpretações sociais, representados em diferentes formas.
Entende-se que a Música além de uma expressão artística, é entendida também
como uma forma de linguagem, capaz de exprimir as realidades cotidianas, fato este que

3541

�justifica as expressões musicais próprias de cada civilização ou povo, caracterizando-se como
um instrumento de identidade e transformação social.

5 MATERIAIS E MÉTODOS
O estudo trata-se de pesquisa aplicada (gerando aplicações práticas, dirigidas para
problemas específicos), de natureza descritiva e exploratória. Descritiva, por caracterizar o
desenvolvimento e apresentação dos resultados do processo de extração automática de termos.
E ainda, de natureza exploratória ao propor de um vocabulário de um domínio de conceitos,
com base no agrupamento de itens lexicais especializados, no caso, do campo musical.
A estruturação de um corpus, ou seja, a definição de “[...] uma coleção de
documentos coletados dentro de determinados padrões ou exigências, para a realização de
estudos linguísticos ou computacionais de aprendizagem de máquina.” (SILVEIRA, 2008, p.
29), ou seja, uma amostra da linguagem que irá compor o objeto da pesquisa em formato
eletrônico, sendo especializado por se tratar de um domínio do conhecimento.
O corpus de Música envolveu etapas definidas, como levantamento de teses e
dissertações do domínio de Música, produzidas nos principais Programas de Pós Graduação
em Música dos Centros/Instituições no Brasil, além de artigos científicos de revistas deste
campo: Universidade de Campinas (UNICAMP); Universidade Federal do Rio Grande do Sul
(UFRGS); Universidade Federal do Paraná (UFPR); Universidade Federal do Rio Grande do
Norte (UFRN); Universidade Federal da Bahia (UFBA); Escola de Música (UFMG); Revista
eletrônica de Musicologia; PERCEPTA - Revista de cognição musical; Música em
perspectiva; Per Musi - Revista acadêmica de Música; Música e cultura - Revista da
Associação Brasileira de Etnomusicologia; Música em contexto; Revista Opus.
A definição da amostra compreende o período de 2003 à 2013, com corpus não
estruturado, dentre os quais foram selecionados o quantitativo de 10 dissertações, 10 teses e
em média 30 artigos - haja vista que a maioria das revistas possuem 2 publicações anuais -,
produzidos por ano em todos os programas e/ou revistas citados. Vale ressaltar que tais
documentos foram obtidos em formato eletrônico e em pdf, por meio de pesquisas na Web
nos repositórios digitais dos Programas/Revistas citados.
A escolha dos corpora dos Programas de Pós Graduação e Revistas citadas
pautaram-se no fato de se tratar dos principais centros e veículos de comunicação científica do
país voltados para a Música que disponibilizam suas produções em formato eletrônico em
seus repositórios institucionais, se tornando assim fontes de literatura especializada. A seleção
justifica-se ainda por tais Programas/Revistas se constituírem como fonte de coleta tanto dos

3542

�conceitos quanto dos itens lexicais recorrentes no domínio de Música, contribuindo assim
para solucionar a problemática da inexistência de instrumentos de controle terminológico para
este domínio.

5.1 Extração automática de termos
A sistematização do vocabulário de Música na pesquisa abrange o uso do
ambiente colaborativo de gestão terminológica, e-Termos, em especial, no que diz respeito a
utilização de uma funcionalidade de extração de termos deste ambiente, viabilizada pelo uso
do software estatístico, o Pacote N-gram Stastistic Package (NSP) em sua interface.
Desse modo, a extração automática a candidatos de termos tem com base o
Processamento da Linguagem Natural, visando maior extração do conhecimento semântico
dos textos processados. As etapas de fundamentação metodológicas são: a) Busca e seleção de
fontes não estruturadas, no caso, teses e dissertações disponíveis em formato eletrônico e em
pdf nas bases de dados definidas; b) Compilação do corpus: esta etapa envolve o
armazenamento do corpus; c) Manipulação dos arquivos do corpus; d) Inclusão dos textos do
corpus no e-Termos; e) Levantamento e análise da lista de unigramas, bigramas, trigramas e
tetragramas, que correspondem a termos compostos por uma, duas, três ou quatro unidades,
respectivamente, realizado pelo software Pacote NSP, integrado ao e-Termos; f) Limpeza das
listas geradas, com eliminação de unidades que não correspondem a termos; g)Validação:
escolha de julgadores, pertencentes a área abordada pelo vocabulário e preparação do material
a ser conduzido para os julgadores para definição dos critérios para escolha dos termos
definitivos; h) Identificação das categorias; i) Organização e apresentação do vocabulário de
Música.

6 RESULTADOS E DISCUSSÕES
O objetivo desta seção é apresentar a metodologia de desenvolvimento do vocabulário
musical, que utiliza o pacote NSP para realização da extração estatística de candidatos de
termos. Devido o seu funcionamento ser via linha de comandos, o E-termos criou um
ambiente com interface para o usuário para auxiliar na construção de vocabulários baseada em
PLN.
A abordagem utilizada é considerada semi-automática, devido à intervenção humana,
que abarca quatro etapas principais: 1) construção de um vocabulário do Domínio Musical
por meio da Indexação manual; 2) Compilação e processamento automático do corpus no

3543

�ambiente E-termos; 3) Extração automática de candidatos a termos; e 4) Cálculo da
freqüência dos termos candidatos ao vocabulário, por meio de tarefas manuais e automáticas.

6.1 Sistematização manual preliminar do domínio
A leitura técnica preliminar do corpus, em especial de informações contidas no título,
palavras-chave, resumo, título das seções, introdução e conclusão, torna possível a extração
manual de candidatos a termos, com base na técnica da Indexação, haja vista que tais
informações embasarão o vocabulário do domínio musical.
A motivação por este tipo de procedimento está, principalmente, no registro destas
informações, entendidas aqui como categorias, ou seja, possíveis termos descritores, e itens
lexicais,

que posteriormente

serão

comparadas

aos termos

que

serão

extraídos

automaticamente, visando analisar as aproximações dos resultados obtidos.
Após a indexação manual, fase que prepara a lista de termos em que a extração se
baseia, e retoma-se o ideal de categorização a partir dos 699 textos, sendo estes, 358
dissertações, 100 teses e 241 artigos científicos indexados manualmente, que geraram o
quantitativo de 29 categorias conceituais que abrigam as unidades lexicais que representam o
Domínio Musical. Algumas das categorizações obtidas e as subcategorias sistematizadas
estão dispostas abaixo, conforme a ocorrência dos termos nos textos. Vale ressaltar que em
todas as subcategorias estão abarcados vários itens lexicais desta especialidade.
Música vocal
Canto
Coro a capella (sopranos, contraltos, tenores, baixos)
Instrumentos musicais
Instrumentos de cordas (contrabaixo, violão, harpa, guitarra, viola, violina, cavaquinho,
violoncelo)
Instrumentos de sopro (saxofone, fagote, trombone, trompete, trompa, clarineta, flauta)
Processos composicionais
Ciclos vitais (ambiguidade de conceitos, movimento cíclico de eterno retorno, vir-a-ser,
simetrias)
Avaliação de produção musical (matérias, expressão, forma, valor)
Gêneros
Baião, pop, funk, dobrado, samba, bolero, missa, bossa nova, marchinha, modinha, xote,
maracatu, música sacra, música popular, seresta, choro, valsa, bossa nova, cantoria de cego,
repente, hip hop.
Escrita Musical
Conteúdo rítmico
Conteúdo melódico
Perfomance

3544

�Posição da mão, articulação e ângulo dos dedos, tipos de articulação, movimentos do pulso,
absorção do peso, movimento corporal, emissão do som, memorização.
Educação musical
Formal, informal, aprendizagem midiática, habilidades profissionais, ensino, modelos.
Ao final do processo compilatório, obteve-se um corpus médio-grande constituído por
9.482.246 palavras, extraídos de 424 textos selecionados para o processamento de texto,
extraídos de 14 fontes diferentes, entre produções técnico-científica de Programas de Pós
Graduação e revistas científicas. Vale ressaltar que o quantitativo inicial de textos que
participaram da indexação manual foi de 699 textos, com os cortes de 275 textos, tendo assim,
como produto final 424 textos participantes.
Em termos quantitativos para fins de processamento automático pela plataforma Etermos, o corte citado justifica-se pela necessidade da exclusão dos textos que tiveram
problemáticas tanto no momento da conversão do formato PDF para txt, para processamento
do texto. Os documentos digitalizados também perpassaram pelo mesmo entrave, fato que, no
caso do gênero Teses, justifica a redução de textos participantes no processamento de textos.

6.2 Estruturação automática do domínio
A pesquisa utilizou as ferramentas da plataforma colaborativa E-termos, apresentada
em seções anteriores, que fornece acesso livre e gratuito. Para ter acesso é necessário a
realização de um cadastro, e em seguida o pesquisador precisa propor um projeto para utilizar
as ferramentas disponíveis.
O valor do corte inferior, ou seja, o quantitativo mínimo de frequência para que uma
unidade lexical se candidate a termo, foi estruturada de acordo com a observação da
frequência mínima de termos úteis, conforme apresenta a Tabela 6.

Tabela 2: Valor dos cortes de frequência (termos desconsiderados) por gênero
GÊNERO

TAMANHO DO CÓRPUS

Teses

937.292

Dissertações

6.875.501

Artigos científicos

1.669.453

CORTE DE FREQUÊNCIA
(QUANTITATIVO)
100 para unigramas
10 para bigramas e trigramas
100 para unigramas
10 para bigramas
10 trigramas
100 para unigramas
10 para bigramas e trigramas

Fonte: dados da pesquisa

3545

�Inicialmente foram observadas todas as frequências mínimas, e feita a limpeza manual
de termos, para se estabelecer um quantitativo válido. Apesar de não haver um consenso na
literatura da área sobre os valores de corte, Rijsbergen (1979) afirma que “[...] uma certa
arbitrariedade está envolvida na determinação dos pontos de corte, bem como na curva
imaginária, os quais são estabelecidos por tentativa de erro.”. Nesse sentido, o corte de
frequência da pesquisa se baseou nos parâmetros quantitativos de palavras que constituem os
corpus, e ainda, de acordo com aqueles que mesmo com frequência baixa, no caso 10 (dez),
se constituem como termos úteis.
Após a limpeza manual das listas de unigramas, bigramas e trigramas, por gênero
textual, geradas pelo E-termos, e da eliminação das palavras que não se constituem
necessariamente como um termo. Esse processo teve como resultado o comparativo entre os
candidatos a termos por extração estatística e o número final de termos, resultantes da
compilação de todos os gêneros textuais para uma visão geral dos dados de processamento de
textos na Tabela 7.

Tabela 3: Comparativo entre números de candidatos por extração estatística e número final
de termos
N-gram

NÚMERO DE CANDIDATOS DO NSP N° FINAL
(Dissertações, teses e artigos)
TERMOS

Unigramas
Bigramas
Trigramas
Total

4.880.851
673.644
927.961
6.482.456

DE

930
513
226
1.669

Fonte: dados da pesquisa
Tais dados mostram que é possível afirmar que, neste caso, quanto maior o número de
unidades que compõe o termo, maior o número de candidatos a termos, devido a função
“Frequência simples” disponibilizada pelo pacote NSP, integrado ao E-termos. Outro fator
que levou à grande redução de termos finais em relação aos candidatos extraídos pelo pacote
NSP se deu pela grande quantidade de “sujeira” nos textos processados, a exemplo disso,
podemos citar palavras com as acentuações que atrapalham o processo de extração e,
consequentemente, descarta alguns termos que poderiam vir a ser úteis.
Em suma, ao final do processo de extração automática de termos obteve-se, em geral,
um quantitativo de 930 unigramas, 513 bigramas e 226 trigramas, dos três gêneros textuais
analisados, totalizando 1230 termos considerados úteis e representativos para domínio
musical.

3546

�Tais considerações mostram que, apesar de o método estatístico gerar ruídos, ou seja,
palavras que não possuem valor terminológico, este método é de extrema importância para
fins de indexação, tradução, construção de tesauros, entre outras ferramentas de representação
e recuperação da informação por proporcionar automatizar a identificação e seleção de
unidades lexicais de um corpus, ao proporcionar rapidez na construção de Terminologias.
Os subsídios apontados a partir desta análise mostram que a extração automática de
termos baseada em freqüência estatística, facilitada pelo ambiente E-termos, permite o
aprimoramento das técnicas e reforça a precisão no processo de Indexação. Espera-se ter
demonstrado o percurso para estruturação de um vocabulário com os subsídios do
Processamento da Linguagem Natural para construção de vocabulários.

5 CONCLUSÃO
A pesquisa se deteve em abordar a prática da indexação e representação da informação
para estruturação do vocabulário do domínio musical no período de uma década, de 2003 a
2013, com a finalidade de analisar os léxicos produzidos nesta área e relacioná-los com outros
conceitos, por meio da categorização.
Dentre os objetivos da análise prático-conceitual da indexação, destacam-se como
resultados os instrumentos de representação da informação musical, como catálogos, índices e
tesauros com o objetivo de servir como recurso e/ou ferramenta informacional auxiliar para
pesquisadores e interessados em geral na busca e recuperação da informação musical. Porém,
percebe-se que os instrumentos existentes ainda são escassos e falhos no que diz respeito ao
conteúdo dos documentos, para o suprimento da necessidade informacional de seus usuários.
Em se tratando da área de Música, não foi localizada obra lexicográfica e/ou
terminológica sobre o domínio, com contribuições dos aportes automáticos, em especial de
PLN, para sua estruturação, o que evidencia a contribuição desta pesquisa ao tentar minimizar
a carência de informações sobre o controle do léxico utilizado pela área musical.
Observa-se ainda a importância da categorização para a identificação de assuntos de
um domínio de especialidade, devido à possibilidade de abordagem facetada de conteúdos
que permite a visualização de uma área do conhecimento como um todo sistematizado, e
viabilizando relações com outros conceitos.
O resultado deste processo foi a atribuição de 29 categorias, sendo que destas, as que
tiveram mais termos agregados na Indexação Manual foram Prática interpretativa (121
termos), Processo composicional (100 termos) e Educação Musical (97 termos). A extração
automática por meio do E-termos, por sua vez, mostrou-se eficaz ao apresentar um

3547

�quantitativo de 922 itens lexicais, entre unigramas, bigramas e trigramas que podem
aprimorar a construção de vocabulários fundamentados em PLN.
Com relação à análise comparativa entre os processos manual e automático de
extração de termos, a convergência entre estes dois métodos consiste na subjetividade humana
para seleção e correção dos termos encontrados, porém, vale ressaltar que a intersecção entre
as categorias obtidas por Indexação manual e as categorias geradas por extração automática
alcançaram índices de frequências diferentes durante o processo. Isso significa que, nem todos
os termos elencados no método manual foram extraídos automaticamente.
Nesse sentido, a escolha pelo método estatístico se deu pelo fato de a frequência
apresentar um quantitativo maior de descritores significativos, que proporcionam uma
representação e recuperação mais precisa de termos, além da rapidez na extração diante de
grandes volumes de textos.
O PLN mostrou-se como uma ferramenta eficaz para processamento de grandes
volumes de dados, com muito a contribuir no que diz respeito à redução do tempo de
desempenho de tarefas de mineração de textos e ao possibilitar a identificação dos termos
mais utilizados para representação de um domínio. Apesar destas contribuições, destaca-se
que a intervenção humana ainda é necessária para a limpeza dos materiais obtidos e para a
validação dos resultados.
Espera-se ter proposto uma metodologia para elaboração de novas representações de
domínios, com o intuito de aprimorar as técnicas e ferramentas de representação da
informação utilizadas na Ciência da Informação.

6 REFERÊNCIAS

ANTONIO, Irati. Informação e música no Brasil: memória, história e poder. São Paulo, 1994.
285 f. Dissertação (Mestrado em Ciência da Informação) - Escola de Comunicações e Artes,
Universidade de São Paulo.
ARTÊNCIO, Luciane Maria. Princípios de categorização nas linguagens documentárias.
2007. 129 f. Dissertação (Mestrado em Ciência da Informação) - Escola de Comunicações e
Artes, Universidade de São Paulo, São Paulo, 2007.
BAGOT, R. E. Extracció de terminologia: elements per a la construcció dún SEACUSE.
1999. Tese (Doutorado em Linguística Aplicada) - Institut Universitari de Linguística
Aplicada, Universitat Pompeu Fabra, Barcelona, 1999.

3548

�CAMPOS, Maria Luiza de Almeida; GOMES, Hagar Espanha. Organização de domínios de
conhecimento e os princípios ranganathianos. Perspectivas em Ciência da Informação, Belo
Horizonte, v. 8, n. 2, p. 150-163, jul./dez. 2003.
CANDIDO JUNIOR, Arnaldo. Criação de um ambiente para o processamento de corpus
de português histórico. 2008. 142 f. Dissertação (Mestrado em Ciências de Computação e
Matemática Computacional) - Instituto de Ciências Matemáticas e de Computação,
Universidade de São Paulo, São Carlos, 2008.
CINTRA, Anna Maria Marques et al. Para entender as linguagens documentárias. 2. ed.
rev. e ampl. São Paulo: Polis, 2002
DIAS, Eduardo Wense; NAVES, Madalena Martins Lopes. Análise de assunto: teoria e
prática. Brasília: Thesaurus, 2007.
FERREIRA, Sueli. O ensino das artes: construindo caminhos. Campinas: Papirus, 2001.
GUINCHAT, Claire; MENOU, Michel. Introdução geral às ciências e técnicas da informação
e documentação. 2. ed. Brasília: IBICT, 1994. 540.
MAI, J. E. Deconstructing the indexing process. Advances in Librarianship, 23, 2000, p.
269-298.
MAI, J. E. Semiotics and indexing: na analysis of the subject indexing process. Journal of
Documentation, 57, 2001, 591-622.
McDONALD, Carlton; YAZDANI, Masoud. Prolog programming: a tutorial introduction.
Oxford: Blackwell Scientific Publications, 1990.
MANNIS, José A.; CASTRO, Maria Lucia N. D. de; PASCOAL, Maria Lucia S. M.;
VOSGRAU, Sonia R. C.; ROSA, Lilia de O.; BOTTAS, Paulo V. Catalogação e
disponibilização de documentação musical pela Universidade Estadual de Campinas. In:
Simposium Iberoamericano de Educación, Cibernética e informática: SIECI 2006, 3.;
Conferencia Iberoamericana em Sistemas, Cibernética e Informática CISCI 2006, 5. Anais...
Orlando,

Florida,

EUA,

2006.

Disponível

em:

&lt;www.unicamp.br/cdmc/documentacao_musical_unicamp.pdf&gt;. Acesso em: 19 ago. 2012.
MERRIAM, A. P. The anthropology of music. Evanston: Northwestern University Press,
1964.
MOOERS, C. N. Zatocoding applied to mechanical organization of knowledge. American
Documentation, v. 2, p. 20-32, 1951.
NANTES, L. M. Desenvolvimento de um sistema baseado em linguagem natural para
consultas em banco de dados na Web. 63 p. Trabalho de Conclusão de Curso (Bacharelado
em Ciência da Computação) - Universidade do Oeste Paulista, Presidente Prudente, 2008.

3549

�Disponível

em:

&lt;http://fipp.unoeste.br/~chico/FIPP/projetos/projeto2008/Monografia_Nantes_2008.pdf&gt;.
Acesso em: 20 ago. 2013.
NUNES, M. G. V.; DIAS-DA-SILVA, B. C.; RINO, L. H. M.; OLIVEIRA JR., O. N.;
MARTINS, R. T.; MONTILHA, G. Introdução ao processamento das línguas naturais.
Notas Didáticas do ICMC, n. 38. São Carlos/SP, 1999. p. 91.
OLIVEIRA, Marlene de (Org). Ciência da informação e biblioteconomia: novos
conteúdos e espaços de atuação. 2. ed. Belo Horizonte: Editora UFMG, 2011.
ROBREDO, J. Documentação de hoje e de amanhã: uma abordagem revisitada e
contemporânea da Ciência da Informação e de suas aplicações biblioteconômicas,
documentárias, arquivísticas e museológicas. 4. ed. ver. e ampl. Brasília: Edição de autor,
2005.
OLIVEIRA NETO, J. M.; TONIN, S. D.; PRIETCH, S. S. Processamento de linguagem
natural

e

suas

aplicações

computacionais.

2010.

Disponível

em:

&lt;http://www.inpa.gov.br/erin2010/Artigo/Artigo9.pdf&gt;. Acesso em: 20 ago. 2013.
RANGANATHAN, S. R. Prolegomena to Library classification. Bombay: Asia Publishing
House, 1967. 640 p.
RIJSBERGEN, V. C. J. Information retrieval. 2. ed. Glasgow: Dept. of Computer Science,
University of Glasgow, 1979.
QUEIROZ, Gregório José Pereira de. A música compõe o homem, o homem compõe a
música. São Paulo: Cultrix, 2000.
SILVA, Renato Rocha; LIMA, Sérgio Muinhos Barroso. Consultas em bancos de dados
utilizando linguagem natural. Revista Eletrônica da Faculdade Metodista Granbery, Juiz
de

Fora,

v.

7,

n.

2,

ago/dez.

2007.

Disponível

em:

&lt;http://re.granbery.edu.br/artigos/MjQ0.pdf&gt;. Acesso em: 30 ago. 2013.
SILVEIRA, Filipe Pereira da. Integração de ferramentas para compilação e exploração de
corpora. 2008. 99 f. Dissertação (Mestrado em Ciência da Computação), Faculdade de
Informática, PUCRS, 2008.
TRISTÃO, Ana Maria Delazari; FACHIN, Gleisy Regina Bóries; ALARCON, Orestes
Estevam. Sistema de classificação facetada e tesauros: instrumentos para organização do
conhecimento. Ciência da Informação, Brasília, v. 33, n. 2, p. 161-171, maio/ago. 2004.
Disponível em: &lt;http://www.scielo.br/pdf/ci/v33/n2/a17v33n2.pdf&gt;. Acesso em 20 ago. 2013.
VIEIRA, R.; LIMA, V. L. S. Linguística computacional: princípios e aplicações. In: IX
Escola de Informática da SBC-Sul. Luciana Nedel (Ed.). Passo Fundo, Maringá, São José.
SBC-Sul, 2001.

3550

�</text>
                </elementText>
              </elementTextContainer>
            </element>
          </elementContainer>
        </elementSet>
      </elementSetContainer>
    </file>
  </fileContainer>
  <collection collectionId="62">
    <elementSetContainer>
      <elementSet elementSetId="1">
        <name>Dublin Core</name>
        <description>The Dublin Core metadata element set is common to all Omeka records, including items, files, and collections. For more information see, http://dublincore.org/documents/dces/.</description>
        <elementContainer>
          <element elementId="50">
            <name>Title</name>
            <description>A name given to the resource</description>
            <elementTextContainer>
              <elementText elementTextId="71368">
                <text>SNBU - Edição: 18 - Ano: 2014 (UFMG - Belo Horizonte/MG)</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="49">
            <name>Subject</name>
            <description>The topic of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="71369">
                <text>Biblioteconomia&#13;
Documentação&#13;
Ciência da Informação&#13;
Bibliotecas Universitárias</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="41">
            <name>Description</name>
            <description>An account of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="71370">
                <text>Tema: Bibliotecas Universitárias e o Acesso Público à Informação: articulando leis, tecnologias, práticas e gestão</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="39">
            <name>Creator</name>
            <description>An entity primarily responsible for making the resource</description>
            <elementTextContainer>
              <elementText elementTextId="71371">
                <text>SNBU - Seminário Nacional de Bibliotecas Universitárias</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="45">
            <name>Publisher</name>
            <description>An entity responsible for making the resource available</description>
            <elementTextContainer>
              <elementText elementTextId="71372">
                <text>UFMG</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="44">
            <name>Language</name>
            <description>A language of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="71373">
                <text>pt</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="51">
            <name>Type</name>
            <description>The nature or genre of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="71374">
                <text>Evento</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="38">
            <name>Coverage</name>
            <description>The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant</description>
            <elementTextContainer>
              <elementText elementTextId="71375">
                <text>Belo Horizonte (Minas Gerais)</text>
              </elementText>
            </elementTextContainer>
          </element>
        </elementContainer>
      </elementSet>
    </elementSetContainer>
  </collection>
  <itemType itemTypeId="8">
    <name>Event</name>
    <description>A non-persistent, time-based occurrence. Metadata for an event provides descriptive information that is the basis for discovery of the purpose, location, duration, and responsible agents associated with an event. Examples include an exhibition, webcast, conference, workshop, open day, performance, battle, trial, wedding, tea party, conflagration.</description>
  </itemType>
  <elementSetContainer>
    <elementSet elementSetId="1">
      <name>Dublin Core</name>
      <description>The Dublin Core metadata element set is common to all Omeka records, including items, files, and collections. For more information see, http://dublincore.org/documents/dces/.</description>
      <elementContainer>
        <element elementId="50">
          <name>Title</name>
          <description>A name given to the resource</description>
          <elementTextContainer>
            <elementText elementTextId="76157">
              <text>Processamento da linguagem natural na área da música: técnicas e tecnologias</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="39">
          <name>Creator</name>
          <description>An entity primarily responsible for making the resource</description>
          <elementTextContainer>
            <elementText elementTextId="76158">
              <text>Carmo, Juliana Rabelo do, Conceição, Valdirene Pereira da</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="38">
          <name>Coverage</name>
          <description>The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant</description>
          <elementTextContainer>
            <elementText elementTextId="76159">
              <text>Belo Horizonte (Minas Gerais)</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="45">
          <name>Publisher</name>
          <description>An entity responsible for making the resource available</description>
          <elementTextContainer>
            <elementText elementTextId="76160">
              <text>UFMG</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="40">
          <name>Date</name>
          <description>A point or period of time associated with an event in the lifecycle of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="76161">
              <text>2014</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="44">
          <name>Language</name>
          <description>A language of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="76162">
              <text>pt</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="51">
          <name>Type</name>
          <description>The nature or genre of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="76163">
              <text>Evento</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="41">
          <name>Description</name>
          <description>An account of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="76164">
              <text>Estudo exploratório sobre extração automática de conceitos com base no Processamento da Linguagem Natural (PLN). O objetivo da pesquisa consiste em analisar o cenário práticoconceitual da extração automática, visando a sistematização e organização de ferramentas de gestão terminológica e recuperação da informação por meio da estruturação de um vocabulário da área de Música. Apresenta os fundamentos da representação da informação e explica as ferramentas semânticas para interpretação organizada de estruturas do conhecimento, bem como as expressões de conceitos de um domínio, que representam a maior proximidade entre a linguagem ou termos utilizados pelos usuários em sistemas de buscas. Discorre sobre a categorização de domínios de especialidade fundamentada por Ranganathan. Expõe o PLN como sub-área da Linguística Computacional, que propicia a extração de termos com maior precisão semântica para recuperação da informação em sistemas de busca automatizados. Caracteriza os níveis, limitações e a arquitetura do PLN em bancos de dados, representados pelo léxico e acessado por analisadores léxicos, sintáticos e semânticos. Indica as tipologias de softwares para processamento de corpus e extratores de candidatos a termos, dividindo-os em três categorias: estatísticos, linguísticos e híbridos. Aborda o Domínio Musical em suas várias facetas de expressão, artística, antropológica e representação da informação musical. A metodologia e a descrição da pesquisa caracteriza-se como pesquisa aplicada, de natureza descritiva, utiliza os procedimentos de pesquisa bibliográfica e documental das áreas de CI, Linguística, Computação e Música, assumindo assim, o caráter interdisciplinar. Emprega o modelo de pesquisa em PLN, com o corpus composto pela amostra de 10 dissertações e 10 teses, disponíveis em 11 bases de dados de Programas de Pós Graduação em Música no Brasil e na Biblioteca Digital de Teses e Dissertações (BDTD), e 30 artigos de revistas científicas especializadas em Música, ambos os gêneros técnico-científicos produzidos entre os anos de 2003 à 2013. Utiliza o ambiente colaborativo de gestão terminológica, E-termos, para extração automática de termos, que irão compor o vocabulário controlado do domínio musical. Apresenta como resultados um corpora classificado como grande em termos quantitativos, composto por 424 textos com um total de 9.482.246 palavras, fato que implica na obtenção de um nível de representatividade alta de termos, classificada como médio-grande para construção do vocabulário de Música. Mostra as etapas executadas pelo E-termos para compilação, análise de corpus, contadores de freqüência e extração automática de termos. Apresenta o comparativo entre as categorias estruturadas por indexação manual e extração automática. Conclui indicando que a extração automática baseada em PLN constitui-se de uma ferramenta efetiva para a tradução da linguagem natural, utilizando as expressões utilizadas para a busca da informação como objetos lingüísticos e rapidez na construção de terminologias.</text>
            </elementText>
          </elementTextContainer>
        </element>
      </elementContainer>
    </elementSet>
  </elementSetContainer>
</item>
