http://repositorio.febab.org.br/files/original/62/6795/SNBU2014_281.pdf 428992f26b3127b0d0d2fb4cc9db32a8 PDF Text Text XVIII Seminário Nacional de Bibliotecas Universitárias SNBU 2014 PROCESSAMENTO DA LINGUAGEM NATURAL NA ÁREA DE MÚSICA: técnicas e tecnologias Juliana Rabelo do Carmo Valdirene Pereira da Conceição RESUMO Estudo exploratório sobre extração automática de conceitos com base no Processamento da Linguagem Natural (PLN). O objetivo da pesquisa consiste em analisar o cenário práticoconceitual da extração automática, visando a sistematização e organização de ferramentas de gestão terminológica e recuperação da informação por meio da estruturação de um vocabulário da área de Música. Apresenta os fundamentos da representação da informação e explica as ferramentas semânticas para interpretação organizada de estruturas do conhecimento, bem como as expressões de conceitos de um domínio, que representam a maior proximidade entre a linguagem ou termos utilizados pelos usuários em sistemas de buscas. Discorre sobre a categorização de domínios de especialidade fundamentada por Ranganathan. Expõe o PLN como sub-área da Linguística Computacional, que propicia a extração de termos com maior precisão semântica para recuperação da informação em sistemas de busca automatizados. Caracteriza os níveis, limitações e a arquitetura do PLN em bancos de dados, representados pelo léxico e acessado por analisadores léxicos, sintáticos e semânticos. Indica as tipologias de softwares para processamento de corpus e extratores de candidatos a termos, dividindo-os em três categorias: estatísticos, linguísticos e híbridos. Aborda o Domínio Musical em suas várias facetas de expressão, artística, antropológica e representação da informação musical. A metodologia e a descrição da pesquisa caracteriza-se como pesquisa aplicada, de natureza descritiva, utiliza os procedimentos de pesquisa bibliográfica e documental das áreas de CI, Linguística, Computação e Música, assumindo assim, o caráter interdisciplinar. Emprega o modelo de pesquisa em PLN, com o corpus composto pela amostra de 10 dissertações e 10 teses, disponíveis em 11 bases de dados de Programas de Pós Graduação em Música no Brasil e na Biblioteca Digital de Teses e Dissertações (BDTD), e 30 artigos de revistas científicas especializadas em Música, ambos os gêneros técnico-científicos produzidos entre os anos de 2003 à 2013. Utiliza o ambiente colaborativo de gestão terminológica, E-termos, para extração automática de termos, que irão compor o vocabulário controlado do domínio musical. Apresenta como resultados um corpora classificado como grande em termos quantitativos, composto por 424 textos com um total de 9.482.246 palavras, fato que implica na obtenção de um nível de representatividade alta de termos, classificada como médio-grande para construção do vocabulário de Música. Mostra as etapas executadas pelo E-termos para compilação, análise de corpus, contadores de freqüência e extração automática de termos. Apresenta o comparativo entre as categorias estruturadas por indexação manual e extração automática. Conclui indicando que a extração automática baseada em PLN constitui-se de uma ferramenta efetiva para a tradução da linguagem natural, 3532 �utilizando as expressões utilizadas para a busca da informação como objetos lingüísticos e rapidez na construção de terminologias. Palavras-Chave: Processamento da Linguagem Natural Informação; Semântica Lexical; Domínio de Música. (PLN); Representação da ABSTRACT Exploratory study on automatic extraction of concepts based on Natural Language Processing (PLN). The objective of the research is to analyze the practical and conceptual scenario of automatic extraction, aimed at systematizing and organizing terminology management and retrieval of information by structuring a vocabulary of the music area tools. Presents the fundamentals of information representation and explains the semantic tools to organized structures of knowledge interpretation, as well as expressions of concepts in a domain, representing the closeness between the language or terms used by users in search systems. Discusses the categorization of domains supported by Ranganathan specialty. Exposes the PLN as a sub-field of Computational Linguistics, which facilitates the extraction of terms with higher accuracy for semantic information retrieval in the automated search systems. Features levels, limitations and the architecture of PLN in databases, represented by the lexicon and accessed by lexical, syntactic and semantic parsers. Indicates the types of software for processing and corpus extractors candidate terms, dividing them into three categories: statistical, linguistic and hybrids. Domain addresses the Musical in its various facets of expression, artistic, anthropological and representation of musical information. The methodology and the description of the research is characterized as applied, theoretical and exploratory research includes procedures for bibliographic research and document the areas of CI, Linguistics, Computer Music, thus providing the interdisciplinary character. Employs the research model in PLN, with the corpus of the sample of 10 dissertations and 10 theses available in 11 databases of Graduate Programs in Music in Brazil and the Digital Library of Theses and Dissertations (BDTD), and 30 articles in technical journals in Music, both technical and scientific genres produced between the years 2003 to 2013. Uses collaborative environment terminology management, E-terms for automatic extraction of terms, which will compose the controlled vocabulary of the music sector . Displays results as one corpora classified as large in quantitative terms, composed of 424 texts with a total of 9,482,246 words, a fact that implies in obtaining a high level of representativeness of terms, classified as medium-to large vocabulary building Music . Shows the steps performed by the E-terms to build, corpus analysis, frequency counters and automatic extraction of terms. Presents the comparison between the structured for manual indexing and automatic extraction categories. Concludes indicating that the automatic extraction based on PLN constitutes an effective tool for the translation of natural language, using the keywords used for the search of information as linguistic objects and speed in building terminologies. Keywords: Natural Language Processing (PLN); Representation of Information; Lexical Semantics; Domain Music. 1 INTRODUÇÃO A necessidade de estudos na perspectiva da representação e recuperação da informação em documentos musicais possui uma longa trajetória de discussões na área da Ciência da Informação, uma vez que os catálogos bibliográficos não compreendem a 3533 �linguagem de indexação de modo a suprir as necessidades dos usuários na realização de buscas. Antonio (1994, p. 3) apregoa que [...] as dificuldades da comunidade musical na busca e sistematização das informações são crescentes [...] Essa situação aponta para a necessidade de desenvolver estudos que visem conhecer e sistematizar as condições da pesquisa e da organização da informação em música. Outro ponto que apoia essa problemática consiste na escassez de ferramentas para pesquisa nos acervos de música, conforme expõe Mannis (2006, p. 2) “[...] não são muitas as fontes de documentação musical no Brasil possuindo acervos catalogados em sistemas automatizados [...]”. Ou seja, urge a necessidade de ação do bibliotecário frente a esse cenário e considera-se o importante papel do profissional da informação com conhecimento em assuntos específicos para possibilitar maior possibilidade de operacionalização de materiais com características peculiares. As motivações que levaram à sistematização da terminologia desta área do conhecimento, e o consequente interesse pela elaboração de um vocabulário são originadas por diferentes ordens: profissional, na Ciência da informação, no sentido de identificar ferramentas de representação da informação musical, bem como da necessidade de instrumentos de controle terminológico nesta área que possibilite a identificação dos itens lexicais recorrentes. O objetivo dessa pesquisa está em analisar o cenário prático-conceitual da extração automática e representação da informação, com ênfase na sistematização, organização e o uso de ferramentas de gestão terminológica para fins de recuperação da informação por meio da estruturação de um vocabulário controlado do domínio musical, com vistas a compreender como estes conceitos extraídos contribuem para representar tais materiais como fontes de informação. Concomitante aos propósitos apresentados, a discussão proposta pretende, antes da atribuição de categorias e conceitos/léxicos para construção de um vocabulário, aborda o léxico musical, apontando para a interpretação correta dos termos tratados, situando-os na perspectiva da representação da informação, além de conferir-lhe o respectivo significado e possibilitando relações entre outros conceitos. 2 REPRESENTAÇÃO DA INFORMAÇÃO E SEUS FUNDAMENTOS A Ciência da Informação é uma disciplina que investiga as propriedades e o comportamento da informação, as forças que governam seu fluxo e os meios de 3534 �processamento para otimizar sua acessibilidade e utilização. Fundamenta-se através da produção, coleta, organização, armazenagem, recuperação, interpretação, transmissão, transformação e utilização da informação. O termo recuperação da informação, cunhado por Mooers (1951) buscava representar “[...] aspectos intelectuais da descrição de informações e suas especificidades para a busca, além de quaisquer sistemas, técnicas ou máquinas empregados para o desempenho da operação.”. Oliveira (2011) corrobora ainda apresentando três questões implícitas no enunciado de Mooers: a) como descrever intelectualmente a informação; b) como especificar intelectualmente a busca; e, c) que sistemas, técnicas ou máquinas devem ser empregados. Convém ainda ressaltar a explosão de informações científicas, que originou a necessidade de uma documentação automatizada, tornando fundamental o uso das contribuições da Linguística para suprir as necessidades da documentação neste contexto. Resgatando os ideais da Semântica sobre significado, as suas contribuições para a indexação são significativas no que diz respeito à pesquisa em processamento automático de texto, em especial, nos estudos de indexação automática onde se buscam soluções baseadas no modelo lingüístico. Para tanto, o processo de Indexação destaca-se por entender que esta é a etapa que está diretamente relacionada com a busca dos usuários, que também são considerados instrumentos de representação, organização e recuperação da informação nas bases de dados. Robredo (2005, p. 165) complementa ainda que “a indexação consiste em indicar o conteúdo temático de uma unidade de informação, mediante a atribuição de um ou mais termos (ou códigos) ao documento, de forma a caracterizá-lo de forma unívoca.”. Um aspecto para análise da Indexação consiste nas dificuldades de extrair de forma precisa os assuntos a serem buscados pelos usuários, Mai (2001, p. 606) explica a limitação ao expor que: Seria quase impossível, naturalmente, para qualquer pessoa ou, neste caso, qualquer indexador, precisar todas as idéias e significados que estivessem associados a qualquer documento, posto que sempre haverá idéias e significados potenciais que diferentes pessoas em diferentes momentos e lugares poderão descobrir nesse documento. Além do que, seria quase impossível prever com exatidão quais das inúmeras idéias e significados que estivessem associados ao documento seriam especificamente úteis para os usuários ou dariam ao documento alguma utilidade duradoura. É de máxima importância reconhecer e aceitar essa indefinição fundamental. O indexador deve compreender, desde o início, que jamais descobrirá todas as idéias e significados que estariam associados ao documento e que, portanto, não é possível descrever todas essas idéias e significados. 3535 �Para suprir essa lacuna, alguns fatores possuem influência na exatidão no processo de busca dos termos descritores, ou seja, por meio da adequação de critérios pode-se obter a qualidade da Indexação, apoiada nas considerações de Guinchat e Menou (1994, p. 180), no que diz respeito aos pontos: exaustividade; seletividade; especificidade; e uniformidade, porém, Dias e Naves (2007, p. 33) revelam que tais critérios são difíceis de serem operacionalizados. Tais questões precisam ser observadas visando obter uma indexação orientada para o usuário, conforme adverte Mai (2000, p. 294): Se se focalizar exclusivamente o aspecto da representação, ignorando os usuários futuros, corre-se o risco de representar os documentos de uma forma que não terá qualquer serventia para os usuários. Um indexador que não dê muita atenção nos usuários poderá optar por representar assuntos de documentos que não tenham interesse para eles, ou usar um vocabulário diferente do vocabulário deles, ou representar o assunto em nível que seja muito genérico ou muito específico para eles. No entanto, se o indexador der excessiva atenção aos usuários do sistema, poderá representar os documentos numa forma tal que a representação temática dos documentos somente atenda aos usuários atuais e às necessidades de informação atuais. Trata-se da observação da linguagem natural utilizada pelo usuário para descrever um determinado assunto; da percepção do indexador para esse aspecto; e a aplicação da linguagem documentária. Compreendem-se as linguagens documentárias como “[...] o conjunto de termos, providos ou não de regras sintáticas, utilizadas para representar conteúdos de documentos técnico-científicos com fins de classificação ou busca retrospectiva de informações [...]” (GARDIN apud CINTRA et al., 2002, p. 35), com o intuito de facilitar a comunicação entre a linguagem natural dos usuários e a unidade de informação, bem como representar os conteúdos dos documentos. (TRISTÃO; FACHIN; ALARCON, 2004). 2.1 Compreendendo a categorização de domínios de especialidade Ranganathan (1967) estrutura cinco idéias (ou categorias) fundamentais, que podem ser compreendidas como “[...] categorias as mais genéricas possíveis e passíveis de se manifestarem de diversas formas, capazes de hospedar todos os objetos da natureza até então conhecidos pelo Homem, e de classificá-los de acordo com sua natureza conceitual, cada um numa e somente numa categoria.”, ou seja, os níveis elencados servem como bases para uma classificação flexível de um determinado domínio, bem como as relações conceituais existentes nas categorias. As Cinco Categorias Fundamentais são apresentadas do seguinte modo: 3536 �Há cinco e somente cinco Categorias Fundamentais; são elas: Tempo, Espaço, Energia, Matéria e Personalidade. Estes termos e as idéias denotadas são usadas estritamente no contexto da disciplina de classificação. Não têm nada a ver com seu emprego em Metafísica ou Física. Em nosso contexto, seu significado pode ser visto somente nas declarações sobre as facetas de um assunto - sua separação e sequência. Este conjunto de categorias fundamentais é, em síntese, denotado pelas iniciais PMEST. (RANGANATHAN, 1967, p. 398, grifo nosso). Para o autor, as facetas equivalem a ramificações dentro de um assunto para fins de classificação, sendo atribuídos a cada categoria os seguintes sentidos: Tempo, onde se atribui aspectos como milênio, século, década, ano, etc., características específicas como dia, noite, verão e inverno, e qualidade meteorológica como úmido, seco, tormentoso; Espaço, no que diz respeito aos ambientes geográficos da Terra, dentro e fora dela, tais como países, estados, etc.; Energia, onde suas as manifestações de uma espécie sobre a outra, exigindo assim um cuidado maior para sua compreensão, haja vista que esta ação pode ocorrer entre espécies de entidade, inanimada, animada, conceitual, intelectual e intuitiva. Expõe ainda as facetas: Matéria, sendo que esta categoria subdivide-se em duas espécies, material e propriedade, e consiste basicamente na percepção que as propriedades estão, na maioria das vezes, intrinsecamente ligadas ao material, constituindo-se assim como uma de suas propriedades; e por fim, a Personalidade, que se apresenta indefinível por Ranganathan, cabendo a sua atribuição somente no caso de negação à todas as outras categorias. Ranganathan mostra ainda que cada categoria de um domínio de conhecimento possui renques e cadeias para organização dos conceitos em estruturas classificatórias hierárquicas. Para o teórico, os renques e cadeias se diferem de acordo com as características de divisão: enquanto os renques formam séries horizontais, a partir de uma única característica, listando assim todos os conceitos relacionados de um aspecto, enquanto nas cadeias cada conceito possui uma característica a mais ou a menos, podendo ser descendente ou ascendente (CAMPOS; GOMES, 2003, p. 161). Entende-se a categorização como estruturas de ordenação para fenômenos agrupados e relacionados, com base em suas diferenças, com base na “[...] ocorrência de características comuns em diversos membros, ou seja, o conceito na sua mais ampla extensão.” (ARTÊNCIO, 2007, p. 72). Isso significa dizer que a categorização nada mais é do que a estruturação de conceitos gerais de um domínio que se relacionam com os conceitos específicos de acordo com seus atributos. O exemplo na Tabela x apresenta alguns exemplos de categorizações do domínio musical. 3537 �Tabela 1: Exemplos de categorias, subcategorias e termos do domínio de Música CATEGORIAS Instrumentos musicais SUBCATEGORIAS • Instrumentos de sopro • TERMOS/DESCRITORES Flauta doce Tuba Instrumentos de cordas Violão Guitarra Contra-baixo Fonte: a autora O exemplo mostra que dentro de cada categoria existem várias subordinações de acordo com as características dos conceitos, como por exemplo, na categoria instrumentos musicais, as subcategorias subsequentes podem ser instrumentos de sopro, instrumentos de cordas, etc., de acordo com o exemplo citado. As subcategorias irão abrigar os termos de acordo com o nível de especificidade são vinculados os conceitos pertencentes a cada categoria, fato que reforça a ideia de categoria enquanto conceitos gerais de um domínio. Em suma, a categorização utiliza o princípio de associação para representar um domínio ou conceito, ou seja, quando a categoria Música é citada para busca, a necessidade específica de informação pode ser relacionada a instrumentos musicais, gêneros, partituras, Etnomusicologia, entre outros aspectos deste domínio. Desse modo, considera-se a categorização como uma forma de organização de Sistemas de Recuperação da Informação com a finalidade de facilitar a recuperação da informação, sendo consideradas flexíveis e mutáveis de acordo com a abordagem a ser utilizada de um conceito. 3 PROCESSAMENTO DA LINGUAGEM NATURAL (PLN): algumas considerações Dentre os vários eixos de estudo da área de Computação, a Inteligência Artificial centraliza-se em desenvolver métodos para que os computadores realizem tarefas de modo a simular a inteligência humana na resolução de problemas. A comunicação e o uso da linguagem em sistemas originaram a necessidade da tradução da linguagem humana para a linguagem artificial, utilizada pelos computadores, constituindo assim uma de suas bases de estudo. Nesta perspectiva, como um ramo da IA surge a Linguística Computacional, que é definida por Vieira e Lima (2001, p. 1) como “[...] a área de conhecimento que explora as relações entre linguística e informática, tornando possível a construção de sistemas com capacidade de reconhecer e produzir informação apresentada em linguagem natural.”. A 3538 �Linguística Computacional possui duas sub-áreas, que compreendem a Linguística de Corpus e o PLN. O PLN tem sido estudado pela área da CI na perspectiva teórica, em especial no campo da Indexação e Recuperação da Informação, por entender que os softwares baseados neste modelo propiciam a extração de termos com maior precisão semântica para recuperação da informação em sistemas de busca automatizados. McDonald e Yazdani (1990, p. 176) corroboram com a assertiva de que “[...] a pesquisa em PLN pode proporcionar insights bastante úteis sobre processos e representações da linguagem na mente humana, apontando, assim, para a verdadeira IA.”. Em suma, a aplicação do PLN refere-se às áreas de: acesso a banco de dados; recuperação da informação; extração da informação; tradução automática e geração de resumos. O PLN subdivide-se em níveis de análise e/ou estudo que compreendem: a interpretação, onde são desenvolvidas questões relativas ao estudo da língua de modo que as palavras se tornem compreensíveis pelo computador e, consequentemente, o armazenamento para que ocorra a utilização destas palavras em sistemas, tomando como exemplo os tradutores (ou chatterbots); e de geração, que ocorre de forma inversa, a partir da inclusão de termos ou expressões, o computador adquire a capacidade de traduzir a compreensão do sistema para a linguagem natural por meio de estruturações semânticas pré-determinadas, no caso dos resumos e palavras-chave. Nesta perspectiva, o PLN enquanto Sistema baseado no Conhecimento utiliza-se de cinco alicerces: gramática, léxico e o modelo de discurso, ou seja, as informações sobre a língua; modelo de domínio, a ser aplicado; e modelo do usuário que utiliza o sistema (NUNES et al., 1999). O nível morfológico consiste na definição da estrutura de palavras, bem como a significação e função de cada palavra na frase (adjetivo, substantivo, verbo, etc.); nível sintático, por meio da análise da construção gramatical, suas relações entre unidades linguísticas e sua colocação (sujeito, predicado verbal, etc.); nível semântico, onde as palavras são analisadas pelo seu significado, a partir da análise sintática; nível do discurso, compreensão do significado da palavra a partir do contexto em que ele está inserido; nível pragmático, onde ocorre a compreensão do conteúdo da frase ou texto, a partir da determinação de sua tipologia (pergunta, afirmação) (NUNES et al., 1999). Em contrapartida, dentre as vantagens do uso do PLN estão: a eliminação da necessidade de adaptação a formas inusitadas de interação, cuja construção gramatical costuma ser de difícil aprendizado e domínio, a exemplo das linguagens de consulta de bancos de dados (NUNES, 2007, apud NANTES, 2008, p. 26); o usuário não precisa entender 3539 �o funcionamento de um banco de dados, ele apenas deseja que o resultado da pesquisa seja mostrado de forma simples e objetiva (GARIBA et al., 2005 apud OLIVEIRA; TONIN; PRIETCH, 2010, p. 2); é possível ainda, o entendimento de consulta com erros (termos digitados erroneamente) e incompletas, buscando por palavras próximas e pelo contexto da conversação (SILVA; LIMA, 2007, p. 2). Para tanto, basta que o usuário tenha um conhecimento básico da área - e ainda, assunto ou domínio -, da especialidade da base de dados. 3.1 Softwares de processamento de corpus Na Linguística de corpus, o corpus de um determinado léxico pode ser analisado por várias óticas e/ou critérios. Candido Junior (2008, p. 3) explica que: Os softwares para processamento de córpus podem ser agrupados em quatro grandes categorias, de acordo com a etapa de construção de córpus na qual são usadas: compilação de textos (por exemplo, reconhecedores ópticos de caracteres ou mineradores Web), anotação (por exemplo, editores de XML e etiquetadores sintáticos), acesso a córpus (por exemplo, concordanceadores e contadores de frequências) e extração de conhecimento (por exemplo, tradutores de máquinas e sumarizadores). Isso significa dizer que em suma o processamento de corpus visa a extração de termos precisos o que nos remete à Terminologia, tendo como resultado principal deste processo, a constituição de glossários, dicionários, vocabulários controlados e tesauros, com auxílio das ferramentas computacionais, que no caso são os softwares extratores. De acordo com Bagot (1999), a metodologia para utilização de termos ou sistemas extratores de candidatos a termos classificam-se em três categorias: sistemas baseados em conhecimento estatístico; sistemas baseados em conhecimento linguístico e; sistemas híbridos, dentre os quais destacamos como exemplo, por tipologias: • Estatísticos: Pacote NSP (N-gram Statistics Pack-age); Corpógrafo; XExtractor; • Linguísticos: WebCorp, Unitex, GATE (General Architecture for Text Engineering); LácioWeb; Syntex; ExatoLP; • Híbridos: OntoGen. A partir destas considerações iniciais, vale ressaltar que o PLN não é um modelo de recuperação da informação, e sim um método de interação que pode ser efetivado em sistemas de informação (ou bancos de dados específicos) visando interpretar de forma mais precisa possível a linguagem dos usuários, focando o texto, uma vez que as expressões utilizadas para busca da informação são constituintes dos objetos linguísticos. 3540 �4 O DOMÍNIO MUSICAL COMO MEIO DE EXPRESSÃO A Música é um elemento fundamental nas diversas dimensões da vida humana. Como dado coletivo, social, a música reflete o meio ou a situação em que estamos inseridos. E neste mesmo sentido, marca e identifica gerações. Compõe-se por informações de cunho artístico, que diverge da informação textual pela forma de expressão do seu conteúdo, que podem ser representados por sons, partituras, áudio digital, entre outros, que possuem uma linguagem que necessitam de representações específicas. Na perspectiva filosófica educacional as influências das Artes, em especial a Música, tiveram seus reflexos registrados na história. Na Grécia, a Música era diretamente relacionada à Filosofia e à Educação, acreditava-se que os seus efeitos agiam diretamente sobre a mente, corpo e alma, e por estes motivos, eram restritas somente aos cidadãos livres. A Música trata-se de um elemento antropológico-cultural, que embora se origine e se desenvolva na esfera dos sentimentos, das emoções, do gosto pessoal, da sensibilidade e da subjetividade, tem também uma objetividade, cujas fontes se encontram no ambiente natural, histórico e social do povo. Para Queiroz (2000, p. 17) O conteúdo musical trata da mensagem, de caráter emocional, presente na música. Ou dizendo de outro modo, o conteúdo musical é aquilo que a música transmite, o estado que a música porta. E, por mais contestação que possa haver quanto à definição do quê ela porta, deve ser claro que algo ela porta. [...] quando verdadeiramente artístico, dá testemunho da verdade e da harmonia possível a vida - em uma forma compreensível à sensibilidade emocional. Assim, pode-se afirmar que a Música reflete o que somos, o nosso modo de ser, de pensar as coisas, de relacionar-se com as pessoas e com o universo, ou seja, “[...] a música é uma arte eminentemente social, portanto, vinculada a sua época e ao seu lugar, suscetível às variações da sociedade incluindo evolução tecnológica.” (FERREIRA, 2001, p. 92). Merriam (1964, apud HUMES, 2004) expõe que a Música constitui-se como um produto da cultura de um povo. Hummes ressalta dez funções da Música na Etnomusicologia, apresentada por Merriam, a saber: 1) expressão emocional; 2) prazer estético; 3) divertimento; 4) comunicação; 5) representação; 6) reação física; 7) impor conformidade às normas sociais; 8) validação das funções sociais e dos ritos religiosos; 9) contribuição para a continuidade e estabilidade da cultura e; 10) contribuição para a integração da sociedade. Estes elementos são resultados de processos e interpretações sociais, representados em diferentes formas. Entende-se que a Música além de uma expressão artística, é entendida também como uma forma de linguagem, capaz de exprimir as realidades cotidianas, fato este que 3541 �justifica as expressões musicais próprias de cada civilização ou povo, caracterizando-se como um instrumento de identidade e transformação social. 5 MATERIAIS E MÉTODOS O estudo trata-se de pesquisa aplicada (gerando aplicações práticas, dirigidas para problemas específicos), de natureza descritiva e exploratória. Descritiva, por caracterizar o desenvolvimento e apresentação dos resultados do processo de extração automática de termos. E ainda, de natureza exploratória ao propor de um vocabulário de um domínio de conceitos, com base no agrupamento de itens lexicais especializados, no caso, do campo musical. A estruturação de um corpus, ou seja, a definição de “[...] uma coleção de documentos coletados dentro de determinados padrões ou exigências, para a realização de estudos linguísticos ou computacionais de aprendizagem de máquina.” (SILVEIRA, 2008, p. 29), ou seja, uma amostra da linguagem que irá compor o objeto da pesquisa em formato eletrônico, sendo especializado por se tratar de um domínio do conhecimento. O corpus de Música envolveu etapas definidas, como levantamento de teses e dissertações do domínio de Música, produzidas nos principais Programas de Pós Graduação em Música dos Centros/Instituições no Brasil, além de artigos científicos de revistas deste campo: Universidade de Campinas (UNICAMP); Universidade Federal do Rio Grande do Sul (UFRGS); Universidade Federal do Paraná (UFPR); Universidade Federal do Rio Grande do Norte (UFRN); Universidade Federal da Bahia (UFBA); Escola de Música (UFMG); Revista eletrônica de Musicologia; PERCEPTA - Revista de cognição musical; Música em perspectiva; Per Musi - Revista acadêmica de Música; Música e cultura - Revista da Associação Brasileira de Etnomusicologia; Música em contexto; Revista Opus. A definição da amostra compreende o período de 2003 à 2013, com corpus não estruturado, dentre os quais foram selecionados o quantitativo de 10 dissertações, 10 teses e em média 30 artigos - haja vista que a maioria das revistas possuem 2 publicações anuais -, produzidos por ano em todos os programas e/ou revistas citados. Vale ressaltar que tais documentos foram obtidos em formato eletrônico e em pdf, por meio de pesquisas na Web nos repositórios digitais dos Programas/Revistas citados. A escolha dos corpora dos Programas de Pós Graduação e Revistas citadas pautaram-se no fato de se tratar dos principais centros e veículos de comunicação científica do país voltados para a Música que disponibilizam suas produções em formato eletrônico em seus repositórios institucionais, se tornando assim fontes de literatura especializada. A seleção justifica-se ainda por tais Programas/Revistas se constituírem como fonte de coleta tanto dos 3542 �conceitos quanto dos itens lexicais recorrentes no domínio de Música, contribuindo assim para solucionar a problemática da inexistência de instrumentos de controle terminológico para este domínio. 5.1 Extração automática de termos A sistematização do vocabulário de Música na pesquisa abrange o uso do ambiente colaborativo de gestão terminológica, e-Termos, em especial, no que diz respeito a utilização de uma funcionalidade de extração de termos deste ambiente, viabilizada pelo uso do software estatístico, o Pacote N-gram Stastistic Package (NSP) em sua interface. Desse modo, a extração automática a candidatos de termos tem com base o Processamento da Linguagem Natural, visando maior extração do conhecimento semântico dos textos processados. As etapas de fundamentação metodológicas são: a) Busca e seleção de fontes não estruturadas, no caso, teses e dissertações disponíveis em formato eletrônico e em pdf nas bases de dados definidas; b) Compilação do corpus: esta etapa envolve o armazenamento do corpus; c) Manipulação dos arquivos do corpus; d) Inclusão dos textos do corpus no e-Termos; e) Levantamento e análise da lista de unigramas, bigramas, trigramas e tetragramas, que correspondem a termos compostos por uma, duas, três ou quatro unidades, respectivamente, realizado pelo software Pacote NSP, integrado ao e-Termos; f) Limpeza das listas geradas, com eliminação de unidades que não correspondem a termos; g)Validação: escolha de julgadores, pertencentes a área abordada pelo vocabulário e preparação do material a ser conduzido para os julgadores para definição dos critérios para escolha dos termos definitivos; h) Identificação das categorias; i) Organização e apresentação do vocabulário de Música. 6 RESULTADOS E DISCUSSÕES O objetivo desta seção é apresentar a metodologia de desenvolvimento do vocabulário musical, que utiliza o pacote NSP para realização da extração estatística de candidatos de termos. Devido o seu funcionamento ser via linha de comandos, o E-termos criou um ambiente com interface para o usuário para auxiliar na construção de vocabulários baseada em PLN. A abordagem utilizada é considerada semi-automática, devido à intervenção humana, que abarca quatro etapas principais: 1) construção de um vocabulário do Domínio Musical por meio da Indexação manual; 2) Compilação e processamento automático do corpus no 3543 �ambiente E-termos; 3) Extração automática de candidatos a termos; e 4) Cálculo da freqüência dos termos candidatos ao vocabulário, por meio de tarefas manuais e automáticas. 6.1 Sistematização manual preliminar do domínio A leitura técnica preliminar do corpus, em especial de informações contidas no título, palavras-chave, resumo, título das seções, introdução e conclusão, torna possível a extração manual de candidatos a termos, com base na técnica da Indexação, haja vista que tais informações embasarão o vocabulário do domínio musical. A motivação por este tipo de procedimento está, principalmente, no registro destas informações, entendidas aqui como categorias, ou seja, possíveis termos descritores, e itens lexicais, que posteriormente serão comparadas aos termos que serão extraídos automaticamente, visando analisar as aproximações dos resultados obtidos. Após a indexação manual, fase que prepara a lista de termos em que a extração se baseia, e retoma-se o ideal de categorização a partir dos 699 textos, sendo estes, 358 dissertações, 100 teses e 241 artigos científicos indexados manualmente, que geraram o quantitativo de 29 categorias conceituais que abrigam as unidades lexicais que representam o Domínio Musical. Algumas das categorizações obtidas e as subcategorias sistematizadas estão dispostas abaixo, conforme a ocorrência dos termos nos textos. Vale ressaltar que em todas as subcategorias estão abarcados vários itens lexicais desta especialidade. Música vocal Canto Coro a capella (sopranos, contraltos, tenores, baixos) Instrumentos musicais Instrumentos de cordas (contrabaixo, violão, harpa, guitarra, viola, violina, cavaquinho, violoncelo) Instrumentos de sopro (saxofone, fagote, trombone, trompete, trompa, clarineta, flauta) Processos composicionais Ciclos vitais (ambiguidade de conceitos, movimento cíclico de eterno retorno, vir-a-ser, simetrias) Avaliação de produção musical (matérias, expressão, forma, valor) Gêneros Baião, pop, funk, dobrado, samba, bolero, missa, bossa nova, marchinha, modinha, xote, maracatu, música sacra, música popular, seresta, choro, valsa, bossa nova, cantoria de cego, repente, hip hop. Escrita Musical Conteúdo rítmico Conteúdo melódico Perfomance 3544 �Posição da mão, articulação e ângulo dos dedos, tipos de articulação, movimentos do pulso, absorção do peso, movimento corporal, emissão do som, memorização. Educação musical Formal, informal, aprendizagem midiática, habilidades profissionais, ensino, modelos. Ao final do processo compilatório, obteve-se um corpus médio-grande constituído por 9.482.246 palavras, extraídos de 424 textos selecionados para o processamento de texto, extraídos de 14 fontes diferentes, entre produções técnico-científica de Programas de Pós Graduação e revistas científicas. Vale ressaltar que o quantitativo inicial de textos que participaram da indexação manual foi de 699 textos, com os cortes de 275 textos, tendo assim, como produto final 424 textos participantes. Em termos quantitativos para fins de processamento automático pela plataforma Etermos, o corte citado justifica-se pela necessidade da exclusão dos textos que tiveram problemáticas tanto no momento da conversão do formato PDF para txt, para processamento do texto. Os documentos digitalizados também perpassaram pelo mesmo entrave, fato que, no caso do gênero Teses, justifica a redução de textos participantes no processamento de textos. 6.2 Estruturação automática do domínio A pesquisa utilizou as ferramentas da plataforma colaborativa E-termos, apresentada em seções anteriores, que fornece acesso livre e gratuito. Para ter acesso é necessário a realização de um cadastro, e em seguida o pesquisador precisa propor um projeto para utilizar as ferramentas disponíveis. O valor do corte inferior, ou seja, o quantitativo mínimo de frequência para que uma unidade lexical se candidate a termo, foi estruturada de acordo com a observação da frequência mínima de termos úteis, conforme apresenta a Tabela 6. Tabela 2: Valor dos cortes de frequência (termos desconsiderados) por gênero GÊNERO TAMANHO DO CÓRPUS Teses 937.292 Dissertações 6.875.501 Artigos científicos 1.669.453 CORTE DE FREQUÊNCIA (QUANTITATIVO) 100 para unigramas 10 para bigramas e trigramas 100 para unigramas 10 para bigramas 10 trigramas 100 para unigramas 10 para bigramas e trigramas Fonte: dados da pesquisa 3545 �Inicialmente foram observadas todas as frequências mínimas, e feita a limpeza manual de termos, para se estabelecer um quantitativo válido. Apesar de não haver um consenso na literatura da área sobre os valores de corte, Rijsbergen (1979) afirma que “[...] uma certa arbitrariedade está envolvida na determinação dos pontos de corte, bem como na curva imaginária, os quais são estabelecidos por tentativa de erro.”. Nesse sentido, o corte de frequência da pesquisa se baseou nos parâmetros quantitativos de palavras que constituem os corpus, e ainda, de acordo com aqueles que mesmo com frequência baixa, no caso 10 (dez), se constituem como termos úteis. Após a limpeza manual das listas de unigramas, bigramas e trigramas, por gênero textual, geradas pelo E-termos, e da eliminação das palavras que não se constituem necessariamente como um termo. Esse processo teve como resultado o comparativo entre os candidatos a termos por extração estatística e o número final de termos, resultantes da compilação de todos os gêneros textuais para uma visão geral dos dados de processamento de textos na Tabela 7. Tabela 3: Comparativo entre números de candidatos por extração estatística e número final de termos N-gram NÚMERO DE CANDIDATOS DO NSP N° FINAL (Dissertações, teses e artigos) TERMOS Unigramas Bigramas Trigramas Total 4.880.851 673.644 927.961 6.482.456 DE 930 513 226 1.669 Fonte: dados da pesquisa Tais dados mostram que é possível afirmar que, neste caso, quanto maior o número de unidades que compõe o termo, maior o número de candidatos a termos, devido a função “Frequência simples” disponibilizada pelo pacote NSP, integrado ao E-termos. Outro fator que levou à grande redução de termos finais em relação aos candidatos extraídos pelo pacote NSP se deu pela grande quantidade de “sujeira” nos textos processados, a exemplo disso, podemos citar palavras com as acentuações que atrapalham o processo de extração e, consequentemente, descarta alguns termos que poderiam vir a ser úteis. Em suma, ao final do processo de extração automática de termos obteve-se, em geral, um quantitativo de 930 unigramas, 513 bigramas e 226 trigramas, dos três gêneros textuais analisados, totalizando 1230 termos considerados úteis e representativos para domínio musical. 3546 �Tais considerações mostram que, apesar de o método estatístico gerar ruídos, ou seja, palavras que não possuem valor terminológico, este método é de extrema importância para fins de indexação, tradução, construção de tesauros, entre outras ferramentas de representação e recuperação da informação por proporcionar automatizar a identificação e seleção de unidades lexicais de um corpus, ao proporcionar rapidez na construção de Terminologias. Os subsídios apontados a partir desta análise mostram que a extração automática de termos baseada em freqüência estatística, facilitada pelo ambiente E-termos, permite o aprimoramento das técnicas e reforça a precisão no processo de Indexação. Espera-se ter demonstrado o percurso para estruturação de um vocabulário com os subsídios do Processamento da Linguagem Natural para construção de vocabulários. 5 CONCLUSÃO A pesquisa se deteve em abordar a prática da indexação e representação da informação para estruturação do vocabulário do domínio musical no período de uma década, de 2003 a 2013, com a finalidade de analisar os léxicos produzidos nesta área e relacioná-los com outros conceitos, por meio da categorização. Dentre os objetivos da análise prático-conceitual da indexação, destacam-se como resultados os instrumentos de representação da informação musical, como catálogos, índices e tesauros com o objetivo de servir como recurso e/ou ferramenta informacional auxiliar para pesquisadores e interessados em geral na busca e recuperação da informação musical. Porém, percebe-se que os instrumentos existentes ainda são escassos e falhos no que diz respeito ao conteúdo dos documentos, para o suprimento da necessidade informacional de seus usuários. Em se tratando da área de Música, não foi localizada obra lexicográfica e/ou terminológica sobre o domínio, com contribuições dos aportes automáticos, em especial de PLN, para sua estruturação, o que evidencia a contribuição desta pesquisa ao tentar minimizar a carência de informações sobre o controle do léxico utilizado pela área musical. Observa-se ainda a importância da categorização para a identificação de assuntos de um domínio de especialidade, devido à possibilidade de abordagem facetada de conteúdos que permite a visualização de uma área do conhecimento como um todo sistematizado, e viabilizando relações com outros conceitos. O resultado deste processo foi a atribuição de 29 categorias, sendo que destas, as que tiveram mais termos agregados na Indexação Manual foram Prática interpretativa (121 termos), Processo composicional (100 termos) e Educação Musical (97 termos). A extração automática por meio do E-termos, por sua vez, mostrou-se eficaz ao apresentar um 3547 �quantitativo de 922 itens lexicais, entre unigramas, bigramas e trigramas que podem aprimorar a construção de vocabulários fundamentados em PLN. Com relação à análise comparativa entre os processos manual e automático de extração de termos, a convergência entre estes dois métodos consiste na subjetividade humana para seleção e correção dos termos encontrados, porém, vale ressaltar que a intersecção entre as categorias obtidas por Indexação manual e as categorias geradas por extração automática alcançaram índices de frequências diferentes durante o processo. Isso significa que, nem todos os termos elencados no método manual foram extraídos automaticamente. Nesse sentido, a escolha pelo método estatístico se deu pelo fato de a frequência apresentar um quantitativo maior de descritores significativos, que proporcionam uma representação e recuperação mais precisa de termos, além da rapidez na extração diante de grandes volumes de textos. O PLN mostrou-se como uma ferramenta eficaz para processamento de grandes volumes de dados, com muito a contribuir no que diz respeito à redução do tempo de desempenho de tarefas de mineração de textos e ao possibilitar a identificação dos termos mais utilizados para representação de um domínio. Apesar destas contribuições, destaca-se que a intervenção humana ainda é necessária para a limpeza dos materiais obtidos e para a validação dos resultados. Espera-se ter proposto uma metodologia para elaboração de novas representações de domínios, com o intuito de aprimorar as técnicas e ferramentas de representação da informação utilizadas na Ciência da Informação. 6 REFERÊNCIAS ANTONIO, Irati. Informação e música no Brasil: memória, história e poder. São Paulo, 1994. 285 f. Dissertação (Mestrado em Ciência da Informação) - Escola de Comunicações e Artes, Universidade de São Paulo. ARTÊNCIO, Luciane Maria. Princípios de categorização nas linguagens documentárias. 2007. 129 f. Dissertação (Mestrado em Ciência da Informação) - Escola de Comunicações e Artes, Universidade de São Paulo, São Paulo, 2007. BAGOT, R. E. Extracció de terminologia: elements per a la construcció dún SEACUSE. 1999. Tese (Doutorado em Linguística Aplicada) - Institut Universitari de Linguística Aplicada, Universitat Pompeu Fabra, Barcelona, 1999. 3548 �CAMPOS, Maria Luiza de Almeida; GOMES, Hagar Espanha. Organização de domínios de conhecimento e os princípios ranganathianos. Perspectivas em Ciência da Informação, Belo Horizonte, v. 8, n. 2, p. 150-163, jul./dez. 2003. CANDIDO JUNIOR, Arnaldo. Criação de um ambiente para o processamento de corpus de português histórico. 2008. 142 f. Dissertação (Mestrado em Ciências de Computação e Matemática Computacional) - Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2008. CINTRA, Anna Maria Marques et al. Para entender as linguagens documentárias. 2. ed. rev. e ampl. São Paulo: Polis, 2002 DIAS, Eduardo Wense; NAVES, Madalena Martins Lopes. Análise de assunto: teoria e prática. Brasília: Thesaurus, 2007. FERREIRA, Sueli. O ensino das artes: construindo caminhos. Campinas: Papirus, 2001. GUINCHAT, Claire; MENOU, Michel. Introdução geral às ciências e técnicas da informação e documentação. 2. ed. Brasília: IBICT, 1994. 540. MAI, J. E. Deconstructing the indexing process. Advances in Librarianship, 23, 2000, p. 269-298. MAI, J. E. Semiotics and indexing: na analysis of the subject indexing process. Journal of Documentation, 57, 2001, 591-622. McDONALD, Carlton; YAZDANI, Masoud. Prolog programming: a tutorial introduction. Oxford: Blackwell Scientific Publications, 1990. MANNIS, José A.; CASTRO, Maria Lucia N. D. de; PASCOAL, Maria Lucia S. M.; VOSGRAU, Sonia R. C.; ROSA, Lilia de O.; BOTTAS, Paulo V. Catalogação e disponibilização de documentação musical pela Universidade Estadual de Campinas. In: Simposium Iberoamericano de Educación, Cibernética e informática: SIECI 2006, 3.; Conferencia Iberoamericana em Sistemas, Cibernética e Informática CISCI 2006, 5. Anais... Orlando, Florida, EUA, 2006. Disponível em: <www.unicamp.br/cdmc/documentacao_musical_unicamp.pdf>. Acesso em: 19 ago. 2012. MERRIAM, A. P. The anthropology of music. Evanston: Northwestern University Press, 1964. MOOERS, C. N. Zatocoding applied to mechanical organization of knowledge. American Documentation, v. 2, p. 20-32, 1951. NANTES, L. M. Desenvolvimento de um sistema baseado em linguagem natural para consultas em banco de dados na Web. 63 p. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade do Oeste Paulista, Presidente Prudente, 2008. 3549 �Disponível em: <http://fipp.unoeste.br/~chico/FIPP/projetos/projeto2008/Monografia_Nantes_2008.pdf>. Acesso em: 20 ago. 2013. NUNES, M. G. V.; DIAS-DA-SILVA, B. C.; RINO, L. H. M.; OLIVEIRA JR., O. N.; MARTINS, R. T.; MONTILHA, G. Introdução ao processamento das línguas naturais. Notas Didáticas do ICMC, n. 38. São Carlos/SP, 1999. p. 91. OLIVEIRA, Marlene de (Org). Ciência da informação e biblioteconomia: novos conteúdos e espaços de atuação. 2. ed. Belo Horizonte: Editora UFMG, 2011. ROBREDO, J. Documentação de hoje e de amanhã: uma abordagem revisitada e contemporânea da Ciência da Informação e de suas aplicações biblioteconômicas, documentárias, arquivísticas e museológicas. 4. ed. ver. e ampl. Brasília: Edição de autor, 2005. OLIVEIRA NETO, J. M.; TONIN, S. D.; PRIETCH, S. S. Processamento de linguagem natural e suas aplicações computacionais. 2010. Disponível em: <http://www.inpa.gov.br/erin2010/Artigo/Artigo9.pdf>. Acesso em: 20 ago. 2013. RANGANATHAN, S. R. Prolegomena to Library classification. Bombay: Asia Publishing House, 1967. 640 p. RIJSBERGEN, V. C. J. Information retrieval. 2. ed. Glasgow: Dept. of Computer Science, University of Glasgow, 1979. QUEIROZ, Gregório José Pereira de. A música compõe o homem, o homem compõe a música. São Paulo: Cultrix, 2000. SILVA, Renato Rocha; LIMA, Sérgio Muinhos Barroso. Consultas em bancos de dados utilizando linguagem natural. Revista Eletrônica da Faculdade Metodista Granbery, Juiz de Fora, v. 7, n. 2, ago/dez. 2007. Disponível em: <http://re.granbery.edu.br/artigos/MjQ0.pdf>. Acesso em: 30 ago. 2013. SILVEIRA, Filipe Pereira da. Integração de ferramentas para compilação e exploração de corpora. 2008. 99 f. Dissertação (Mestrado em Ciência da Computação), Faculdade de Informática, PUCRS, 2008. TRISTÃO, Ana Maria Delazari; FACHIN, Gleisy Regina Bóries; ALARCON, Orestes Estevam. Sistema de classificação facetada e tesauros: instrumentos para organização do conhecimento. Ciência da Informação, Brasília, v. 33, n. 2, p. 161-171, maio/ago. 2004. Disponível em: <http://www.scielo.br/pdf/ci/v33/n2/a17v33n2.pdf>. Acesso em 20 ago. 2013. VIEIRA, R.; LIMA, V. L. S. Linguística computacional: princípios e aplicações. In: IX Escola de Informática da SBC-Sul. Luciana Nedel (Ed.). Passo Fundo, Maringá, São José. SBC-Sul, 2001. 3550 � Dublin Core The Dublin Core metadata element set is common to all Omeka records, including items, files, and collections. For more information see, http://dublincore.org/documents/dces/. Title A name given to the resource SNBU - Edição: 18 - Ano: 2014 (UFMG - Belo Horizonte/MG) Subject The topic of the resource Biblioteconomia Documentação Ciência da Informação Bibliotecas Universitárias Description An account of the resource Tema: Bibliotecas Universitárias e o Acesso Público à Informação: articulando leis, tecnologias, práticas e gestão Creator An entity primarily responsible for making the resource SNBU - Seminário Nacional de Bibliotecas Universitárias Publisher An entity responsible for making the resource available UFMG Language A language of the resource pt Type The nature or genre of the resource Evento Coverage The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant Belo Horizonte (Minas Gerais) Event A non-persistent, time-based occurrence. Metadata for an event provides descriptive information that is the basis for discovery of the purpose, location, duration, and responsible agents associated with an event. Examples include an exhibition, webcast, conference, workshop, open day, performance, battle, trial, wedding, tea party, conflagration. Dublin Core The Dublin Core metadata element set is common to all Omeka records, including items, files, and collections. For more information see, http://dublincore.org/documents/dces/. Title A name given to the resource Processamento da linguagem natural na área da música: técnicas e tecnologias Creator An entity primarily responsible for making the resource Carmo, Juliana Rabelo do, Conceição, Valdirene Pereira da Coverage The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant Belo Horizonte (Minas Gerais) Publisher An entity responsible for making the resource available UFMG Date A point or period of time associated with an event in the lifecycle of the resource 2014 Language A language of the resource pt Type The nature or genre of the resource Evento Description An account of the resource Estudo exploratório sobre extração automática de conceitos com base no Processamento da Linguagem Natural (PLN). O objetivo da pesquisa consiste em analisar o cenário práticoconceitual da extração automática, visando a sistematização e organização de ferramentas de gestão terminológica e recuperação da informação por meio da estruturação de um vocabulário da área de Música. Apresenta os fundamentos da representação da informação e explica as ferramentas semânticas para interpretação organizada de estruturas do conhecimento, bem como as expressões de conceitos de um domínio, que representam a maior proximidade entre a linguagem ou termos utilizados pelos usuários em sistemas de buscas. Discorre sobre a categorização de domínios de especialidade fundamentada por Ranganathan. Expõe o PLN como sub-área da Linguística Computacional, que propicia a extração de termos com maior precisão semântica para recuperação da informação em sistemas de busca automatizados. Caracteriza os níveis, limitações e a arquitetura do PLN em bancos de dados, representados pelo léxico e acessado por analisadores léxicos, sintáticos e semânticos. Indica as tipologias de softwares para processamento de corpus e extratores de candidatos a termos, dividindo-os em três categorias: estatísticos, linguísticos e híbridos. Aborda o Domínio Musical em suas várias facetas de expressão, artística, antropológica e representação da informação musical. A metodologia e a descrição da pesquisa caracteriza-se como pesquisa aplicada, de natureza descritiva, utiliza os procedimentos de pesquisa bibliográfica e documental das áreas de CI, Linguística, Computação e Música, assumindo assim, o caráter interdisciplinar. Emprega o modelo de pesquisa em PLN, com o corpus composto pela amostra de 10 dissertações e 10 teses, disponíveis em 11 bases de dados de Programas de Pós Graduação em Música no Brasil e na Biblioteca Digital de Teses e Dissertações (BDTD), e 30 artigos de revistas científicas especializadas em Música, ambos os gêneros técnico-científicos produzidos entre os anos de 2003 à 2013. Utiliza o ambiente colaborativo de gestão terminológica, E-termos, para extração automática de termos, que irão compor o vocabulário controlado do domínio musical. Apresenta como resultados um corpora classificado como grande em termos quantitativos, composto por 424 textos com um total de 9.482.246 palavras, fato que implica na obtenção de um nível de representatividade alta de termos, classificada como médio-grande para construção do vocabulário de Música. Mostra as etapas executadas pelo E-termos para compilação, análise de corpus, contadores de freqüência e extração automática de termos. Apresenta o comparativo entre as categorias estruturadas por indexação manual e extração automática. Conclui indicando que a extração automática baseada em PLN constitui-se de uma ferramenta efetiva para a tradução da linguagem natural, utilizando as expressões utilizadas para a busca da informação como objetos lingüísticos e rapidez na construção de terminologias.