357
GLOSSÁRIO DE LINGUÍSTICA DE CORPUS Stella E. O. Tagnin (usp)
Alinhamento: processo semiautomático pelo qual são colocados lado a lado o original e uma ou mais de suas traduções. Por ora, o alinhamento pode ser feito por parágrafo ou por sentença. Diz-se que o processo é semiautomático porque, embora o primeiro alinhamento seja feito de modo automático, ele exige uma revisão manual. Balanceamento: processo pelo qual se garante que dois corpora sejam construídos de maneira similar quanto a origem, gênero, extensão, período de produção dos textos, ou quaisquer outros critérios que sejam relevantes para a pesquisa a que se destinam. Base (de uma colocação): refere-se ao elemento conhecido – aquele que faz parte do nosso universo –, em geral um substantivo ou verbo, de acordo com a terminologia de cunho semântico de Hausmann (1989). Por exemplo, conhece-se a palavra ‘dúvida’, mas não se sabe qual o verbo adequado para exprimir a resolução de uma dúvida, que seria ‘dirimir’. Outros exemplos seriam ‘televisão’ em ‘televisão educativa’ e ‘chorar’ em ‘chorar copiosamente’. Ver palavra de busca e colocado. Candidato a termo: palavra-chave com possibilidade de ser um termo no domínio em estudo. Ver palavra-chave. Coligação: co-ocorrência de um item lexical com uma categoria ou padrão gramatical. Colocação: co-ocorrência de duas (ou mais) palavras numa frequência maior do que seria de se esperar caso a co-ocorrência fosse aleatória. Colocado: (a) na terminologia de Hausmann (1989), de cunho semântico, o elemento desconhecido de uma colocação tal como ‘dirimir’ em ‘dirimir
358 | Stella e. o. Tagnin (usp)
uma dúvida’, ‘educativa’ em ‘televisão educativa’ ou ‘copiosamente’ em ‘chorar copiosamente’. Ver base. | (b) qualquer elemento que co-ocorra de forma significativa com uma palavra de busca. Ver palavra de busca. Concordância: relação de todas as ocorrências de uma palavra de busca em um corpus junto com seu cotexto. Em geral, apresenta a palavra de busca em posição central, cuja formatação é denominada de kwic. Ver kwic. Concordanciador: programa que extrai todas as ocorrências de uma palavra de busca num corpus juntamente com seu cotexto, apresentando-as na forma de uma concordância. Ver concordância. Corpus (pl. corpora; também córpus sg. e pl.): coletânea de textos entendidos num sentido amplo, em formato eletrônico, compilados segundo critérios específicos para o estudo a que se propõem. • Corpus comparável bi- ou multilíngue: corpus composto por dois ou mais subcorpora com textos originais nas respectivas línguas. • Corpus comparável monolíngue: corpus composto por textos originais numa língua e traduções nessa mesma língua. Tem por objetivo comparar a linguagem produzida por falantes nativos ou fluentes e por tradutores. • Corpus de estudo: o corpus em que se baseia a pesquisa a ser desenvolvida. • Corpus de referência: corpus que serve de termo de comparação para o corpus de estudo. Em geral, deve ter três a cinco vezes o tamanho do corpus de estudo. • Corpus monitor: corpus que é constantemente atualizado a fim de representar a evolução da língua. • Corpus paralelo: corpus constituído de originais e suas respectivas traduções. • Corpus estático: corpus que não permite acrescentar material novo. • Corpus dinâmico: corpus que permite o acréscimo de material novo.
ddl: sigla para data driven learning, termo criado por Tim Johns (1991) para designar o ensino, especialmente de línguas estrangeiras, em que o aprendiz tem acesso a dados linguísticos (concordâncias) extraídos de linguagem autêntica, para examiná-los, levantar hipóteses, fazer inferências e generalizações. É o que se denomina ‘aprendizado por descoberta’. Estudo baseado em corpus: estudo em que o corpus é usado (a) para comprovar (ou não) uma hipótese ou (b) para extrair exemplos.
Glossário de Linguística de Corpus | 359
Estudo direcionado pelo corpus: estudo que se desenvolve conforme dados apresentados pelo corpus, sem pressuposições teóricas. Etiquetagem: processo pelo qual o conteúdo do corpus é marcado. • Etiquetagem morfossintática (em inglês
pos-tagging): processo pelo
qual o conteúdo do corpus recebe etiquetas morfológicas, isto é, de categorias gramaticais (por exemplo, substantivo, adjetivo, verbo etc.). • Etiquetagem sintática: processo pelo qual o conteúdo do corpus recebe etiquetas sintáticas (por exemplo, sujeito, predicado, objeto direto etc.). • Etiquetagem semântica: processo pelo qual o conteúdo do corpus recebe etiquetas semânticas (por exemplo, cor, roupa, tempero, utensílio etc.). • Etiquetagem discursiva: processo pelo qual o conteúdo do corpus recebe etiquetas que demarcam as partes de um texto (por exemplo, ingredientes, modo de fazer, resumo, introdução, materiais e métodos etc.) Fraseologia: estudo de qualquer tipo de ocorrência fraseológica de uma língua como, por exemplo, as colocações, os binômios, as expressões idiomáticas etc. Horizonte: distância entre a palavra de busca e o colocado, à direita e à esquerda.
kwic (do inglês keyword in context / palavra-chave no contexto): formato de concordância em que a palavra de busca aparece centralizada. Ver concordância e palavra de busca. Lista de palavras: lista de todas as palavras do corpus. • Lista de palavras por ordem alfabética: lista em que as palavras são apresentadas em ordem alfabética. Em geral, permite também a ordem reversa, ou seja, a listagem alfabética pelo final da palavra, o que é muito conveniente para o estudo de sufixos. • Lista de palavras por ordem de frequência: lista em que as palavras são apresentadas a partir das mais frequentes até as menos frequentes. Nódulo: Ver palavra de busca. Palavra de busca: palavra a partir da qual é gerada uma concordância. Palavras-chave: resultados da comparação entre o corpus de estudo e um corpus de referência. Essa comparação elimina palavras com frequência relativa similar nos dois corpora de modo que restem as palavras cuja frequência é estatisticamente significativa. As que restam no corpus de estudo são
360 | Stella e. o. Tagnin (usp)
denominadas ‘palavras-chave positivas’, enquanto as que sobram no corpus de referência, ‘palavras-chave negativas’. Representatividade: conceito sobre o qual ainda não há consenso, mas que pretende garantir que um corpus seja representativo daquilo que pretende estudar. Cabe ao criador do corpus estabelecer os critérios que garantam essa representatividade. Como disse Leech (1991, p. 27), a representatividade “é um ato de fé”. Testes estatísticos: medidas de significância empregadas para determinar, entre outras coisas, os colocados de uma palavra de busca.1 • Escore t (em inglês t-score): medida de significância que mede a certeza de que há alguma associação entre as palavras, ou seja, a frequência com que as palavras co-ocorrem elimina a possibilidade de essa co-ocorrência resultar de mero acaso. Para ser computada como uma ‘colocação’, costuma-se considerar um escore mínimo de dois. • Informação mútua (em inglês mutual information): medida de significância que mede a força de associação entre as palavras e privilegia palavras menos frequentes. Como co-ocorrências pouco frequentes podem resultar de usos idiossincráticos, é praxe considerar-se ‘colocação’ apenas co-ocorrências com um escore mínimo de três. WordSmith Tools: conjunto de ferramentas para a análise linguística de corpora. Consiste de três ferramentas principais: Concord, um concordanciador, WordList, um gerador de lista de palavras, e Keywords, um extrator de palavras-chave. Conta também com outros utilitários como Collocates, que apresenta os colocados da palavra de busca; Clusters, que relaciona os agrupamentos em que aparece a palavra de busca; Aligner, que alinha dois textos, dentre outros. Foi desenvolvido por Mike Scott em 1996 e está atualmente na sua quinta versão (scott, 2008).2
1
Maiores detalhes em Clear (1993).
2 Observe-se, no entanto, que o programa sofre pequenas atualizações quase que semanais.