Apontamentos Objecto de estudo da lexicologia do Português

Objecto de estudo da lexicologia do Português

A lexicologia é o ramo da linguística que se ocupa do léxico de uma língua. O léxico, por sua vez, consiste no conjunto de palavras de uma dada língua.

onsiderando que o termo palavra é utilizado com várias acepções, convém ser mais preciso adotando-se os termos lexema e lexia.

Biderman (2001, p. 169) define lexema como a unidade léxica abstrata da língua e lexia como a forma que aparece no discurso.

Tradicionalmente, representa-se metalinguisticamente o primeiro com maiúsculas (ou versalete) e o segundo com itálico. Um lexema é um paradigma que abarca todas as formas flexionadas: por exemplo, o lexema verbal VER abarca formas concretas como ver, vendo, visto, vejo, vias, viu, veremos, vísseis, viram, etc.

Entretanto, quando a oposição entre as formas se dá em termos derivacionais, tem-se diferentes lexemas, como em análise, analisar, analisador, analisável, etc. Costuma-se dividir os lexemas em duas grandes categorias: de conteúdo e instrumentais (BIDERMAN, 2001, p. 333).

Os primeiros, também chamados de nocionais, se caracterizam por ter significação externa, ou seja, por representarem referentes do mundo extralinguístico; já os segundos, também conhecidos por gramaticais, desempenham sobretudo a função de estabelecer relações entre os de conteúdo.

Na teoria, a divisão parece sustentável, mas, na prática, o problema é mais complexo: o exemplo mais evidente está na classe das preposições, em que certos itens poderiam desempenhar tanto função referencial (como DE em frases como Venho de Pemba, em que o valor nocional de ponto de origem está necessariamente vinculado ao DE) quanto à função relacional (como em frases como Gosto de você, em que a preposição DE tem como única função marcar sintacticamente o complemento do verbo GOSTAR).

A identificação de unidades lexicais na cadeia da fala segundo critérios propriamente linguísticos está longe de ser pacífica: Biderman (2001, p. 137- 155), por exemplo, assinala a necessidade de se combinarem critérios de natureza fonológica, morfossintática e semântica.

Entretanto, essa mesma autora reconhece a imposição operacional de se considerar o critério gráfico para análises de corpora extensos: assim o fez em sua pesquisa para um dicionário de frequência do português brasileiro contemporâneo (BIDERMAN, 1998).

De todos os níveis de organização da estrutura linguística, o léxico é certamente o de maior interesse para quantificação de informação, dado principalmente o valor referencial dos lexemas nocionais.

Recomendado para si:   A Revolução Industrial: As Principais Fases

Isso não significa, no entanto, que outros níveis de organização da linguagem não veiculem também informação: basta lembrar aqui aspectos como o deslocamento de constituintes sintáticos com o objectivo de marcar funções como tópico, foco, etc.

Como estratégia de quantificação de informação de forma automatizada por meio de recursos da informática, seguramente o léxico ocupa um lugar privilegiado, dada a facilidade de se coletarem automaticamente suas unidades.

Modelos teóricos da linguística de orientação funcionalista têm insistido na iconicidade da linguagem humana, ou seja, na existência de “uma relação não-arbitrária entre forma e função, ou entre código e mensagem” (NEVES, 1997, p. 103).

Um dos princípios que regeriam a organização da linguagem humana seria o de isomorfia, ou seja, “uma forma para um significado e um significado para uma forma” (BOLINGER, 1977 apud NEVES, 1997, p. 105).

Assim, por exemplo, o lexema COMPLACÊNCIA e sua proposição definitória, como a de que seja uma “disposição habitual ou tendência de corresponder aos desejos, gostos, idiossincrasias de outrem com a intenção de ser-lhe agradável” (HOUAISS et al., 2001), não apresentariam identidade semântica: seriam apenas aproximações.

A discussão sobre a representação do significado é bastante complexa e não será abordada aqui, mas convém ressaltar que reflexões actuais tem salientado a necessidade de se repensar a noção de significado, superando-se uma visão referencialista (significado como representação do mundo), em prol de uma visão sociocognitivista (significado como ação discursiva sobre o mundo), como já assinalou Marcuschi (2004).

Um segundo princípio defendido pelos funcionalistas é o princípio da quantidade: “um texto maior deve conter mais informação do que um texto menor, já que, admitindo-se a relação icônica entre forma e organização do conteúdo, maior quantidade de matéria fônica deve corresponder a maior quantidade de informação” (NEVES, 1997, p. 107).

Considerando que um lexema pode ter vários significados, poder-se-ia imaginar que um único lexema conteria mais informação do que, por exemplo, o conjunto de suas proposições definitórias (HOUAISS et al., 2001), p. ex., apresentam sete para o lexema COMPLACÊNCIA).

Essa aparente contradição, no entanto, é superada ao se considerar que cada item presente na própria proposição definitória apresenta igualmente uma multiplicidade de significados, fazendo com que de facto, as proposições definitórias sempre reúnam em si uma gama maior de conteúdo do que o veiculado apenas pelo lexema que definem.

Recomendado para si:   Identificação das pedras calcárias

A discussão sobre os princípios da iconicidade, da isomorfia e da quantidade foi realizada aqui para se sustentar a ideia de que a extensão de um texto é sim indício do volume de informação que contém.

Embora não seja a única estratégia possível de se medir volume de informação, não se pode negar que seja de facto uma estratégia relevante. Aceitando-se o postulado de que a extensão de um texto é indício do volume de informação que contém, coloca-se de imediato a questão sobre qual é o critério que se deve empregar para essa medida.

Poder-se-ia pensar em número de parágrafos ou de frases, mas se trata de critérios por demais limitados, já que a extensão dos parágrafos e das frases pode variar sensivelmente. Passando do nível de parágrafos e de frases para um nível de elementos com extensão menos variável, tem-se como elemento relevante a palavra.

Mas é preciso avaliar com que nível de organização das palavras dever-se-ia trabalhar: a medida da extensão pode ser feita, por exemplo, levando-se em conta o número de ocorrências de lexias de cada texto, o número de lexias diferentes ou o número de lexemas diferentes.

A ausência de estudo que tenha demonstrado qual desses níveis de análise seria o mais apropriado para quantificação do volume de informação sugere que se deva, neste estudo, avaliar os três.

A identificação de estratégias interessantes para quantificar informação, a partir de análises lexicais, permitirá, por exemplo, a construção de algoritmos que realizem, de forma automática, a análise de uma grande quantidade de textos sobre um mesmo tema para se identificar quais deles possuem um maior volume de informação, fornecendo assim instrumentos para os leitores navegarem de forma mais produtiva no incomensurável mar de textos do mundo digital.

Não se trata obviamente de uma questão totalmente nova, uma vez que buscadores (como o Google) já utilizam algoritmos para gerar seus resultados: a novidade está em avaliar diferentes formas de se analisarem textos com base no seu vocabulário.