Projeto de Iniciação Científica - Relatório Final Um Analisador Sintático para o Português Instituto de Computação Unicamp Sheila Morais de Almeida 17 de julho de 2002 1. Introdução Este projeto destina-se a construção de um analisador sintático para a língua portuguesa e vem sendo desenvolvido em conjunto com um aluno de mestrado do Instituto de Computação da Universidade Estadual de Campinas. A análise sintática consiste em determinar a estrutura lingüística de uma sentença, identificando-se as funções e relações gramaticais das palavras e frases. As funções e relações sintáticas são as que restringem e controlam as seqüências de palavras permitidas. Elas se manifestam em fenômenos lingüísticos bem definidos, tais como: ordem dos termos, concordância de gênero e número, tempo, pessoa etc. Neste projeto não se pretende analisar semanticamente os elementos componentes de uma oração para fazer distinção entre as suas funções. Toda a distinção é baseada na posição dos termos dentro da oração e na sua categoria sintática. Este tipo de análise (sem a utilização de conhecimentos semânticos) dificulta bastante o desenvolvimento de um analisador sintático, pois existem termos na sentença que se diferenciam apenas semanticamente. A análise sintática destes termos fica comprometida e ambígua pois termos de categorias gramaticais diferentes podem ocupar as mesmas posições nas frases e possuir exatamente a mesma construção sintática. Um dos problemas encontrados é justamente a dificuldade em se lidar com tal ambigüidade pois ela torna maior o número de respostas dadas pelo analisador diante de uma sentença e, portanto, diminui sua exatidão e aumenta o seu tempo de resposta. A maior dificuldade na construção da gramática é a existência de uma enorme variedade de construções lingüísticas, assim como a enorme quantidade de conhecimento léxico e sintático que é preciso incorporar a esse analisador. O Projeto está em desenvolvimento desde outubro de 2000. O objetivo é desenvolver um analisador sintático da língua portuguesa que seja robusto o suficiente para processar textos típicos em diversas áreas do conhecimento. As regras gramaticais necessárias para que se iniciasse a fase de testes já foram escritas. Alguns testes foram realizados e a gramática revista e corrigida após cada um deles. A próxima seção apresenta as regras que constavam no analisador sintático quando feito o último teste e, em seguida, são mostrados os resultados dos testes com uma breve discussão de seus resultados. Este relatório termina apresentando as conclusões obtidas e identificando quais são os pontos que precisam ser mais trabalhados na continuação deste trabalho. 2. Regras Gramaticais 2.1. Notação Utilizada Uma notação será utilizada para descrever as regras gramaticais existentes no analisador. Segue um exemplo como base para que se entenda esta notação. Seja a definição de sentença: Sentença é um período simples ou composto seguido de ponto final. Têm-se: (1) sentença período_simples, ponto_final. (2) sentença período_composto, ponto_final. Portanto, onde houver uma seta () leia-se pode ser, e onde houver uma vírgula leia-se e. Neste caso, em (1) lê-se: sentença pode ser período simples e ponto final e em (2): sentença pode ser período composto e ponto final. Uma cadeia de palavras só é uma sentença se seguir uma destas regras inteiramente. Em algumas regras, um elemento pode ou não existir. Por exemplo, os adjuntos adverbiais podem ocorrer no início das orações ou não. Quando um elemento não for essencial para a regra será dito que ele ocorre eventualmente e, desta forma, ele aparecerá na regra precedido da letra e. Se o elemento puder se repetir numa mesma posição, ele será apresentado na regra precedido da letra r. Por exemplo, considere a regra hipotética: Uma oração é constituída de sujeito, que pode ou não existir, verbo e objeto direto. Além disso, pode conter um ou mais complementos verbais entre seus termos ou após o último termo. Existem outras formas de oração, mas esta basta para nosso exemplo. Na gramática, esta regra seria escrita da seguinte forma: oração e_sujeito, e_r_complemento_verbal, verbo, e_r_complemento_verbal, objeto_direto, e_r_complemento_verbal. Note-se que, por esta regra, complementos verbais podem ou não aparecer entre quaisquer dois termos da oração e no seu fim. Além disso, podem aparecer repetidas vezes numa mesma posição. O sujeito ocorre eventualmente, mas o verbo e o objeto direto são essenciais (não podem deixar de existir, pois não estão precedidos por e) e não se repetem (pois não estão precedidos por r). Apresentou-se o essencial para que sejam entendidas as notações utilizadas. Outras informações que se façam necessárias serão apresentadas a seu tempo. 2.2. Sentença Como já foi visto, uma sentença pode ser um período simples ou composto seguido de ponto final: (1) sentença período_simples, ponto_final. Ex. A menina caiu. (2) sentença período_composto, ponto_final. Ex. A menina tropeçou, caiu, chorou e o menino riu. O período simples é uma oração: (3) período_simples oração. Ex. a menina tropeçou E o período composto é formado por um conjunto de orações coordenadas mas possui, no mínimo, dois períodos simples ligados por uma conjunção coordenativa. (4) período_composto e_orações_coordenadas, período_simples, conjunção_coordenativa, período_simples. Ex. A menina tropeçou, caiu, chorou e o menino riu e_orações_coordenadas = A menina tropeçou, caiu, período_simples = chorou conjunção_coordenativa = e período_simples = o menino riu As orações coordenadas são um período simples com uma conjunção coordenativa e, eventualmente, outras orações coordenadas. (5) orações_coordenadas período_simples, conjunção_coordenativa, e_orações_coordenadas. Claro que a definição de orações coordenadas, seja qual for o gramático, exige que existam pelo menos dois períodos simples ligados por conjunção coordenativa (e não um, como acabamos de afirmar), mas ocorre que essa regra, a qual denominamos orações_coordenadas, só aparece nos casos onde já existem pelo menos dois períodos simples coordenados (como se pode ver pela regra (4)). Portanto, não haverá orações coordenadas sem a existência de ao menos dois períodos simples e uma conjunção coordenativa. Note que a regra (5) sempre conduz a um determinado número de orações coordenadas onde o último termo é sempre uma conjunção coordenativa. Quando incorporada a regra (4), essa conjunção coordenativa liga a última oração coordenada ao primeiro período simples essencial na construção do período composto. 2.3 O Complemento Verbal Antes de prosseguir, faz-se necessário um esclarecimento sobre o não tratamento de objetos indiretos não pronominais. Não foi possível distingüir, utilizando-se somente de sintaxe, objetos indiretos de adjuntos adverbiais. Isso ocorre por haver adjuntos adverbiais que, da mesma forma que os objetos indiretos, são sintagmas preposicionais. Além disso, ambos são complementos do verbo. Veja os seguintes exemplos: a) O menino gosta de bicicleta. b) O menino veio de bicicleta. c) O menino gosta de verdade. Observando as frases (a) e (b) não será possível distingüir em qual delas o sintagma preposicional "de bicicleta" é objeto indireto, a menos que se conheça a transitividade dos verbos e sua semântica. Tradicionalmente, gostar é verbo transitivo indireto e que portanto exige um complemento. Sendo assim, em (a) tem-se o objeto indireto "de bicicleta". O verbo vir é um verbo intransitivo e não exige complemento, portanto, em (b) "de bicicleta" é adjunto adverbial. Não se pode depender da transitividade do verbo para fazer uma análise, pois há muitos verbos que apresentam transitividade variável. Como por exemplo o verbo comer: d) João comeu. e) João comeu uma pizza inteira. Em (d), comer é um verbo intransitivo, mas em (e), comer é verbo transitivo direto e seu objeto é "uma pizza inteira". Conclui-se, então, que a transitividade do verbo depende da pragmática, ou seja, a transitividade de um verbo depende do contexto em que ele se encontra. Além disso, o próprio verbo gostar em (c) pode ser transitivo indireto ou intransitivo, neste caso, não se consegue eliminar a ambigüidade nem mesmo com a ajuda da semântica. Afinal, o menino gosta da verdade ou o menino gosta realmente? Dessa forma, diante de um sintagma preposicional tem-se uma ambigüidade intratável sintaticamente. Para não gerar duas respostas na análise sintática, adjuntos adverbiais e objetos indiretos não pronominais foram agrupados sob uma mesma nomenclatura. Neste projeto, tanto os adjuntos adverbiais quanto os objetos indiretos não pronominais serão chamados de complementos verbais. 2.4 Formas da Oração Abaixo seguem as regras pelas quais uma oração pode ser formada. Não se pode esquecer que os complementos verbais podem aparecer em qualquer posição dentro de uma oração. A primeira regra trata de orações que podem ou não ter sujeito e objeto direto. Nestas orações, bem como em todas as outras formas de orações declarativas, o verbo é obrigatório. (6) oração e_r_complemento_verbal, e_cv_sujeito, verbo_pron_ind, e_r_complemento_verbal, e_cv_objeto_direto. Note que existe um componente cv no sujeito e no objeto direto. Isso porque se o elemento em questão existir, pode ocorrer um r_complemento_verbal logo após ele. Entretanto, se o elemento não existir, o r_complemento_verbal que o segue também não existirá, pois sua existência causaria uma ambigüidade na regra. Por exemplo, se a regra fosse: oração e_r_complemento_verbal, e_sujeito, e_r_complemento_verbal, verbo_pron_ind, e_r_complemento_verbal, e_cv_objeto_direto. Para a sentença : Não lhe trouxeram. temos duas análises sintáticas permitidas por tal regra: e_r_complemento_verbal = Não e_sujeito = inexistente e_r_complemento_verbal = inexistente verbo_pron_ind = lhe trouxeram e_r_complemento_verbal = inexistente e_cv_objeto_direto = inexistente ou e_r_complemento_verbal = inexistente e_sujeito = inexistente e_r_complemento_verbal = Não verbo_pron_ind = lhe trouxeram e_r_complemento_verbal = inexistente e_cv_objeto_direto = inexistente Para impedir tais ambigüidades, limitamos a existência dos complementos verbais que aparecem imediatamente após o sujeito à existência do sujeito. Essa restrição foi feita utilizando-se a regra (1) e a seguinte: cv_sujeito sujeito, r_complemento_verbal. Dessa forma, para a sentença Não lhe trouxeram. temos a seguinte análise: e_r_complemento_verbal = Não e_cv_sujeito = inexistente verbo_pron_ind = lhe trouxeram e_r_complemento_verbal = inexistente e_cv_objeto_direto = inexistente Essa abordagem, como se pode verificar, impediu a existência da ambigüidade. O mesmo foi feito para os objetos diretos: cv_objeto_direto objeto_direto, r_complemento_verbal. Essa regra será adotada também para as outras formas da oração. O elemento verbo_pron_ind, que aparece na regra (6), é um verbo que vem acompanhado de um objeto indireto na forma pronominal. A segunda forma que uma oração pode assumir é semelhante a primeira, mas trata orações cujos objetos diretos e indiretos são pronomes oblíquos. (7) oração e_r_complemento_verbal, e_cv_sujeito, verbo_pron, e_r_complemento_verbal. Verbos acompanhados de objeto direto e indireto pronominais ou de objeto pronominal que não pode ser identificado sintaticamente como direto ou indireto são tratados pela regra verbo_pron. A terceira regra de formação de orações existe para tratar frases que apresentam inversão do sujeito. Como a regra é específica para sujeitos que ocorrem após o verbo, o sujeito é essencial na oração. (8) oração e_r_complemento_verbal, verbo, e_r_complemento_verbal, cv_sujeito. Não está sendo tratada a inversão do sujeito em frases que apresentam objetos. Nos testes feitos até o presente momento e que serão apresentados ainda neste relatório, essas frases não possuem grande incidência. As últimas duas regras são para tratar frases que podem apresentar predicativo do objeto: a) Elegi João senador. b) Julguei-o atrevido. A primeira delas trata orações que apresentam objetos diretos não pronominais (como em (a)). A regra possui um elemento objeto_direto_po, que é o objeto direto acompanhado de predicativo do objeto direto. (9) oração e_r_complemento_verbal, e_cv_sujeito, verbo, e_r_complemento_verbal, objeto_direto_po, e_r_complemento_verbal. A última regra trata de objetos diretos pronominais que podem possuir predicativos do objeto (como em (b)). Nesta regra, a presença do predicativo do objeto não é obrigatória. Isto foi feito para que também se possa tratar frases com objetos diretos pronominais que não possuem predicativo do objeto. (10) oração e_r_complemento_verbal, e_cv_sujeito, verbo_pron_dir, e_r_complemento_verbal, e_cv_predicativo_objeto. Verbo_prondir é o verbo acompanhado de um objeto direto pronominal. 2.5 Verbos e Objetos 2.5.1 Verbos com Objeto Pronominal (verbo_pron) Existem quatro regras que apresentam objeto direto e objeto indireto pronominais. Abaixo de cada regra é apresentado um exemplo de sentença tratada pela mesma. Onde houver o operador ponto e vírgula (;), leia-se ou. Por exemplo, a regra (11) deve ser lida da seguinte forma: verbo_pron pode ser objeto indireto pronominal (ou objeto pronominal) e objeto direto pronominal (ou objeto pronominal) e verbo. (11) verbo_pron (objeto_indireto pronominal ; objeto_pronominal), (objeto_direto_pronominal ; objeto_pronominal), verbo. Ex. Ele mo entregou. (12) verbo_pron verbo, (objeto_indireto_pronominal ; objeto_pronominal), (objeto_direto_pronominal ; objeto_pronominal). Ex. Ele deu-ma. (13) verbo_pron (objeto_indireto pronominal ; objeto_pronominal), verbo, (objeto_direto_pronominal ; objeto_pronominal), Ex. Eles me entregaram-na. (14) verbo_pron (objeto_direto_pronominal ; objeto_pronominal), verbo, (objeto_indireto_pronominal ; objeto_pronominal), Ex. Maria o confiou a mim. Além das quatro regras apresentadas, existem mais duas para objetos pronominais que não se podem distingüir como diretos ou indiretos. São formados pelos pronomes me, te, se, nos e vos. Veja os exemplos: Maria me contou. (onde me é objeto indireto) Maria me levou. (onde me é objeto direto). As regras que tratam estes casos são: (15) verbo_pron objeto_pronominal, verbo. Ex. João te trouxe. (16) verbo_pron verbo objeto_pronominal. Ex. Tragam-me. 2.5.2 Verbos com Objeto Indireto Pronominal (verbo_pron_ind) São verbos acompanhados de um objeto constituído de pronome oblíquo átono que não pode exercer outra função que não a de objeto indireto. (17) verbo_pron_ind objeto_indireto_pronominal, verbo. Ex. Eu lhe dou essa rosa. (18) verbo_pron_ind verbo, e_objeto_indireto_pronominal. Ex. Tragam-lhe todo o material necessário Veja que na regra (18) o objeto indireto é eventual. Sua não ocorrência dá origem a seguinte construção: oração e_r_complemento_verbal, e_cv_sujeito, verbo, e_cv_objeto_direto. 2.5.3 Verbos com Objeto Direto Pronominal (verbo_pron_dir) São verbos acompanhados de um objeto constituído de pronome oblíquo átono que não pode exercer outra função que não a de objeto direto. (19) verbo_pron_dir objeto_direto_pronominal, verbo. Ex. O padre a viu. (20) verbo_pron_dir verbo, objeto_direto_pronominal. Ex. Elas trouxeram-na. Veja que nestas regras o objeto direto não pode ser eventual. Este fato deve-se a regra (10), que possui o elemento predicativo do objeto. Como não pode haver predicativo do objeto sem objeto, este se torna obrigatório. 2.5.4 Objetos Diretos com Predicativo do Objeto (objeto direto_po) O objeto direto pode estar precedido ou seguido de predicativo do objeto. (21) objeto_direto_ po objeto_direto, e_r_complemento_verbal, predicativo_objeto. (22) objeto_direto_ po predicativo_objeto, e_r_complemento_verbal, objeto_direto. A regra das orações que possuem objeto direto com predicativo do objeto poderia ter sido feita de forma diferente: oração e_r_complemento_verbal, e_cv_sujeito, verbo, e_r_complemento_verbal, objeto_direto, e_r_complemento_verbal, predicativo_objeto, e_r_complemento_verbal. Esta regra não "quebra" a frase, pois exclui a necessidade de uma subregra que represente o objeto direto e seu predicativo. Sem dúvida alguma, esta regra é mais elegante que a adotada, mas o custo dessa implementação é muito alto, pois seriam necessárias duas regras para a oração: uma onde o predicativo precede o objeto direto e outra onde o predicativo vem após o objeto direto (como a que foi apresentada). Como a linguagem Prolog trabalha com algoritmos de retrocesso, o analisador aumentaria muito o tempo de análise. Isso justifica todas as "quebras" em subregras que já foram apresentadas e que ainda o serão. Na verdade, esta subdivisão torna o trabalho muito mais viável. Caso contrário, teria que se descrever nas formas da oração todas as combinações possíveis entre as regras que pertencem a essa gramática e isto devolveria um número estrondoso de regras enormes com muitas partes em comum não reutilizadas. 2.5.5 Objetos Pronominais São os pronomes cuja função gramatical não pode ser identificada na oração. Podem fazer o papel de objeto direto ou indireto dependendo do contexto em que se encontram. São os pronomes oblíquos átonos me, te, se, nos e vos. 2.5.6 Objetos Indiretos Pronominais São os pronomes que exercem claramente a função de objeto indireto (pronomes oblíquos átonos: comigo, conosco, contigo e convosco) e os pronomes que, precedidos de preposição, exercem a função gramatical de objeto indireto (pronomes oblíquos tônicos: ele, ela, eles, elas, mim, ti, nós e vós; e pronomes indefinidos, por exemplo: algo, certo, certos, muito, muitos, outros, algum, alguns, pouco e poucos) 2.5.7 Objetos Diretos Pronominais São os pronomes oblíquos átonos que exercem claramente a função gramatical de objeto direto (o, a, os e as). 2.5.8 Objeto Direto O objeto direto pode ser um sintagma nominal ou uma oração subordinada objetiva direta com ou sem a conjunção subordinativa que. (23) objeto_direto sintagma_nominal. Ex. O menino enviou o pacote. (24) objeto_direto subordinada. Ex. O menino viu o pássaro voar para longe. (25) objeto_direto conjunção_subordinativa, subordinada. Ex. O menino viu que o pássaro voou para longe. Na realidade, a regra (24) não pode ser implementada na linguagem Prolog, pois ela provoca um laço de repetições infinitas onde o objeto direto exige a execução da regra de subordinadas e as subordinadas pedem um objeto direto, que pode ser uma subordinada,... Estes problemas na implementação fizeram com que uma outra rotina fosse necessária. Esta rotina já foi implementada e deverá ser utilizada nos próximos testes. Seu objetivo é não permitir que uma regra seja executada sem que pelo menos um termo da regra seja encontrado na sentença em análise. Desta forma, ficarão impedidos os laços de repetições infinitas já que, toda vez que se executa uma regra, ou um termo da sentença é consumido, ou a regra é abandonada. Como toda sentença tem número de termos finito, garantiu-se que o analisador sempre retorna uma resposta. Como a rotina não ficou pronta para os primeiros testes, a implementação foi um pouco diferente: não existe a regra (24) e nas regras onde ocorre objeto direto incluiu-se a possibilidade de haver uma subordinada. Ou seja, substituiu-se objeto direto por (objeto direto ; subordinada). 2.6 Predicativos do Objeto O predicativo do objeto pode ser um sintagma nominal ou sintagma adjetival. São exemplos: Considerei o tesoureiro culpado. (onde o predicativo do objeto é sintagma adjetival) Considerei o tesoureiro um ladrão. (onde o predicativo do objeto é sintagma nominal) (26) predicativo_objeto sintagma_nominal. (27) predicativo_objeto sintagma_adjetival. 2.7 Sujeitos O sujeito pode ser : um sintagma nominal (28) sujeito sintagma_nominal. Ex. O bondoso velhinho sorriu. um pronome reto (29) sujeito pronome_reto. Ex. Eu vi estrelas. um pronome demonstrativo. (30) sujeito pronome_demonstrativo. Ex. Isso não é legal. uma oração subordinada (31) sujeito subordinada. Ex. Gostar de cachaça é um mal terrível. Há, nessa última regra, o mesmo problema que já se discutiu com os objetos diretos: a existência de laços de repetição infinita. Portanto, a mesma cautela aplicada ao objeto direto será aplicada aqui, com a troca de sujeito por (sujeito ; subordinada) nas regras de oração. Lembrando que esta medida é provisória. 2.8 Orações Subordinadas Uma oração subordinada é sempre uma oração completa, ou seja, qualquer oração pode ser subordinada a uma outra oração. (a) O menino viu a menina cair. (b) A menina sabia que Maria gostava do menino. (c) O homem gostava de ouvir a passarada a cantarolar aquele hino matinal. (d) O homem estava ouvindo a passarada a cantarolar aquele hino matinal. Em (a), a oração subordinada exerce o papel de objeto direto e com verbo no infinitivo. Em (b), a oração também é subordinada objetiva direta e possui verbo na forma finita. Em (c), ouvir a passarada a cantarolar aquele hino matinal é oração subordinada objetiva indireta e possui verbo no infinitivo. E, para terminar esta análise, em (d), tem-se oração subordinada exercendo o papel de predicativo do sujeito com verbo no gerúndio. Até a execução do último teste, se considerava que a oração subordinada não sofria restrições quanto a forma do seu verbo e podia ser oração principal de uma outra subordinação. Isto não é verdade e será discutido mais tarde. Entretanto, como as regras aqui apresentadas foram as utilizadas no último teste, esta consideração será levada a cabo nesta seção. Não havia, portanto, distinções a serem feitas entre a regra utilizada para a oração e a regra de subordinada. Sendo assim, foi definido: (32) subordinada oração. Entretanto, o fato de uma oração subordinada ser igual a uma oração pode gerar, mais uma vez, laços de repetições infinitas: uma oração subordinada é uma oração que pode ter como primeiro termo uma oração subordinada que é uma oração que pode ter como primeiro termo uma oração subordinada que é uma oração... Portanto, os testes feitos sem a rotina de eliminação das repetições infinitas não poderiam adotar esta regra, a oração subordinada não pode ser a oração principal de outras subordinações. Para que os laços de repetição infinita fossem eliminados, substituiu-se a regra (32) pelas regras: subordinada e_r_complemento_verbal, e_cv_sujeito, verbo_pron_ind, e_r_complemento_verbal, e_cv_objeto_direto. subordinada e_r_complemento_verbal, e_cv_sujeito, verbo_pron, e_r_complemento_verbal. subordinada e_r_complemento_verbal, verbo, e_r_complemento_verbal, cv_sujeito. subordinada e_r_complemento_verbal, e_cv_sujeito, verbo, e_r_complemento_verbal, objeto_direto, e_r_complemento_verbal. subordinada e_r_complemento_verbal, e_cv_sujeito, verbo_po, e_r_complemento_verbal, objeto_direto_po, e_r_complemento_verbal. subordinada e_r_complemento_verbal, e_cv_sujeito, verbo_pron_dir, e_r_complemento_verbal, e_cv_predicativo_objeto. A diferença destas regras para as que definem uma oração é que, nas regras de oração, acrescentou-se a possibilidade de se ter uma oração subordinada como sujeito ou como objeto direto. Nas regras de oração subordinada, o sujeito e o objeto direto não podem ser orações subordinadas. Isto implica que, para os testes realizados até o momento, a ocorrência de dois níveis de subordinação em uma sentença fará com que o analisador não a reconheça como uma sentença válida. 2.9 Complementos Verbais Como já foi dito, o nome complemento verbal se deve a não possibilidade de distinção entre objetos indiretos e adjuntos adverbiais. Entretanto, complementos verbais que não são sintagmas preposicionais não podem ser objetos indiretos e exercem unicamente a função de adjunto adverbial. Portanto, há que se distingüir, dentre os complementos verbais, aqueles que são complementos preposicionais e aqueles que são certamente adjuntos adverbiais. (33) complemento_verbal e_vírgula, adjunto_adverbial, e_vírgula. (34) complemento_verbal e_vírgula, complemento_preposicional, e_vírgula. Os complementos verbais podem vir entre vírgulas como em: João disse, com muito entusiasmo, que iria ser pai. Podem possuir uma vírgula logo após sua ocorrência: Francamente, Maria não é flor que se cheire. Ou podem não apresentar vírgula alguma os precedendo ou seguindo, como em: Júlio provocou a menina gargalhando. 2.10 Adjuntos Adverbiais Os adjuntos adverbiais podem aparecer sozinhos na frase ou coordenados entre si. Para suprir a possibilidade de coordenação, as regras abaixo permitem que, eventualmente, um adjunto adverbial seja seguido de conjunção coordenativa e de outro adjunto adverbial. (35) adjunto_adverbial adverbio, e_conjunção_coordenativa, e_adjunto_adverbial. Ex. ontem, hoje e sempre Ex. agora (36) adjunto_adverbial adjetivo, e_conjunção_coordenativa, e_adjunto_adverbial. Ex. feliz e radiante (37) adjunto_adverbial subordinada_adverbial, e_conjunção_coordenativa, e_adjunto_adverbial. Ex. sempre sorrindo mas nunca cantando. 2.10.1 Subordinada Adverbial (38) subordinada_adverbial adverbio, subordinada. Ex. Maria perdoava suas trapaças sempre se iludindo com o fato de que não mais ocorreriam. Além da regra (38), existe uma outra subordinação adverbial que é precedida de preposição. Como por exemplo: Seus amigos gargalhavam de tanto ouvir suas piadas. Mas este tipo de subordinação adverbial não se diferencia das subordinadas objetivas indiretas e, portanto, será tratado nos complementos preposicionais. Veja um exemplo onde a subordinada é objeto indireto: Seus amigos não gostavam de sempre ouvir as mesmas piadas. 2.11 Complementos Preposicionais Os complementos preposicionais são sintagmas nominais ou orações subordinadas precedidos de preposição e, como já foi visto, são elementos que podem assumir a função sintática de objetos indiretos ou de adjuntos adverbiais. (39) complemento_preposicional preposição, subordinada. (40) complemento_preposicional sintagma_preposicional. 2.12 Sintagmas Preposicionais Um sintagma preposicional é qualquer sintagma nominal com uma preposição. Ex. dos seus velhos e amáveis companheiros de luta. Ex. de luta Ex. das velhinhas O sintagma preposicional pode ser simples ou composto: (41) sintagma_preposicional sintagma_preposicional_simples. Ex. de laranja (42) sintagma_preposicional sintagma_preposicional_composto. Ex. de laranja, de banana, de morango e de uva O sintagma preposicional composto pode ser formado por um número qualquer de sintagmas preposicionais coordenados, entretanto, deve possuir pelo menos dois sintagmas preposicionais ligados por conjunção coordenativa. (43) sintagma_preposicional_composto e_r_sintagma_prep_coordenado, sintagma_preposicional_simples, conjunção_coordenativa, sintagma_preposicional_simples. O último elemento consumido pela regra de sintagmas preposicionais coordenados será sempre uma vírgula. Esta vírgula fará a conjunção coordenativa entre o último dos sintagmas preposicionais coordenados (que são eventuais) e o primeiro sintagma preposicional simples que é essencial na regra de sintagma preposicional composto. (44) sintagma_prep_coordenado sintagma_preposicional_simples, vírgula, e_sintagma_prep_coordenado. (45) sintagma_preposicional_simples preposição, sintagma_nominal. 2.13 Sintagmas Nominais O sintagma nominal pode ser simples ou composto. (46) sintagma_nominal sintagma_nominal_simples. Ex. a menina Ex. o suco de laranja Ex. o antigo prédio (47) sintagma_nominal sintagma_nominal_composto. Ex. cão e gato Ex. o lobo mau e os três porquinhos O sintagma nominal composto pode ser formado por um número qualquer de sintagmas nominais coordenados, entretanto, deve possuir pelo menos dois sintagmas nominais ligados por conjunção coordenativa. (48) sintagma_nominal_composto e_r_sintagma_nominal_coordenado, sintagma_nominal_simples, conjunção_coordenativa, sintagma_nominal_simples. O último elemento consumido pela regra de sintagmas nominais coordenados será sempre uma vírgula. Esta vírgula fará a conjunção coordenativa entre o último dos sintagmas nominais coordenados (que são eventuais) e o primeiro sintagma nominal simples que é essencial na regra de sintagma nominal composto. (49) sintagma_nominal_coordenado sintagma_nominal_simples, vírgula, e_sintagma_nominal_coordenado. Para estudar o sintagma nominal, Mário Perini [PERI 1996] o divide em duas porções, às quais chama de área esquerda e área direita. A área esquerda é composta dos elementos que precedem o núcleo, e a área direita composta dos elementos que o seguem. Perini também escreve sobre a existência de um elemento denominado predeterminante e que, segundo ele, "pode ocorrer na oração entre quaisquer dois termos de nível oracional". O predeterminante mencionado por Perini é a palavra todos. Alguns exemplos são: (a) ?Todos os crocodilos gostam de frango." (b) ?Os crocodilos todos gostam de frango." (c) ?Os motoristas todos do Brasil entraram em greve." (d) ?Os crocodilos gostam todos de frango." Nota-se que o predeterminante ocorre antes (a) ou depois (b) do sintagma nominal "os crocodilos". Pode ocorrer também dentro do sintagma nominal (como em (c), antes de "do Brasil" que exerce a função de modificador do núcleo) ou, ainda, após o verbo da oração (d). Assim, a regra de formação de um sintagma nominal seria constituída de área esquerda, núcleo e área direita com predeterminante antes ou depois do sintagma nominal. Além disso, para que se faça a análise de (c), foi incluída a possibilidade de ocorrência de predeterminantes dentro da área direita. A regra de oração necessária para que o analisador aceite (d) não foi implementada. Para concluir o trabalho de construção das regras de sintagma nominal, verificou-se a possibilidade de haver apostos, orações subordinadas restritivas ou explicativas após este sintagma. Percebeu-se que esses elementos não ocorrem sem que exista um sintagma nominal e nem em outras posições da frase. Sendo assim, apostos, orações explicativas e orações restritivas foram agrupados sob a nomenclatura de identificadores e incluídos nas regras de sintagma nominal. (50) sintagma_nominal_simples predeterminante, e_área_esquerda, núcleo, e_área_direita, e_identificador. (51) sintagma_nominal_simples e_área_esquerda, núcleo, e_área_direita, e_predeterminante, e_identificador. Note que na regra (51) todos os componentes de um sintagma nominal são eventuais, com exceção do núcleo. Sendo assim podemos ter um sintagma nominal constituído apenas de núcleo, como na sentença: Homem não chora. Durante os testes, encontramos algumas outras formas de sintagma nominal. Por isso, algumas outras regras foram incluídas: (52) sintagma_nominal_simples núcleo_indefinido, e_r_modificadores. Ex. Alguém disse que você viria. Ex. Muitos dos brasileiros estão lá. (53) sintagma_nominal_simples cardinal, e_r_modificadores. Ex. Os dois não me quiseram ouvir. . (54) sintagma nominal determinante, adjetivo. Ex. O infeliz pediu que o matassem. Ex. A bela e a fera se uniram. 2.14 Área Esquerda A área esquerda precede o núcleo do sintagma nominal. Sua regra de formação é única e todos os seus componentes podem existir ou não. Caso nenhum deles exista, temos um sintagma nominal sem área esquerda. (55) área_esquerda e_determinante, e_n_pronome_possessivo, e_n_reflexão, e_n_quantificador, e_n_prenucleo. Determinantes podem ser artigos definidos ou indefinidos (o, a, os, as, um, uns, uma e umas); pronomes demonstrativos (isto, esse, aquele, ...) ou pronomes indefinidos (alguns, muito, pouco, ...). (56) determinante artigo. (57) determinante pronome_demonstrativo. (58) determinante pronome_indefinido. Quando um componente vem precedido da letra n, significa que pode haver, antes dele, um numerador. Foi adotada a nomenclatura utilizada por Perini. Segundo ele, o numerador pode aparecer entre quaisquer dois termos da área esquerda e pode ser um pronome indefinido, um número cardinal ou ambos. (59) numerador pronome_indefinido, e_número. Ex. aqueles poucos sapatos Ex. as minhas outras duas filhas (60) numerador número, e_pronome_indefinido. Ex. os reluzentes dois outros sinos Ex. os cinco belos rapazes Reflexão é qualquer uma das seguintes palavras: mesmo, mesma, mesmos, mesmas, próprio, própria, próprios, próprias, certo, certa, certos ou certas. Ex. os meus mesmos dois amigos O quantificador pode ser um número ordinal ou um pronome indefinido. (61) quantificador ordinal. Ex. os meus mesmos dois primeiros amigos da infância (62) quantificador pronome_indefinido. Ex. os meus mesmos dois poucos amigos de infância Sintagmas adjetivais devem vir seguidos do núcleo, portanto, são os últimos componentes da área esquerda, entre os sintagmas adjetivais e o núcleo só pode haver, eventualmente, um ordinal. Portanto, os sintagmas adjetivais e o possível ordinal formam o que se chama de prenúcleo. (63) prenúcleo sintagma_adjetival, e_ordinal. Ex. Os primeiros belos e desengonçados passinhos de Sofia. Neste exemplo, primeiros é quantificador do sintagma nominal. Ex. Os belos e desengonçados primeiros passinhos de Sofia. Neste exemplo, primeiros faz parte do prenúcleo. 2.15 Sintagmas Adjetivais O sintagma adjetival pode ser simples ou composto. (64) sintagma_adjetival sintagma_adjetival_simples. (65) sintagma_adjetival sintagma_adjetival_composto. O sintagma adjetival composto pode ser formado por um número qualquer de sintagmas adjetivais coordenados, entretanto, deve possuir pelo menos dois sintagmas adjetivais simples ligados por conjunção coordenativa. (66) sintagma_adjetival_composto e_sintagma_adjetival_coordenado, sintagma adjetival_simples, conjunção_coordenativa, sintagma_adjetival_simples. O último elemento consumido pela regra de sintagmas adjetivais coordenados será sempre uma vírgula. Esta vírgula fará a conjunção coordenativa entre o último dos sintagmas adjetivais coordenados (que são eventuais) e o primeiro sintagma adjetival simples que é essencial na regra de sintagma adjetival composto. (67) sintagma_adjetival_coordenado sintagma_adjetival_simples, vírgula, e_sintagma_adjetival_coordenado. O sintagma adjetival simples possui, pelo menos, um núcleo adjetivo. O núcleo pode ser precedido ou seguido de advérbios. Pode também ser seguido de sintagmas preposicionais que exercem a função de adjunto adverbial. Como após o núcleo adjetivo pode haver adverbio ou sintagma preposicional, chamaremos esse conjunto de complemento do sintagma adjetival. (68) sintagma_adjetival_simples e_r_adverbio, núcleo_adjetivo, e_r_complemento_sintagma_adjetival. (a) bom (b) muito feliz da vida (c) sempre desanimado (d) cheio de feridas (e) triste demais O complemento do sintagma adjetival pode repetir-se após o núcleo e, como dito acima, pode ser um advérbio ou sintagma preposicional. (69) complemento_sintagma_adjetival adverbio. Ex. demais em (e) (70) complemento_sintagma_adjetival sintagma_preposicional. Ex. da vida em (b) e de feridas em (d) O núcleo do sintagma adjetival pode ser um adjetivo ou um verbo no particípio. (71) núcleo_adjetivo adjetivo. Ex. bom em (a), feliz em (b), cheio em (d) e triste em (e). (72) núcleo_adjetivo verbo. Ex. desanimado em (c). 2.16 Núcleo do Sintagma Nominal O núcleo do sintagma nominal pode ser um substantivo ou um pronome indefinido (alguém, ninguém, muitos etc.). (73) núcleo substantivo. (74) núcleo indefinido pronome_indefinido. 2.17 Área direita do Sintagma Nominal Após o núcleo do sintagma nominal, pode haver modificadores, que são substantivos, pronomes indefinidos, sintagmas preposicionais ou sintagmas adjetivais. Sempre que houver um substantivo ou um pronome indefinido modificando o núcleo, deve aparecer antes de modificadores que sejam sintagmas adjetivais ou preposicionais. Como substantivos e pronomes indefinidos estão sempre junto ao núcleo, são chamados modificadores internos. Os outros estão sob a nomenclatura de modificadores. Dentro da área direita, pode ocorrer um predeterminante. Se isso acontecer, ele deve suceder os modificadores internos (pois entre eles e o núcleo não pode haver nada) e preceder os demais modificadores. A regra da área direita do sintagma nominal é: (75) área direita e_modificador_interno, e_predeterminante, e_r_modificadores. (a) o menino imperador (b) um zé ninguém (c) o homem da ribeira (d) o soldado todo cheio de feridas (e) tudo de bom (76) modificador_interno substantivo. Ex. imperador em (a) (77) modificador_interno pronome_indefinido. Ex. ninguém em (b) (78) modificadores sintagma_preposicional. Ex. da ribeira em (c) (79) modificadores sintagma_adjetival. Ex. cheio de feridas em (d) (80) modificadores preposição, sintagma_adjetival. Ex. de bom em (e) 2.18 Identificador Semanticamente, o identificador tem a função de dar mais informações sobre o sintagma nominal que o antecede. Sintaticamente, são termos que aparecem logo após o sintagma nominal e possuem um pronome relativo ou são um sintagma nominal entre vírgulas. Pode ser uma oração restritiva ou explicativa do sintagma nominal ou um aposto. Porém, apostos e vocativos que vem após o sintagma nominal não podem ser diferenciados caso o sintagma nominal e o aposto/vocativo tenham mesmo gênero e número. Desta forma, a regra para apostos poderia erroneamente, identificar um vocativo como aposto do referido sintagma nominal. Como não se pode distingüí-los, criou-se uma regra que recebe o nome aposto/vocativo e que, apesar de identificar a existência de um aposto ou vocativo, não diz de qual dos dois se trata. (81) identificador aposto/vocativo. (82) identificador oração_explicativa. (83) identificador oração_restritiva. 2.18.1 Orações Restritivas As orações restritivas, como o próprio nome diz, restringem a informação sobre o sintagma nominal que as precede. Nestas orações, o pronome relativo está sempre ocupando a função de sujeito, de objeto direto ou de objeto indireto. Ex. As crianças que choram muito me irritam. (84) oração_restritiva pronome_relativo, verbo, (objeto_direto ; objeto_direto_pronominal ; objeto_pronominal ; subordinada), (objeto_indireto_pronominal ; complemento_preposicional). (85) oração_restritiva pronome_relativo, verbo, (e_objeto_pronominal ; complemento_preposicional). (86) oração restritiva pronome_relativo, verbo, (objeto_direto ; objeto_direto_pronominal ; subordinada). (87) oração_restritiva pronome_relativo, (sujeito ; subordinada), verbo. (88) oração_restritiva pronome_relativo, (sujeito ; subordinada), verbo, (objeto_indireto_pronominal ; objeto_pronominal; complemento_preposicional). (89) oração_restritiva preposição, pronome_relativo, (sujeito; subordinada), verbo. (90) oração_restritiva preposição, pronome_relativo, verbo, (objeto_direto ; objeto_pronominal; subordinada). (91) oração_restritiva preposição, pronome_relativo, (sujeito ; subordinada), verbo, (objeto_direto ; objeto_pronominal; subordinada). 2.18.2 Oração Explicativa O que diferencia sintaticamente uma oração subordinada explicativa de uma oração subordinada restritiva é apenas a existência de vírgulas no início e fim da primeira. Semanticamente, podemos definir a oração explicativa como um termo que oferece mais informações sobre o sintagma nominal que o precede. Ex. Os homens, que são filhos de Deus, em certas ocasiões se esquecem de olhar para o céu. Neste exemplo, que são filhos de Deus é uma oração explicativa e oferece mais informações sobre o sujeito os homens. A informação adicional sobre o sujeito é de que os homens (sem restrição nenhuma) são filhos de Deus. (92) oração_explicativa e_preposição, vírgula, oração_restritiva, vírgula. 2.18.3 Apostos ou Vocativos O aposto é um sintagma nominal que vem entre vírgulas após o sujeito ou o objeto. O vocativo pode aparecer em outras posições, mas ainda não há uma regra para tratá-lo. Como, em alguns casos, o vocativo aparece na mesma posição do aposto e com mesmo gênero e número que o sintagma nominal que o precede, não é possível distingüi-lo sintaticamente do aposto. Por isso, esta regra recebeu o nome de aposto/vocativo. Ex. Noel, o bom velhinho, nunca descansa. (93) aposto/vocativo vírgula, sintagma_nominal_geral, vírgula. 2.19 Números Esta subregra é usada na regra numerador. Número pode ser um valor exato, dado por um número cardinal como dois, cinco, dez etc. (94) número cardinal. ou um número indefinido, dado por um pronome como muitos, poucos etc. (95) número pronome_indefinido. Quando se tratar de um cardinal, obviamente não se poderá encontrar no dicionário o número cardinal quatro mil quinhentos e trinta e cinco. Se assim fosse, os dicionários seriam brutalmente grandes, infinitos... Portanto, precisa-se de um tratamento, através de regras, para tais números. O número em si, sem que se identifique a sua ordem de grandeza será chamado de quantidade. Uma quantidade é um número que varia de um a novecentos e noventa e nove. As palavras mil, milhão, milhões, etc. são chamadas ordem. Uma quantidade e uma ordem formam um número cardinal. Por exemplo: quatrocentos e cinco mil (quantidade: quatrocentos e cinco, ordem: mil). O cardinal pode ser uma repetição de quantidades coordenadas com suas respectivas ordens, como em: trinta milhões, duzentos e vinte e sete mil e vinte e dois (quantidade: trinta, ordem: milhões, coordenação: vírgula (,), quantidade: duzentos e vinte e sete, ordem: mil, coordenação: e, quantidade: vinte e dois, ordem: [ ]). Números que tem ordem menor que mil serão representados apenas pela quantidade, sem ordem nenhuma (ordem: [ ]). (96) cardinal r_quantidade. (97) r_quantidade quantidade, ordem, e_coordenacao, r_quantidade. (98) r_quantidade quantidade, e_ordem. (99) quantidade centena, e_coordenação, e_dezena, e_coordenação, e_unidade. As centenas são: cem, cento, duzentos, trezentos, quatrocentos, ... As dezenas são: vinte, trinta, quarenta, ... As unidades são: um, dois, três, quatro,... (100) quantidade centena, e_coordenação, e_especial. São chamados de especiais os números dez, onze, doze, treze, catorze, ... (101) quantidade dezena, e_coordenação, e_unidade. (102) quantidade especial. (103) quantidade unidade. Com isso, conclui-se a apresentação das regras gramaticais que estão sendo utilizadas neste projeto e que foram utilizadas para os testes feitos até o presente momento. Serão apresentados, a seguir, resultados dos testes realizados. 3. Resultados Terceiro Teste Neste último semestre foi realizado um terceiro teste contendo 80 frases, todas constam no anexo I. Os testes foram úteis para que se encontrassem erros na gramática e para que estes erros fossem corrigidos. No terceiro teste, todas as sentenças que haviam sido testadas nos testes anteriores foram testadas novamente para que se pudesse, através da comparação dos resultados, avaliar a evolução do desempenho do analisador. Além das sentenças anteriores foram incluídas outras 21 sentenças retiradas das seguintes fontes: Caderno especial de Copa do Mundo, jornal O Estado de São Paulo, dezembro de 2001. Revista Super Interessante, dezembro de 2001. Desejava-se que estas novas sentenças fossem escolhidas da forma mais aleatória possível para que se tivesse uma idéia de qual a abrangência das regras do analisador sintático. O critério adotado foi pegar a primeira sentença do segundo parágrafo de cada reportagem. Quando esse teste foi realizado, as regras que constavam no analisador eram exatamente as que foram descritas nesse relatório. Foi criado um documento que serviria para relatar os resultados de todos os testes que se realizassem sobre este analisador. O documento, bem como os resultados do terceiro teste, encontram-se no anexo I. Como o conteúdo resultante desse teste é muito grande, ele ainda não foi completamente avaliado. Todas as árvores de derivação de cada sentença têm sido analisadas e postas em comparação. Para cada uma delas, verifica-se sua corretude e a possibilidade de o analisador haver gerado alguma outra árvore de derivação que apresente exatamente a mesma construção sintática como resposta. A ocorrência de mais de uma árvore de derivação gerando uma mesma construção sintática se deve a eventuais ambigüidades da gramática que possam ter passado despercebido. A correção deste erro diminuirá o número de respostas apresentadas pelo analisador e melhorará o seu tempo de resposta. A identificação de árvores de derivação incorretas fará com que as regras gramaticais que levaram a formação destas árvores sejam revistas e corrigidas na medida do possível (desde que não se interfira nos possíveis resultados corretos gerados por tais regras para outras formas de oração). Dentre os erros na construção da gramática que já foram encontrados deve-se mencionar: incorretude de uma árvore de derivação gerada para a sentença n.º 01 sentença no. 1: O aparelho eletrônico quebrou e a oficina da rede autorizada avisou que o conserto iria demorar porque a peça que causou o problema está em falta. O analisador gerou uma árvore de derivação cuja oração subordinada possuía sujeito e verbo no particípio (sujeito: a rede autorizada, verbo: avisou). Entretanto, sabe-se que orações subordinadas que apresentam verbo no particípio exercem a função de sintagma adjetival e, ou não possuem sujeito, ou não possuem objeto direto. Esse problema fez com que se adotasse algumas restrições quanto à forma do verbo nas orações subordinadas. Concluiu-se que: Orações subordinadas que exercem a função de sintagma adjetival não possuem sujeito ou não possuem objeto direto e tem verbo no particípio. Orações subordinadas que exercem a função de adjunto adverbial possuem verbo no gerúndio. Orações subordinadas que exercem o papel de sintagma nominal apresentam verbo no gerúndio ou infinitivo. Portanto, as regras de subordinada que estão na gramática apresentada neste relatório deverão restringir-se ao papel da substituição de sintagmas nominais, exercendo o papel de sujeito, objeto direto ou sintagma nominal do complemento verbal. Além disso, deve-se restringir os verbos destas regras às formas de infinitivo e gerúndio. A regra (38) para subordinadas adverbiais deverá explicitar que tais orações subordinadas devem possuir verbo no gerúndio. E a regra (72) para núcleo do sintagma adjetival deverá explicitar que este verbo só pode ocorrer na forma de particípio. ambigüidade encontrada na análise dos resultados da sentença n.º 04 sentença no. 4: O governo deveria tabelar os preços da eletricidade no mercado. Analisando as árvores de derivação da sentença 04, verificou-se que o conjunto de regras abaixo subordinada e_r_complemento_verbal, e_cv_sujeito, verbo_pron_ind, e_r_complemento_verbal, e_cv_objeto_direto. subordinada e_r_complemento_verbal, e_cv_sujeito, verbo, e_r_complemento_verbal, objeto direto, e_r_complemento_verbal. (18) verbo_pron_ind verbo, e_objeto_indireto_pronominal. pode gerar uma ambigüidade nos casos em que não se tem um objeto pronominal indireto e existe um objeto direto. A solução é substituir tais regras por: subordinada e_r_complemento_verbal, e_cv_sujeito, verbo_pronind, e_r_complemento_verbal, e_cv_objeto_direto. subordinada e_r_complemento_verbal, e_cv_sujeito, verbo, e_r_complemento_verbal, e_cv_objeto_direto. (18) verbo_pron_ind verbo, objeto_indireto_pronominal. função do pronome indefinido Verificou-se que uma preposição seguida de pronome indefinido pode exercer tanto o papel de objeto indireto quanto o papel de adjunto adverbial. Portanto, não faz sentido considerar esta construção na definição de objetos indiretos pronominais. Na nova gramática, objetos indiretos pronominais poderão ser apenas os pronomes que exercem claramente a função de objeto indireto (pronomes oblíquos átonos: comigo, conosco, contigo e convosco) e os pronomes que, precedidos de preposição, exercem a função gramatical de objeto indireto (pronomes oblíquos tônicos: ele, ela, eles, elas, mim, ti, nós e vós. O caso preposição + pronome indefinido já está sendo tratado pelas regras: (45) sintagma preposicional simples preposição, sintagma nominal. (52) sintagma nominal simples núcleo indefinido, e_r_modificadores. (74) núcleo indefinido pronome indefinido. os objetos pronominais (diretos ou indiretos) e as orações restritivas Sentenças como: O garoto que entregou-lhe a flor não olhou nos seu olhos. não podem ser aceitas pela gramática. Não se pode permitir que pronomes oblíquos venham separados do pronome relativo que. Portanto, as regras (84), (85), (86), (87), (88), (89), (90) e (91) precisam ser alteradas. As novas regras são: oração_restritiva pronome_relativo, verbo, (e_objeto_direto; subordinada), e_complemento_preposicional. oração_restritiva pronome_relativo, (sujeito ; subordinada), verbo, (objeto_indireto_pronominal ; objeto_pronominal; e_complemento_preposicional). oração_restritiva preposição, (e_sujeito ; subordinada), pronome_relativo, verbo, (objeto_direto; subordinada). oração_restritiva pronome_relativo, (objeto_direto_pronominal ; objeto_pronominal), verbo, (e_complemento_preposicional). oração_restritiva pronome_relativo, (objeto_indireto_pronominal; objeto_pronominal), objeto_direto_pronominal, verbo. oração_restritiva pronome_relativo, (objeto_pronominal ; objeto_indireto_pronominal), verbo, (e_objeto_direto ; subordinada). oração_restritiva pronome_relativo, (sujeito ; subordinada), (objeto_indireto_pronominal ; objeto_pronominal; verbo. oração_restritiva preposição, pronome_relativo, (e_sujeito ; subordinada), verbo, (e_objeto_direto; subordinada). oração_restritiva preposição, pronome_relativo, (e_sujeito ; subordinada), verbo, (objeto_direto_pronominal ; objeto_pronominal). oração_restritiva preposição, pronome_relativo, (e_sujeito ; subordinada), (objeto_direto_pronominal ; objeto_pronominal). verbo. A princípio, estas regras parecem cobrir todos os casos de oração restritiva; novos testes precisam ser feitos para avaliar tais regras. Numerais Numa tentativa de diminuir o tempo de resposta do analisador, foi feita uma revisão das regras que tratam os números cardinais escritos por extenso. Nesta revisão foram observados os seguintes erros: Não tratamento de números que não possuem quantidade antecedendo a ordem. Este é um caso especial que só ocorre para a ordem mil. Ex. mil quatrocentos e trinta Ex. mil Para correção, devem-se incluir as seguintes regras: r_quantidade ordem(mil), e_coordenacao, r_quantidade. r_quantidade ordem(mil). O analisador aceita construções como: duzentos e e vinte e e três. Para eliminar este problema de excesso de coordenações deve-se substituir as regras (99) e (101) por: (99) quantidade centena, e_dezena, e_unidade. (101) quantidade dezena(D), e_unidade(U,G,N). Como foi dito, a avaliação dos resultados do terceiro teste ainda não terminou e, provavelmente, existem outros problemas que serão encontrados até a conclusão deste trabalho. Esta análise de resultados deverá provocar uma melhoria bastante significativa no analisador sintático. 4. Atividades Subseqüentes Cabe, antes da conclusão deste projeto, financiado pela bolsa PIBIC - SAE, dizer que nossos trabalhos não param por aqui. Muito ainda precisa ser feito, novas correções serão efetuadas e o analisador será submetido a novos testes. Entretanto, podemos afirmar que nossos objetivos para esse período foram alcançados: desenvolvemos um analisador sintático para a língua portuguesa e conquistamos uma base sólida de conhecimentos para dar continuidade a esse projeto e para deixar, através destes relatórios, informações necessárias a quem se interessar em dar continuidade ao trabalho. O processamento de língua portuguesa ainda está dando seus primeiros passos e sempre há algo a ser melhorado ou descoberto. Nesta seção, ficam nossas descobertas e atividades as quais daremos continuidade. Em curto prazo, deve-se terminar a análise do teste 3. Desta análise, deverá resultar uma lista de correções a serem realizadas na gramática. Efetuadas as correções e com o dicionário do NILC ? Núcleo iterdepartamental de Lingüística Computacional da USP de São Carlos ? já formatado para se adequar às necessidades deste projeto, pode-se partir para uma nova etapa de testes. Paralelamente, algumas questões que já foram levantadas e que ainda não receberam o tratamento necessário deverão ser estudadas de forma mais aprofundada. Abaixo seguem algumas destas questões: É preciso verificar se existe a necessidade de construção de novas regras de oração restritiva, isso é especialmente importante para os casos em que há objetos pronominais, como já foi mencionado. Deve-se fazer a inclusão de regras para tratamento de vocativos que não venham imediatamente após um sintagma nominal. Quanto aos casos em que o vocativo aparece logo após um sintagma nominal, é possível com a utilização de traços de gênero e número identificar algumas situações em que o vocativo não pode ser um aposto e este é um trabalho que ainda não foi realizado. É preciso implementar regras de oração para que o analisador aceite sentenças como: "Os crocodilos gostam todos de frango." Lembrando que esse é o caso em que ocorre um predeterminante após o verbo. Apesar de já haver tratamento para números escritos por extenso, ainda não se pensou nos casos em que os números aparecem na sua forma simbólica, como por exemplo: 12.345, 4, 27 etc. Portanto, é necessário que se façam regras para o tratamento de números que não estejam escritos por extenso. Na atual gramática também não constam regras para a admissão de números fracionários (tanto na forma simbólica quanto por extenso). Assim, precisa-se de regras para casos como: Coloque 3/4 do conteúdo do pacote no recipiente. Apenas dois terços dos convidados estavam presentes. Segundo Perini, há pronomes que podem ocorrer entre verbos, como no exemplo: O garoto foi lhe falar do assunto. Estes casos ainda não estão previstos. Na realidade, este tratamento havia sido feito no início do projeto e existia quando foi feito o primeiro teste, mas houve uma mudança da gramática. Abandonou-se a idéia de se trabalhar com verbos auxiliares + verbo principal e adotou-se uma nova postura, onde a ocorrência de dois verbos indica que o primeiro é verbo da oração principal e o segundo é verbo principal da oração subordinada. Com essa nova abordagem, o problema dos pronomes entre verbos deixou de ser tratado e precisa ser revisto. Também é necessário que se faça o tratamento para os nomes próprios. O dicionário do NILC apresenta um grande número de nomes próprios, entretanto, sempre se pode encontrar nomes que não estejam presentes no dicionário. Uma boa chance de se encontrar esses nomes é fazendo a análise sintática de frases encontradas em notícias de política ou economia internacional. A coordenação precisa ser mais estudada para que se possa abranger outros casos, por exemplo, a coordenação de verbos, como em: João corria, pulava e cantava com Maria. Precisam ser incorporadas regras que permitam a locuções coordenativas. Como em: Não só disse mas também fez. No momento, essas locuções estão sendo tratadas no dicionário, melhor seria criar regras gramaticais para esse tratamento. Por último, ainda falta o tratamento de orações exclamativas, interrogativas e imperativas. Como já foi dito, as regras para orações declarativas são mais abrangentes e partir dessas para as demais torna a tarefa menos árdua. 5. Conclusões A linha tênue que separa o estudo das estruturas sintáticas e a semântica precisa ser melhor marcada. Neste sentido, é clara a necessidade de uma reformulação de toda a gramática da nossa língua. Nomenclaturas como adjunto adverbial e objeto indireto não fazem muito sentido dentro do estudo da sintaxe, são rótulos adotados com base em teorias como a de transitividade dos verbos, que depende claramente da semântica. E isto pode ser afirmado sem temor, já que um mesmo verbo pode apresentar transitividade variável dependendo do contexto em que se aplica como afirma o próprio Perini. E mesmo nos livros dos autores que defendem a necessidade de uma reformulação da nossa gramática e que tentam separar completamente a análise sintática da semântica, como o próprio Perini, pode-se encontrar afirmações como: ?sujeito é o ser do qual se declara alguma coisa?. Informações como essa, que não se baseiam em dados concretos como a posição dos termos dentro da sentença, a sua categoria gramatical ou ainda nos traços de concordância de gênero, número etc. não podem ser utilizadas na computação e é neste momento que se percebe claramente a distinção entre o que é sintaxe e o que é semântica. Afinal, não se pode esperar de máquinas que elas "magicamente" façam a si mesmas perguntas como: João gosta de quê? para descobrir quem é o objeto indireto da oração ou qual a transitividade do verbo gostar. Diante disso, pode-se afirmar com convicção que trabalhar com sintaxe sem o auxílio de conhecimentos semânticos é muito difícil. Quanto ao desempenho do analisador, apesar de se desejar que o número de árvores de derivação geradas na análise de uma sentença seja baixo, por vezes esse número é desanimador. Ao se iniciar este projeto, trabalhava-se com a hipótese de aproximadamente vinte árvores de derivação sendo dadas como resposta para os piores casos. Hoje, os testes revelam casos em que temos até 480 árvores de derivação. Todo empenho está em encontrar os erros que tornam esse número tão discrepante ou constatar-se que todas essas árvores realmente são construções sintáticas plausíveis e sem ambigüidades. Não se pode deixar de lembrar que este projeto está sendo desenvolvido para uma língua viva e que esta língua sofre mutações; dessa maneira, não se pretende cobrir todas as formas que uma sentença, ou um sujeito, ou qualquer componente sintático possa apresentar. Deseja-se que, neste momento, essas regras sejam suficientes para cobrir grande parte delas (aproximadamente 80%). Diante desse fato, os resultados dos testes têm-se mostrado satisfatórios. 6. Referências Bibliográficas [PERI 1996] Perini, A. M. Gramática Descritiva do Português. Editora Ática, 1996. Anexo I Fontes utilizadas para realização dos testes No. Fonte  01 Jornal O Estado de São Paulo, 26 de março de 2001  02 Jornal O Estado de São Paulo, 29 de março de 2001  03 Especial da revista Veja: Vida Digital, dezembro de 2000  04 Jornal Folha de São Paulo, 6 de abril de 2001  05 Caderno Jornal O Estado de São Paulo, especial de Copa do Mundo, dezembro de 2001.  06 Revista Super Interessante, dezembro de 2001.  07 Revista Galileu, fevereiro de 2002, Ano 11 nº 127  Frases No. Fonte Sentença  01 01 O aparelho eletrônico quebrou e a oficina da rede autorizada avisou que o conserto iria demorar porque a peça que causou o problema está em falta.  02 01 Consumidores devem exigir reposição de peças de eletrônicos.  03 01 Analistas aguardam a divulgação das notas da reunião da autoridade monetária.  04 01 O governo deveria tabelar os preços da eletricidade no mercado.  05 01 Produtos sem diferencial forte foram substituídos por outros mais baratos.  06 01 Governos europeus afetados continuam lutando para evitar a expansão da doença.  07 01 Encontro não prevê negociação mas será decisivo para o futuro do acordo.  08 01 Telefonia e planos de saúde mantêm liderança no ranking de queixas do ano passado.  09 01 Objetivo é melhorar a condição de vida dos municípios mais pobres.  10 01 Discussão geral sobre o tema foi intensificada com painel contra o Brasil.  11 01 Israelenses acham que ele está mais preocupado com as relações diplomáticas.  12 01 Ele alega que convocação para falar sobre financiamento do seu partido é inconstitucional.  13 01 Eles querem que a prefeitura aceite uma série de exigências da categoria.  14 02 Bolsas tentam adivinhar quando o temido urso voltará a hibernar.  15 02 Já sei por que choras, saxofone, tanto assim.  16 02 Crise argentina afeta alongamento de prazo dos títulos da dívida.  17 02 As duas agências de risco apontam dificuldades que a Argentina terá em captar recursos.  18 02 Comitê do bloco vai determinar qual é o risco do produto nacional quanto ao mal da vaca louca.  19 02 Cenário internacional é desfavorável para negociações e acionistas deverão ceder.  20 02 Legislação não foi regulamentada e ainda é questionada pela bancada amazonense.  21 02 Novamente a bolsa paulista foi afetada por fatores externos.  22 02 Israel responde a atentados com bombardeios.  23 02 Nossos vizinhos peruanos não mereciam seus dois últimos chefes de estado.  24 02 As duas seleções tradicionais lideram seus respectivos grupos com relativa folga.  25 02 As mudanças no sistema de transferência de atletas devem provocar muitas ações na justiça.  26 02 O lateral recuperou rapidamente a forma e encanta a torcida com seus ousados dribles.   27 03 Isso vai acabar criando novas formas de divisão de classes.  28 03 Não acredito que a humanidade toda vá usar a rede.  29 03 O inglês é o esperanto da internet.  30 03 Antes era o grego, depois foi o latim.  31 03 Os altos e baixos da internet são como as dores de um parto.  32 03 Eles explicam tudo sobre o mercado de ações e você investe sem sair de casa.  33 03 Para atrair clientes, lojas virtuais já estão aceitando até tíquete e cheque pré-datado   34 03 O cliente paga com dinheiro, cheque ou tíquete quando recebe a mercadoria.  35 03 O ideal seria que todos formassem uma só empresa.   36 03 Confira o teste de oito dos modelos mais populares.  37 03 O comércio eletrônico de carros veio facilitar a vida dos compradores, mas nem tudo funciona tão bem.  38 03 Existem algumas desvantagens e também certas armadilhas.  39 03 O fato de retirar o veículo na loja não suspende todos os seus direitos.  40 03 Ficar longe da rede não é crime.  41 03 Endereços de culinária colocam ao alcance de sua mesa bibliotecas de receitas e os segredos dos mestres da cozinha internacional.  42 03 Remédios que navegam pelo corpo, máquinas que fazem cirurgias e médicos que cuidam de pacientes pela internet são exemplos da revolução da tecnologia dentro de hospitais e consultórios.  43 03 Os jovens médicos da época aprendiam a cuidar dos pacientes pela observação de fatos cotidianos e experiências feitas com cobaias vivas.  44 03 Reunir todas as informações sobre o paciente em um mesmo local significa mais eficiência.  45 03 Passo meses sem abrir o computador.  46 04 A pobreza em certos países é causada por decisões erradas de seus próprios governantes.  47 04 O Peru vai às urnas domingo para eleger o seu presidente.  48 04 Alguns analistas vislumbram nessa iniciativa uma provável mudança do regime cambial.  49 04 Acordos de livre comércio são instrumentos para esse fim.  50 04 Depois, os dois ministros passaram ao tema das patentes.  51 04 Operação em navios é suspensa por fiscalização.  52 04 Um pequeno alívio para o produtor será o fim da pressão nos fretes.  53 04 Não podemos perder a oportunidade de utilizarmos um preso que está contribuindo.  54 04 Brasileiros serão estrelas na Romênia.  55 04 Para uma situação como essa, eles costumam filmar no México ou na Venezuela.  56 04 O clima entre os comandos do Banco do Brasil anda sujeito a chuvas e trovoadas.  57 04 O sonho dourado do brasileiro é ganhar na loteria e parar de trabalhar, certo?  58 04 Agentes funerários e poetas gostam de se vestir de preto, de bebidas grátis e corpos na horizontal.  59 04 Vou promover o fado no mundo.  60 05 Não há mistério para explicar a fase excepcional.  61 05 A situação começa a inverter-se.  62 05 A campanha paraguaia alternou vitórias e derrotas nas quatro rodadas iniciais.  63 05 A seleção começou as eliminatórias sob a direção de Trott Maloto, auxiliar de Philippe Troussier na copa de 98.  64 05 Outro recorde negativo ficou por conta do número de treinadores.  65 05 Para não decepcionar e provocar desinteresse no público local logo de cara, a Coréia do Sul recorreu a nome de peso para comandar a seleção.  66 05 A regularidade foi mantida pelo trabalho eficiente de Bruce Arena.  67 05 O balanço da etapa eliminatória foi excepcional do ponto de vista matemático, com oito vitórias e dois empates.  68 05 No fundo, até a definição de jogar na Coréia do Sul acabou sendo benéfica para o Brasil.  69 05 A França é favorita à conquista do título, mas a largada se dá em chave complicada.  70 06 Um dos principais objetivos da investigação é identificar as vítimas, uma tarefa fundamental não só para consolar os parentes dos mortos mas também para possibilitar pagamentos de seguros, partilhas de heranças e concessões de pensões.  71 06 Muitos dos sistemas vitais do país são acessíveis pela Internet e utilizam programas comerciais que contêm vulnerabilidades bem conhecidas.  72 06 Essa evolução da agressão física para a verbal está manifesta na própria história do vocábulo "insulto".  73 06 Com forças terrestres altamente treinadas, tomam e desativam todo o arsenal atômico do país.  74 06 A sociedade brasileira parece dividida sobre a questão.  75 06 A falibilidade da justiça é uma espessa nuvem sombria que paira sobre qualquer argumento desfavorável a pena de morte.  76 06 Mal sabia o anônimo repórter que detonaria, com seu erro, uma longa história de vitórias heróicas, derrotas humilhantes e vice-versa, de injustiças, polêmicas e triunfos.  77 06 Algumas unidades têm a altura de um prédio de 20 andares e podem pesar mais de 15 mil toneladas.  78 06 Depois de ler os dois livros, talvez você nem ache tão difícil montar o quebra-cabeças dos conflitos políticos e religiosos de boa parte do mundo.  79 06 Ele criou uma mitologia própria, um mundo sem paralelo em detalhes na história.  80 07 O leitor está certo em parte.  Resultados Para o perfeito entendimento da tabela que se segue, algumas observações se fazem necessárias: NT = não testada incorreta = o analisador concluiu que a construção sintática desta sentença é incorreta não terminou = o analisador estava em funcionamento por 48 horas e não havia encerrado a análise, tendo sido interrompido No.  Teste 1 Arquivo: --- Data: 04/2001 Teste 2 Arquivo: --- Data: 05/2001 Teste 3 Arquivo: parateste9 Data: 01/2002            01 40 NT 008  02 09 NT 008  03 07 NT 038  04 03 NT 020  05 incorreta NT 044  06 incorreta NT 032  07 06 NT 002  08 16 NT 280  09 incorreta NT 186  10 01 NT 008  11 04 NT 004  12 incorreta NT 005  13 18 NT 015  14 incorreta NT 002  15 incorreta NT incorreta  16 08 NT 42 (não terminou)  17 14 NT incorreta  18 incorreta NT incorreta  No. Teste 1 Arquivo: --- Data: 04/2001 Teste 2 Arquivo: --- Data: 05/2001 Teste 3 Arquivo: parateste9 Data: 01 a 03/2002  19 12 NT 002  20 05 NT 016  21 10 NT 024  22 01 NT 004  23 03 NT 006  24 12 NT incorreta  25 80 NT 364  26 21 NT 016  27 NT 31 020  28 NT 40 049  29 NT 04 004  30 NT 18 012  31 NT 12 incorreta  32 NT 09 010  33 NT 75 incorreta  34 NT 59 019  35 NT 12 008  36 NT incorreta 030  37 NT incorreta incorreta  38 NT incorreta incorreta  39 NT incorreta 030 (não terminou)  40 NT 13 incorreta  41 NT 16 280 (não terminou)  42 NT incorreta não terminou  43 NT 596 incorreta  44 NT 42 incorreta  45 NT 01 005  46 NT 820 032  47 NT 01 007  48 NT 84 108  49 NT 06 004  50 NT 02 incorreta  51 NT 06 002  52 NT 72 020  53 NT 150 incorreta  54 NT 08 006  55 NT incorreta incorreta  56 NT 18 056  57 NT incorreta incorreta  58 NT incorreta 028  59 NT 07 008  60 NT 36 050  61 NT 307 004  62 NT NT incorreta  63 NT NT incorreta  64 NT NT 030  65 NT NT incorreta  66 NT NT incorreta  67 NT NT 025  68 NT NT não terminou  69 NT NT 032  70 NT NT incorreta  71 NT NT 480  72 NT NT 153  No Teste 1 Arquivo: --- Data: 04/2001 Teste 2 Arquivo: --- Data: 05/2001 Teste 3 Arquivo: parateste9 Data: 01 a 03/2002  73 NT NT 070  74 NT NT 004  75 NT NT 176  76 NT NT não terminou   77 NT NT 120  78 NT NT incorreta  79 NT NT 028  80 NT NT incorreta  25