Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

dependence relations found in corpus, not in the UD #66

Closed
vcvpaiva opened this issue Oct 27, 2016 · 9 comments
Closed

dependence relations found in corpus, not in the UD #66

vcvpaiva opened this issue Oct 27, 2016 · 9 comments

Comments

@vcvpaiva
Copy link

vcvpaiva commented Oct 27, 2016

Bicks' dependencies have 5 dependency relation types that Dan's UD do not have:

  1. dep name="remnant" 27
  2. dep name="reparandum" 1
  3. dep name="vocative" 29
  4. dep name="discourse" 15
  5. dep name="dislocated" 9

very small numbers,but still, they do not seem to exist in official UDs. what should they be? from the stats lines 97, 98 and 100. and 83, 84.

@arademaker
Copy link
Collaborator

arademaker commented Oct 27, 2016

@vcvpaiva as relações existem em UD sim

http://universaldependencies.org/u/dep/index.html

As duas primeiras ocorrências de remnant no bosque_CF estão certas, compatíveis com a explicação em http://universaldependencies.org/u/dep/remnant.html. A terceira parece errada, 20 -remnant-> 9 para mim!

O lucro cresceu 24% para US$ 51 milhões e as vendas, 18%, para US$ 776 milhões.

1   O   o   DET <artd>|ART|M|S|@>N  PronType=Art|Gender=Masc|Number=Sing    2   det _   _
2   lucro   lucro   NOUN    <np-def>|N|M|S|@SUBJ>   Gender=Masc|Number=Sing 3   nsubj   _   _
3   cresceu crescer VERB    <first-cjt>|<mv>|V|PS|3S|IND|@FS-STA    Mood=Ind|Tense=Past|Person=3|Number=Sing    0   root    _   _
4   24  24  NUM <card>|NUM|M|P|@>N  _   5   nummod  _   _
5   %   %   SYM <np-def>|N|M|P|@<ACC    Gender=Masc|Number=Plur 3   dobj    _   _
6   para    para    ADP PRP|@<ADVL  _   9   case    _   _
7   US$ US$ NOUN    <np-idf>|N|M|P|@>N  Gender=Masc|Number=Plur 9   compound    _   _
8   51  51  NUM <card>|NUM|M|P|@>N  _   9   nummod  _   _
9   milhões    milhão NOUN    <np-def>|N|M|P|@P<  Gender=Masc|Number=Plur 3   nmod    _   _
10  e   e   CONJ    <co-fcl>|KC|@CO _   3   cc  _   _
11  as  o   DET <artd>|ART|F|P|@>N  PronType=Art|Gender=Fem|Number=Plur 12  det _   _
12  vendas  venda   NOUN    <np-def>|N|F|P|@SUBJ>   Gender=Fem|Number=Plur  2   remnant _   _
13  ,   ,   PUNCT   PU|@PU  _   3   punct   _   _
14  18  18  NUM <card>|NUM|M|P|@>N  _   15  nummod  _   _
15  %   %   SYM <Eg>|<np-def>|N|M|P|@<ACC   Gender=Masc|Number=Plur 5   remnant _   _
16  ,   ,   PUNCT   PU|@PU  _   3   punct   _   _
17  para    para    ADP PRP|@<ADVL  _   20  case    _   _
18  US$ US$ NOUN    <np-idf>|N|M|P|@>N  Gender=Masc|Number=Plur 20  compound    _   _
19  776 776 NUM <card>|NUM|M|P|@>N  _   20  nummod  _   _
20  milhões    milhão NOUN    <np-def>|N|M|P|@P<  Gender=Masc|Number=Plur 6   remnant _   _
21  .   .   PUNCT   PU|@PU  _   3   punct   _   _

@arademaker
Copy link
Collaborator

O caso de reparandum é mais difícil, mas acho que está errado:

"Escavou quanto quis, imediatamente atrás do muro que deitou abaixo para as máquinas poderem passar -- diz o autarca que com a promessa de, depois, reconstruir o muro."

que reparandum com promessa?!

@arademaker
Copy link
Collaborator

Para os vocatives alguns exemplos são:

O "Gente" vocative para piranhão! Como [piranhão] é o root da oração seguinte, parece estar certo para mim.

"Gente, é cada piranhão!"

O [mãe] vocative com o [acode-] abaixo:

"Ai, mãe Menininha, acode-nos nesta hora de quase desespero, dá-nos o alimento da confiança e do sonho."

Aqui estou em dúvida se a direção está correta no [vítimas] vocative com [Alô]. Não seria o inverso pela documentação http://universaldependencies.org/u/dep/vocative.html ?

"Alô, vítimas do abuso oscular do Brasil!"

@arademaker
Copy link
Collaborator

@livyreal exemplos ajudam! Veja como anda a documentação! Tente construir exemplos deste caso! Obviamente minhas considerações acima não esgotam os comentários, mas podemos revisar todos estes casos sim, dado que eles são os que não ocorrem no corpus do Dan.

@vcvpaiva
Copy link
Author

vcvpaiva commented Oct 28, 2016

well, everything that doesn't exist in Zeman's analysis and exists in Bick's should be checked, no?
More discrepancies between Bick's and Zeman's versions of the same corpus.

  1. Zeman has 3168 mwe, Bick has none;
  2. Zeman has 6919 name, Bick has none;
  3. Zeman has 1141 compounds, Bick has 24.

@arademaker
Copy link
Collaborator

@vcvpaiva todos estes casos já estão em outros issues sobre tokenização. mwe e name são casos particulares de compound. mwe none do Bick é porque os mwe estão aglutinados com underscore em um único token. name idem. compound temos que investigar os casos, como compound é a relação mais geral, provavelmente foram casos de mwe discontínuas. mas isto já está no #4, #13, #23 e #46

@vcvpaiva
Copy link
Author

vcvpaiva commented Oct 30, 2016

Concordo que o caso do 'reparendum' 'e complicado, pois o anotador precisa adivinhar o que o autor de uma frase que nao faz sentido, queria ter dito. mas e' so' um exemplo, podemos relevar, talvez.

que reparandum com promessa?!

o anotador acha que a frase era pra ser

"[..] diz o autarca que tinha prometido, depois, reconstruir o muro." ou "diz o autarca [que] com a promessa de, depois, reconstruir o muro."

@vcvpaiva
Copy link
Author

os exemplos dessas 5 relacoes sao interessantes, pois elas nao existiam (eu acho) quando o Dan fez a conversao dele. mas sao cafe pequeno, pois sao um total de 75 sentencas no maximo. e fenomenos dificeis que nem ellipsis.

muito mais importante quantitativamente 'e decidir que tipo de reconciliacao faz sentido fazer com as named entities e mwes. eu acho que fazia sentido re-escrever as mwes do Dan no novo corpus, verificando que as 3168 mwes do Dan foram achadas do mesmo jeito no novo corpus, se for facil, se os identificadores de sentenca forem bons pra isso.

@arademaker
Copy link
Collaborator

Este issue é outro muito antigo que não lista problemas concretos no corpus. As considerações foram da época onde estávamos consolidando as duas versões do corpus Bosque, vide

Rademaker, Alexandre, et al. "Universal dependencies for Portuguese." Proceedings of the Fourth International Conference on Dependency Linguistics (Depling 2017). 2017.

Vou fechar este issue. Qualquer problema ainda existente no corpus que tenha sido listado aqui, me parece estar já sendo tratato em outras issues.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants