Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Desmembramento de MWE #110

Closed
fcbr opened this issue Dec 9, 2016 · 12 comments
Closed

Desmembramento de MWE #110

fcbr opened this issue Dec 9, 2016 · 12 comments
Assignees

Comments

@fcbr
Copy link
Contributor

fcbr commented Dec 9, 2016

Esta issue originalmente foi incluida como um comentario da issue #72, mas e' melhor abrir uma issue separada pois precisamos discutir alguns problemas.

@claudiafreitas escreveu:

temos que desmembrar as coisas que estão como MWE, e o PALAVRAS às vezes erra. Uma lista como a abaixo funciona pra vcs, par não termos que fazer tudo a mao?

Na lista abaixo:
a pos geral será NOUN;
a deprel entre os tokens é compound;
todos os tokens se ligam ao primeiro elemento;
a composição interna é NOUN ADP NOUN.

Fazer o lema de cada uma, nao mao, é um trabalho que eu me recuso a fazer. minha sugestão, por enquanto, é simplesmente repetirmos os lemas...se vcs tiverem alguma outra ideia quanto a isso...

POSMWE=NOUN
deprel = compound
COMPOSIÇÂO INTERNA: NOUN ADP NOUN

associação_de_estudantes
ave_de_rapina
bancos_de_dados
bilhete_de_identidade
bilhetes_de_identidade
bolsas_de_estudo
bomba_de_gasolina
calções_de_banho
carros_de_combate
cartão_de_crédito
carvão_de_pedra
casa_de_banho
casas_de_banho
centro_de_mesa
certidão_de_óbito
chave_de_ouro
conferência_de_imprensa
controle_de_natalidade
corrida_de_touros
custos_de_produção
estado_de_sítio
fim_de_semana
horários_de_trabalho
horas_de_ponta
junta_de_freguesia
juntas_de_freguesia
juros_de_mora
lençol_de_água
mercado_de_trabalho
número_de_contribuinte
obra_de_arte
onda_de_choque
ondas_de_choque
ontem_de_manhã
pano_de_fundo
perigo_de_morte
poços_de_petróleo
ponte_de_safena
ponto_de_rebuçado
ponto_de_vista
pontos_de_vista
porta_de_saída
posto_de_trabalho
postos_de_trabalho
projecto_de_lei
sala_de_aula
samba_de_breque
taxas_de_câmbio
trabalho_de_sapa
tratamento_de_choque
tribunal_de_contas
café_da_manhã
caixa_do_correio
cana_do_nariz
donos_da_casa
levado_da_breca
obra_do_mestre
açúcar_em_pó
cheques_em_branco
histórias_em_quadrinhos
salto_em_altura
fim-de_semana

fica assim:

POSMWE=NOUN
deprel = compound
COMPOSIÇÂO INTERNA: NOUN ADP NOUN

associação=de=estudantes

  1. associação lema NOUN xfeatures deprel rel MWE=associação=de=estudantes POSMWE=NOUN
  2. de lema ADP xfeatures 1 compound misc
  3. estudantes lema NOUN xfeatures 1 compound misc

EM UM CONTEXTO REAL:
COMO ESTÁ:

15	cuja	cujo	DET	<rel>|DET|F|S|@>N	Gender=Fem|Number=Sing|PronType=Rel	16	det	_	_
16	associação	associação	NOUN	<np-idf>|N|F|S|@SUBJ>	Gender=Fem|Number=Sing	20	nsubj	_	MWE=associação_de_estudantes 
17	de	de	ADP	PRP|@N<	_	18	case	_	_
18	estudantes	estudantes	NOUN	N|@P<	_	16	nmod	_	_
19	se	se	PRON	PERS|F|3S|ACC|@ACC>-PASS	Case=Acc|Gender=Fem|Number=Sing|Person=3|PronType=Prs	20	obj	_	_

COMO FICA

15	cuja	cujo	DET	<rel>|DET|F|S|@>N	Gender=Fem|Number=Sing|PronType=Rel	16	det	_	_
16	associação	associação	NOUN	<np-idf>|N|F|S|@SUBJ>	Gender=Fem|Number=Sing	20	nsubj	_	MWE=associação_de_estudantes POSMWE=NOUN
17	de	de	ADP	PRP|@N<	_	16	compound	_	_
18	estudantes	estudantes	NOUN	N|@P<	_	16	   compound	_	_
19	se	se	PRON	PERS|F|3S|ACC|@ACC>-PASS	Case=Acc|Gender=Fem|Number=Sing|Person=3|PronType=Prs	20	obj	_	_
@fcbr
Copy link
Contributor Author

fcbr commented Dec 9, 2016

@claudiafreitas PERGUNTA: o que devemos fazer com MWE na lista, mas que nao foram tageadas como MWE no campo misc?

Exemplo: "fim-de-semana", em CF211-5 nao foi tageada como MWE.

Mas "fim de semana" (sem hifens, btw) em CF79-1 foi tageada como MWE no campo misc.

De qq forma, teremos que fazer um levantamento destas ocorrencias.

@fcbr
Copy link
Contributor Author

fcbr commented Dec 9, 2016

Outra coisa, existem duas entradas para "fim de semana", com tokenizacoes diferentes:

42	fim	fim	NOUN	<np-def>|N|M|S|@P<	Gender=Masc|Number=Sing	33	nmod	_	MWE=fim_de_semana
43	de	de	ADP	PRP|@N<	_	44	case	_	_
44	semana	semana	NOUN	N|@P<	_	42	nmod	_	_
26	fim-de	fim-de	NOUN	N|M|S|@P<	Gender=Masc|Number=Sing	29	nmod	_	MWE=fim-de_semana
27	semana	semana	ADJ	ADJ|M|S|@N<	Gender=Masc|Number=Sing	26	amod	_	_

Seguindo as orientacoes ao pe da letra, nos iriamos manter o token fim-de acima.

EDIT: como existe apenas uma ocorrencia de fim-de_semana, eu prefiro nao tratar este caso e deixar para alguem corrigir manualmente depois.

@fcbr fcbr self-assigned this Dec 9, 2016
@fcbr
Copy link
Contributor Author

fcbr commented Dec 9, 2016

@claudiafreitas Como ficamos com as seguintes MWEs que usam contracoes e tem quatro tokens? Voce poderia dar um exemplo?

"café_da_manhã"
"caixa_do_correio"
"cana_do_nariz"
"donos_da_casa"
"obra_do_mestre"

Exemplo: CP442-5

@claudiafreitas
Copy link

claudiafreitas commented Dec 9, 2016

@fcbr
Pergunta1:

PERGUNTA: o que devemos fazer com MWE na lista, mas que nao foram tageadas como MWE no campo misc?

Temos duas opções:

a) solução fácil: considerar MWE (e, portanto, fazer as alterações) apenas naquilo que o PALAVRAS reconheceu como mwe (e daí vem as listas)

b) solução difícil: melhorar a saída do PALAVRAS com relação a isso, e portanto tranformar todos os elementos da lista em mwe, mesmo quando não o forem, originalmente. Nesse caso, é preciso conferir se pode haver mudança nas demais dependências da frase.
No caso específico do "fim-de-semana", não está como mwe justamente por causa do hífen. O PALAVRAS considera, nesse caso, uma palavra composta... (e a inconsistência no uso do hífen é normal.

MInha preferência, por enquanto, é pela opção a. Vc diz ainda que será preciso "fazer um levantamento dessas ocorências". De que ocorrências?

@claudiafreitas
Copy link

@fcbr
Pergunta 2:

EDIT: como existe apenas uma ocorrencia de fim-de_semana, eu prefiro nao tratar este caso e deixar para alguem corrigir manualmente depois.

Concordo. A lista /regra é apenas para os casos de "fim de semana". Cria em algum lugar uma indicação do que não pode ser resolvido com a regra/como esse caso, para ajeitarmos na mão, depois.

@claudiafreitas
Copy link

@fcbr
Pergunta 3:

Como ficamos com as seguintes MWEs que usam contracoes e tem quatro tokens?

Não desmembrei esses casos porque vi que o PALAVRAS estava inconsistente, e achei que podia dar problemas. Se não for um complicador a mais, teremos o seguinte:

Composição interna:
NOUN ADP DET NOUN
(em todos os casos, o lema de DET é "o")
"café_da_manhã"
café lema NOUN
de lema ADP
a o DET
manhã lema NOUN

@fcbr
Copy link
Contributor Author

fcbr commented Dec 9, 2016

Obrigado

Em relacao a pergunta 1: tambem voto pela opcao (a) e a gente lida com coisas como "fim-de-semana" e afins (que nao foram tageadas MWE) em outra issue.

Em relacao a pergunta 3: as deprel continuam compound, imagino, e todas ligando `a raiz. Se for diferente, avise.

@arademaker
Copy link
Collaborator

@claudiafreitas e @fcbr tenho receito apenas de ao adotarmos a solução (a) fácil as inconsistências depois simplesmente fiquem mais difíceis de serem achadas e sejam esquecidas. Eu voto (b)

@vcvpaiva
Copy link

vcvpaiva commented Dec 9, 2016

@claudiafreitas @livyreal (this refers to #76) o numero de "compounds" do UD-PT e' (em v1) 1140
https://github.com/UniversalDependencies/UD_Portuguese/blob/master/stats.xml#L105
enquanto PT-Bosque so' tinha 161 compounds,
https://github.com/UniversalDependencies/UD_Portuguese-Bosque/blob/master/stats.xml#L83
que cresceram pra 275.
um coisa razoavel seria olhar a lista dos compounds de UD_PT pra ver quem esta' faltando pra gente.
por exemplo acho que "o secretario de Estado" 'e marcado como compound no UD_PT, mas nao no PT-Bosque, na frase

1	E	e	CONJ	conj-c	_	6	cc	_	_
2	o	o	DET	art|<artd>|M|S	Definite=Def|Gender=Masc|Number=Sing|PronType=Art	3	det	_	_
3	dinheiro	dinheiro	NOUN	n|M|S	Gender=Masc|Number=Sing	6	nsubj	_	_
4	«	«	PUNCT	punc	_	6	punct	_	_
5	não	não	ADV	adv	_	6	neg	_	_
6	falta	faltar	VERB	v-fin|PR|3S|IND	Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin	13	ccomp	_	_
7	só	só	ADV	adv	_	6	advmod	_	_
8	a	a	ADP	prp|<sam->	AdpType=Prep	7	case	_	_
9	as	o	DET	art|<-sam>|<artd>|P	Definite=Def|Number=Plur|PronType=Art	10	det	_	_
10	câmaras	câmara	NOUN	n|F|P	Gender=Fem|Number=Plur	7	dobj	_	_
11	»"	»"	PUNCT	punc	_	6	punct	_	_
12	,	,	PUNCT	punc	_	13	punct	_	_
13	lembra	lembrar	VERB	v-fin|PR|3S|IND	Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin	0	root	_	_
14	o	o	DET	art|<artd>|M|S	Definite=Def|Gender=Masc|Number=Sing|PronType=Art	15	det	_	_
15	secretário	secretário	NOUN	n|M|S	_	13	nsubj	_	MWE=secretário_de_Estado|MWEPOS=NOUN
16	de	de	ADP	ADP	AdpType=Prep	17	case	_	_
17	Estado	Estado	NOUN	NOUN	_	15	compound	_	_
18	,	,	PUNCT	punc	_	15	punct	_	_
19	que	que	PRON	pron-indp|<rel>|M|S	Gender=Masc|Number=Sing|PronType=Rel	20	nsubj	_	_
20	considera	considerar	VERB	v-fin|PR|3S|IND	Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin	15	acl	_	_
21	que	que	SCONJ	conj-s	_	27	mark	_	_
22	a	o	DET	art|<artd>|F|S	Definite=Def|Gender=Fem|Number=Sing|PronType=Art	23	det	_	_
23	solução	solução	NOUN	n|F|S	Gender=Fem|Number=Sing	27	nsubj	_	_
24	para	para	ADP	prp	AdpType=Prep	26	case	_	_
25	as	o	DET	art|<artd>|F|P	Definite=Def|Gender=Fem|Number=Plur|PronType=Art	26	det	_	_
26	autarquias	autarquia	NOUN	n|F|P	Gender=Fem|Number=Plur	23	nmod	_	_
27	é	ser	VERB	v-fin|PR|3S|IND	Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin	20	ccomp	_	_
28	«	«	PUNCT	punc	_	27	punct	_	_
29	especializarem	especializar	VERB	v-inf|3P	Number=Plur|Person=3|VerbForm=Inf	27	ccomp	_	_
30	-se	se	PRON	pron-pers|<refl>|F|3P|ACC	Case=Acc|Gender=Fem|Number=Plur|Person=3|PronType=Prs|Reflex=Yes	29	dobj	_	_
31	em	em	ADP	prp	AdpType=Prep	32	case	_	_
32	fundos	fundo	NOUN	n|M|P	Gender=Masc|Number=Plur	29	nmod	_	_
33	comunitários	comunitário	ADJ	adj|M|P	Gender=Masc|Number=Plur	32	amod	_	_
34	»"	»"	PUNCT	punc	_	27	punct	_	_
35	.	.	PUNCT	punc	_	13	punct	_	_

que no Bosque 'e:

1	E	e	CONJ	KC|@CO	_	6	cc	_	_
2	o	o	DET	<artd>|ART|M|S|@>N	Definite=Def|Gender=Masc|Number=Sing|PronType=Art	3	det	_	_
3	dinheiro	dinheiro	NOUN	<np-def>|N|M|S|@SUBJ>	Gender=Masc|Number=Sing	6	nsubj	_	_
4	«	«	PUNCT	PU|@PU	_	6	punct	_	_
5	não	não	ADV	ADV|@ADVL>	_	6	neg	_	_
6	falta	faltar	VERB	<mv>|V|PR|3S|IND|@FS-ACC>	Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin	13	ccomp	_	_
7	só	só	ADV	ADV|@>A	_	10	advmod	_	_
8	a	a	ADP	<sam->|PRP|@<PIV	_	10	case	_	_
9	as	o	DET	<-sam>|<artd>|ART|@>N	Definite=Def|PronType=Art	10	det	_	_
10	câmaras	câmara	NOUN	<np-def>|N|F|P|@P<	Gender=Fem|Number=Plur	6	nmod	_	_
11	»	»	PUNCT	PU|@PU	_	6	punct	_	_
12	,	,	PUNCT	PU|@PU	_	6	punct	_	_
13	lembra	lembrar	VERB	<mv>|V|PR|3S|IND|@FS-STA	Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin	0	root	_	_
14	o	o	DET	<artd>|ART|M|S|@>N	Definite=Def|Gender=Masc|Number=Sing|PronType=Art	15	det	_	_
15	secretário	secretário	NOUN	<np-def>|N|M|S|@<SUBJ	Gender=Masc|Number=Sing	13	nsubj	_	MWE=secretário_de_Estado
16	de	de	ADP	PRP|@N<	_	17	case	_	_
17	Estado	Estado	NOUN	N|@P<	_	15	nmod	_	_
18	,	,	PUNCT	PU|@PU	_	13	punct	_	_
19	que	que	PRON	<rel>|INDP|M|S|@SUBJ>	Gender=Masc|Number=Sing|PronType=Rel	20	nsubj	_	_
20	considera	considerar	VERB	<mv>|V|PR|3S|IND|@FS-N<PRED	Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin	15	acl:relcl	_	_
21	que	que	SCONJ	KS|@SUB	_	29	mark	_	_
22	a	o	DET	<artd>|ART|F|S|@>N	Definite=Def|Gender=Fem|Number=Sing|PronType=Art	23	det	_	_
23	solução	solução	NOUN	<np-def>|N|F|S|@SUBJ>	Gender=Fem|Number=Sing	29	nsubj	_	_
24	para	para	ADP	PRP|@N<ARG	_	26	case	_	_
25	as	o	DET	<artd>|ART|F|P|@>N	Definite=Def|Gender=Fem|Number=Plur|PronType=Art	26	det	_	_
26	autarquias	autarquia	NOUN	<np-def>|N|F|P|@P<	Gender=Fem|Number=Plur	23	nmod	_	_
27	é	ser	VERB	<mv>|V|PR|3S|IND|@FS-<ACC	Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin	29	cop	_	_
28	«	«	PUNCT	PU|@PU	_	29	punct	_	_
29	especializarem-	especializar	VERB	<mv>|V|INF|3P|@ICL-<SC	Number=Plur|Person=3|VerbForm=Inf	20	dep	_	_
30	se	se	PRON	<refl>|PERS|F|3P|ACC|@<ACC	Case=Acc|Gender=Fem|Number=Plur|Person=3|PronType=Prs	29	dobj	_	_
31	em	em	ADP	PRP|@<ADVL	_	32	case	_	_
32	fundos	fundo	NOUN	<np-idf>|N|M|P|@P<	Gender=Masc|Number=Plur	29	nmod	_	_
33	comunitários	comunitário	ADJ	ADJ|M|P|@N<	Gender=Masc|Number=Plur	32	amod	_	_
34	»	»	PUNCT	PU|@PU	_	29	punct	_	_
35	.	.	PUNCT	PU|@PU	_	13	punct	_	_

@fcbr
Copy link
Contributor Author

fcbr commented Dec 12, 2016

@vcvpaiva I think it's better if your comment was made in issue #76 or a new issue altogether, since it will be lost when we close this.

@claudiafreitas I think this way of fixing MWEs works, so feel free to prepare similar lists for future issues. I am finalizing the code fix right now.

@claudiafreitas
Copy link

As listas contêm as mwe distribuídas pelas constituição interna. Isso é o que as difere. e isso é o que dá um trabalho insano.

@fcbr
Copy link
Contributor Author

fcbr commented Dec 12, 2016

Todas as listas originalmente coladas aqui foram movidas para seus respectivos novos issues. Por favor, qualquer nova lista deve seguir o mesmo padrao. Nova lista == novo issue.

Nao reabrir esta issue (a nao ser que tenha alguma coisa errada com o que ja' foi feito.)

@fcbr fcbr closed this as completed Dec 12, 2016
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants