-
Notifications
You must be signed in to change notification settings - Fork 12
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Desmembramento de MWE #110
Comments
@claudiafreitas PERGUNTA: o que devemos fazer com MWE na lista, mas que nao foram tageadas como MWE no campo Exemplo: "fim-de-semana", em CF211-5 nao foi tageada como MWE. Mas "fim de semana" (sem hifens, btw) em CF79-1 foi tageada como MWE no campo De qq forma, teremos que fazer um levantamento destas ocorrencias. |
Outra coisa, existem duas entradas para "fim de semana", com tokenizacoes diferentes:
Seguindo as orientacoes ao pe da letra, nos iriamos manter o token EDIT: como existe apenas uma ocorrencia de |
@claudiafreitas Como ficamos com as seguintes MWEs que usam contracoes e tem quatro tokens? Voce poderia dar um exemplo?
Exemplo: CP442-5 |
@fcbr
Temos duas opções: a) solução fácil: considerar MWE (e, portanto, fazer as alterações) apenas naquilo que o PALAVRAS reconheceu como mwe (e daí vem as listas) b) solução difícil: melhorar a saída do PALAVRAS com relação a isso, e portanto tranformar todos os elementos da lista em mwe, mesmo quando não o forem, originalmente. Nesse caso, é preciso conferir se pode haver mudança nas demais dependências da frase. MInha preferência, por enquanto, é pela opção a. Vc diz ainda que será preciso "fazer um levantamento dessas ocorências". De que ocorrências? |
@fcbr
Concordo. A lista /regra é apenas para os casos de "fim de semana". Cria em algum lugar uma indicação do que não pode ser resolvido com a regra/como esse caso, para ajeitarmos na mão, depois. |
@fcbr
Não desmembrei esses casos porque vi que o PALAVRAS estava inconsistente, e achei que podia dar problemas. Se não for um complicador a mais, teremos o seguinte: Composição interna: |
Obrigado Em relacao a pergunta 1: tambem voto pela opcao (a) e a gente lida com coisas como "fim-de-semana" e afins (que nao foram tageadas MWE) em outra issue. Em relacao a pergunta 3: as deprel continuam |
@claudiafreitas e @fcbr tenho receito apenas de ao adotarmos a solução (a) fácil as inconsistências depois simplesmente fiquem mais difíceis de serem achadas e sejam esquecidas. Eu voto (b) |
@claudiafreitas @livyreal (this refers to #76) o numero de "compounds" do UD-PT e' (em v1) 1140
que no Bosque 'e:
|
@vcvpaiva I think it's better if your comment was made in issue #76 or a new issue altogether, since it will be lost when we close this. @claudiafreitas I think this way of fixing MWEs works, so feel free to prepare similar lists for future issues. I am finalizing the code fix right now. |
As listas contêm as mwe distribuídas pelas constituição interna. Isso é o que as difere. e isso é o que dá um trabalho insano. |
Todas as listas originalmente coladas aqui foram movidas para seus respectivos novos issues. Por favor, qualquer nova lista deve seguir o mesmo padrao. Nova lista == novo issue. Nao reabrir esta issue (a nao ser que tenha alguma coisa errada com o que ja' foi feito.) |
Esta issue originalmente foi incluida como um comentario da issue #72, mas e' melhor abrir uma issue separada pois precisamos discutir alguns problemas.
@claudiafreitas escreveu:
temos que desmembrar as coisas que estão como MWE, e o PALAVRAS às vezes erra. Uma lista como a abaixo funciona pra vcs, par não termos que fazer tudo a mao?
Na lista abaixo:
a pos geral será NOUN;
a deprel entre os tokens é compound;
todos os tokens se ligam ao primeiro elemento;
a composição interna é NOUN ADP NOUN.
Fazer o lema de cada uma, nao mao, é um trabalho que eu me recuso a fazer. minha sugestão, por enquanto, é simplesmente repetirmos os lemas...se vcs tiverem alguma outra ideia quanto a isso...
POSMWE=NOUN
deprel = compound
COMPOSIÇÂO INTERNA: NOUN ADP NOUN
associação_de_estudantes
ave_de_rapina
bancos_de_dados
bilhete_de_identidade
bilhetes_de_identidade
bolsas_de_estudo
bomba_de_gasolina
calções_de_banho
carros_de_combate
cartão_de_crédito
carvão_de_pedra
casa_de_banho
casas_de_banho
centro_de_mesa
certidão_de_óbito
chave_de_ouro
conferência_de_imprensa
controle_de_natalidade
corrida_de_touros
custos_de_produção
estado_de_sítio
fim_de_semana
horários_de_trabalho
horas_de_ponta
junta_de_freguesia
juntas_de_freguesia
juros_de_mora
lençol_de_água
mercado_de_trabalho
número_de_contribuinte
obra_de_arte
onda_de_choque
ondas_de_choque
ontem_de_manhã
pano_de_fundo
perigo_de_morte
poços_de_petróleo
ponte_de_safena
ponto_de_rebuçado
ponto_de_vista
pontos_de_vista
porta_de_saída
posto_de_trabalho
postos_de_trabalho
projecto_de_lei
sala_de_aula
samba_de_breque
taxas_de_câmbio
trabalho_de_sapa
tratamento_de_choque
tribunal_de_contas
café_da_manhã
caixa_do_correio
cana_do_nariz
donos_da_casa
levado_da_breca
obra_do_mestre
açúcar_em_pó
cheques_em_branco
histórias_em_quadrinhos
salto_em_altura
fim-de_semana
fica assim:
POSMWE=NOUN
deprel = compound
COMPOSIÇÂO INTERNA: NOUN ADP NOUN
associação=de=estudantes
EM UM CONTEXTO REAL:
COMO ESTÁ:
COMO FICA
The text was updated successfully, but these errors were encountered: