bitmover
Legendary
Offline
Activity: 2450
Merit: 6249
bitcoindata.science
|
|
September 04, 2020, 04:57:03 PM |
|
O @alegotardo fez eu trabalhar hoje..
Botei umas 6 letras.. agora a lista está com 2058 palavras..
Vou mandar umas PMs para o pessoal de Portugal nos ajudar a filtrar a lista..
Pessoal, tirei mais algumas que achei ofensivas ou sem sentido (sexual, afta, vuvuzera entre outras) Trabalho praticamente encerrado. Acho que agora é reduzir mais ainda pra 2048. Vou criar um topico na aba technical discussion, direcionando para os 4 principais contribuires (Sabota, Alegotardo eu e o TryNinja) e perguntando se eles tem alguma recomendacao para a proposta final antes de enviarmos para o iancoleman.
|
|
|
|
alegotardo
Legendary
Offline
Activity: 2562
Merit: 1218
☢️ alegotardo™️
|
|
September 04, 2020, 04:57:35 PM |
|
O @alegotardo fez eu trabalhar hoje..
Botei umas 6 letras.. agora a lista está com 2058 palavras..
Vou mandar umas PMs para o pessoal de Portugal nos ajudar a filtrar a lista..
Mas também, ficou mamão com açúcar depois de receber um dicionário já com palavras filtradas de 4 a 8 palavras, sem acentos, com as 4 primeiras letras distintas e que não existe nos outros dicionários do BIP39. Quero ver o @bitmover tirar algo agora Pessoal, tirei mais algumas que achei ofensivas ou sem sentido (sexual, afta, vuvuzera entre outras)
[EDIT] @bitmover, não estou vendo essa sua exclusão aqui no histórico. Tem certeza que está no branch correto?
|
| . .Duelbits. | │ | | │ | ▄▄█▄▄░░▄▄█▄▄░░▄▄█▄▄ ███░░░░███░░░░███ ▀░░░▀░░▀░░░▀░░▀░░░▀ ▄░░░░░░░░░░░░ ▀██████████ ░░░░░███░░░░▀ ░░█░░░███▄█░░░█ ░░██▌░░███░▀░░██▌ ░█░██░░███░░░█░██ ░█▀▀▀█▌░███░░█▀▀▀█▌ ▄█▄░░░██▄███▄█▄░░▄██▄ ▄███▄ ░░░░▀██▄▀ | . REGIONAL SPONSOR | | ███▀██▀███▀█▀▀▀▀██▀▀▀██ ██░▀░██░█░███░▀██░███▄█ █▄███▄██▄████▄████▄▄▄██ ██▀ ▀███▀▀░▀██▀▀▀██████ ███▄███░▄▀██████▀█▀█▀▀█ ████▀▀██▄▀█████▄█▀███▄█ ███▄▄▄████████▄█▄▀█████ ███▀▀▀████████████▄▀███ ███▄░▄█▀▀▀██████▀▀▀▄███ ███████▄██▄▌████▀▀█████ ▀██▄███▀██▄█▄▄▄██▄████▀ ▀▀██████████▄▄███▀▀ ▀▀▀▀█▀▀▀▀ | . EUROPEAN BETTING PARTNER | |
|
|
|
sabotag3x (OP)
Legendary
Offline
Activity: 2674
Merit: 2294
Crypto Swap Exchange
|
|
September 04, 2020, 05:38:41 PM |
|
Pessoal, tirei mais algumas que achei ofensivas ou sem sentido (sexual, afta, vuvuzera entre outras)
Trabalho praticamente encerrado. Acho que agora é reduzir mais ainda pra 2048.
Vou criar um topico na aba technical discussion, direcionando para os 4 principais contribuires (Sabota, Alegotardo eu e o TryNinja) e perguntando se eles tem alguma recomendacao para a proposta final antes de enviarmos para o iancoleman.
Eu esperaria alguns portugueses fazerem uma revisão.. Eu mandei uma PM para Jay_Pal, pedrog, FilipeHenriques, Trimegistus e idunets aqui no fórum.. com sorte eles dão uma olhada.. Eu acho que ainda tem trabalho a ser feito, passar um pente fino.. tem umas palavras pouco utilizadas como "modal".. "arruela" que é muito parecida com "ruela" (esta eu retirei) e é pouco utilizada, talvez tenha mais algumas "ofensivas/negativas" perdidas por ali também.. Também tem que citar os outros 2 contribuidores do Github que começaram a lista, e ver se teve mais gente que os ajudou.. @bitmover, não estou vendo essa sua exclusão aqui no histórico. Tem certeza que está no branch correto? Cheguei agora e já aceitei o PR.. se você me mandar mais letras eu adiciono mais algumas para poder filtrar melhor depois.. edit: também tem umas que fogem a regra das 4 primeiras letras, como "mugir" e "mugido".. Alguém consegue automatizar a revisão desta regra?
|
|
|
|
sabotag3x (OP)
Legendary
Offline
Activity: 2674
Merit: 2294
Crypto Swap Exchange
|
|
September 04, 2020, 06:50:26 PM |
|
@bitmover os caras usaram palavras com acento na lista em espanhol/francês.. Então tem que substituir os acentos na lista para fazer a comparação.. ex: "é" por "e", "à, á, ã" por "a"..
Francês tem: "cinéma" (linha 396) e o nosso também tem "cinema".. creio que deve ter mais palavras, assim como tinha "acne" na primeira lista em português e tem "acné" em espanhol..
|
|
|
|
alegotardo
Legendary
Offline
Activity: 2562
Merit: 1218
☢️ alegotardo™️
|
|
September 04, 2020, 06:59:24 PM |
|
@bitmover os caras usaram palavras com acento na lista em espanhol/francês.. Então tem que substituir os acentos na lista para fazer a comparação.. ex: "é" por "e", "à, á, ã" por "a"..
Francês tem: "cinéma" (linha 396) e o nosso também tem "cinema".. creio que deve ter mais palavras, assim como tinha "acne" na primeira lista em português e tem "acné" em espanhol..
🤦 E eu já tava contente que não precisaria mais garimpar palavras.... Vou te mandar os dicionários que faltaram.
|
| . .Duelbits. | │ | | │ | ▄▄█▄▄░░▄▄█▄▄░░▄▄█▄▄ ███░░░░███░░░░███ ▀░░░▀░░▀░░░▀░░▀░░░▀ ▄░░░░░░░░░░░░ ▀██████████ ░░░░░███░░░░▀ ░░█░░░███▄█░░░█ ░░██▌░░███░▀░░██▌ ░█░██░░███░░░█░██ ░█▀▀▀█▌░███░░█▀▀▀█▌ ▄█▄░░░██▄███▄█▄░░▄██▄ ▄███▄ ░░░░▀██▄▀ | . REGIONAL SPONSOR | | ███▀██▀███▀█▀▀▀▀██▀▀▀██ ██░▀░██░█░███░▀██░███▄█ █▄███▄██▄████▄████▄▄▄██ ██▀ ▀███▀▀░▀██▀▀▀██████ ███▄███░▄▀██████▀█▀█▀▀█ ████▀▀██▄▀█████▄█▀███▄█ ███▄▄▄████████▄█▄▀█████ ███▀▀▀████████████▄▀███ ███▄░▄█▀▀▀██████▀▀▀▄███ ███████▄██▄▌████▀▀█████ ▀██▄███▀██▄█▄▄▄██▄████▀ ▀▀██████████▄▄███▀▀ ▀▀▀▀█▀▀▀▀ | . EUROPEAN BETTING PARTNER | |
|
|
|
sabotag3x (OP)
Legendary
Offline
Activity: 2674
Merit: 2294
Crypto Swap Exchange
|
|
September 04, 2020, 07:03:09 PM |
|
🤦 E eu já tava contente que não precisaria mais garimpar palavras.... Vou te mandar os dicionários que faltaram.
https://youtu.be/UPw-3e_pzqU
|
|
|
|
bitmover
Legendary
Offline
Activity: 2450
Merit: 6249
bitcoindata.science
|
|
September 04, 2020, 07:05:07 PM Last edit: September 04, 2020, 08:16:08 PM by bitmover |
|
@bitmover os caras usaram palavras com acento na lista em espanhol/francês.. Então tem que substituir os acentos na lista para fazer a comparação.. ex: "é" por "e", "à, á, ã" por "a"..
Francês tem: "cinéma" (linha 396) e o nosso também tem "cinema".. creio que deve ter mais palavras, assim como tinha "acne" na primeira lista em português e tem "acné" em espanhol..
kct... realmente... eu consigo fazer isso sim. Preciso converter a lista deles toda de "é" para "e" e comparo depois. edit: também tem umas que fogem a regra das 4 primeiras letras, como "mugir" e "mugido".. Alguém consegue automatizar a revisão desta regra?
Sim, é possível. Acho que consigo fazer fácil. Se preparem que lá vem bomba. Edit: Acho que usei uma bomba atomica pra mata uma formiga, mas nada ficou de fora desse dicionario: 'à':'a', 'á':'a', 'â':'a', 'ã':'a', 'ä':'a', 'å':'a', 'ç':'c', 'è':'e', 'é':'e', 'ê':'e', 'ë':'e', 'ì':'i', 'í':'i', 'î':'i', 'ï':'i', 'ò':'o', 'ó':'o', 'ô':'o', 'õ':'o', 'ö':'o', 'ù':'u', 'ú':'u', 'û':'u', 'ü':'u', 'ý':'y', 'ÿ':'y'
kkkk ja vou atualizar Edit 2: Pessoal tive um problema na hora de rodar, e vou ter que alterar o script. Espero conseguir fazer hj, mas sexta e foda...
|
|
|
|
alegotardo
Legendary
Offline
Activity: 2562
Merit: 1218
☢️ alegotardo™️
|
|
September 04, 2020, 07:58:31 PM |
|
Sim, é possível.
Acho que consigo fazer fácil.
Se preparem que lá vem bomba.
Pelo meu script, tem que eliminar essas... bambu bateria bonsai celeste cinema desvio eclipse engano equipe esqui galeria guia imperial ironia legume mineral oceano pequeno quietude raiz rubi teoria vegetal Das atuais 2085 palavras vai pra 2062. Mas não confio muito porque estou fazendo tudo no excel (Microsoft, sabe né), vamos ver o que tu consegue.
|
| . .Duelbits. | │ | | │ | ▄▄█▄▄░░▄▄█▄▄░░▄▄█▄▄ ███░░░░███░░░░███ ▀░░░▀░░▀░░░▀░░▀░░░▀ ▄░░░░░░░░░░░░ ▀██████████ ░░░░░███░░░░▀ ░░█░░░███▄█░░░█ ░░██▌░░███░▀░░██▌ ░█░██░░███░░░█░██ ░█▀▀▀█▌░███░░█▀▀▀█▌ ▄█▄░░░██▄███▄█▄░░▄██▄ ▄███▄ ░░░░▀██▄▀ | . REGIONAL SPONSOR | | ███▀██▀███▀█▀▀▀▀██▀▀▀██ ██░▀░██░█░███░▀██░███▄█ █▄███▄██▄████▄████▄▄▄██ ██▀ ▀███▀▀░▀██▀▀▀██████ ███▄███░▄▀██████▀█▀█▀▀█ ████▀▀██▄▀█████▄█▀███▄█ ███▄▄▄████████▄█▄▀█████ ███▀▀▀████████████▄▀███ ███▄░▄█▀▀▀██████▀▀▀▄███ ███████▄██▄▌████▀▀█████ ▀██▄███▀██▄█▄▄▄██▄████▀ ▀▀██████████▄▄███▀▀ ▀▀▀▀█▀▀▀▀ | . EUROPEAN BETTING PARTNER | |
|
|
|
sabotag3x (OP)
Legendary
Offline
Activity: 2674
Merit: 2294
Crypto Swap Exchange
|
|
September 04, 2020, 08:23:29 PM Last edit: September 04, 2020, 10:10:30 PM by sabotag3x |
|
Palavras que eu tiraria: EDIT: as palavras riscadas foram excluídas.. a lista agora contém 2048 palavras e só precisa ser revisada.
Tamanho - Tamanco - regra das 4 primeiras Mugido - Mugir - regra das 4 primeiras
Moradia - Morango - regra das 4 primeiras
Jogada - Jogador - regra das 4 primeiras Gerador - Gerar - regra das 4 primeiras Encontro - Encosto - regra das 4 primeiras
Dinamite - Dinastia - regra das 4 primeiras
Utero - typo (útero)
Fuba - typo (fubá)
Zonzar - não existe no dicionário
Vilania - não sei o que é
Agrado - mudar para verbo
Roxa - Roxo - muito parecidas
Rali - Ralo - muito parecidas Pular - Pulo - muito parecidas Clipe - Clique - muito parecidas
Bula - Bule - muito parecidas
Vomitar - negativa
Vitimar - negativa
Virose - negativa
Vingar - negativa
Vesgo - negativa
Viciado - negativa
Verme - negativa
Tontura - negativa
Pior - negativa
Maluco - negativa
Nunca - negativa
Lamento - negativa
Jazida - negativa
Ineficaz - negativa
Falha - negativa
Falido - negativa
Fajuto - negativa
Facada - negativa
Dreno - negativa
Danoso - negativa
Caolho - negativa
Caluniar - negativa
Cafona - negativa
Azedo - negativa
Ecomuseu - pouco utilizada
Paiol - pouco utilizada
Miudeza - pouco utilizada
Macro - pouco utilizada
Leonino - pouco utilizada
Lavrado - pouco utilizada
Harpia - pouco utilizada
Fava - pouco utilizada
Bruma - pouco utilizada
Brado - pouco utilizada
Adiposo - pouco utilizada
|
|
|
|
bitmover
Legendary
Offline
Activity: 2450
Merit: 6249
bitcoindata.science
|
|
September 04, 2020, 08:35:10 PM |
|
Pessoal, tirem essas que vocês sugiram. Vou tentar fazer o script hoje , no mais tardar amanhã.
|
|
|
|
alegotardo
Legendary
Offline
Activity: 2562
Merit: 1218
☢️ alegotardo™️
|
|
September 04, 2020, 08:35:30 PM |
|
Palavras que eu tiraria: ~~~~
Eu concordo com todas do grupo "regra das 4 primeiras" e "pouco utilizada" Pelas minhas contas vai sobrar umas 25 palavras após o @bitmover ajustar e rodar o script, então vamos ir com calma aí
|
| . .Duelbits. | │ | | │ | ▄▄█▄▄░░▄▄█▄▄░░▄▄█▄▄ ███░░░░███░░░░███ ▀░░░▀░░▀░░░▀░░▀░░░▀ ▄░░░░░░░░░░░░ ▀██████████ ░░░░░███░░░░▀ ░░█░░░███▄█░░░█ ░░██▌░░███░▀░░██▌ ░█░██░░███░░░█░██ ░█▀▀▀█▌░███░░█▀▀▀█▌ ▄█▄░░░██▄███▄█▄░░▄██▄ ▄███▄ ░░░░▀██▄▀ | . REGIONAL SPONSOR | | ███▀██▀███▀█▀▀▀▀██▀▀▀██ ██░▀░██░█░███░▀██░███▄█ █▄███▄██▄████▄████▄▄▄██ ██▀ ▀███▀▀░▀██▀▀▀██████ ███▄███░▄▀██████▀█▀█▀▀█ ████▀▀██▄▀█████▄█▀███▄█ ███▄▄▄████████▄█▄▀█████ ███▀▀▀████████████▄▀███ ███▄░▄█▀▀▀██████▀▀▀▄███ ███████▄██▄▌████▀▀█████ ▀██▄███▀██▄█▄▄▄██▄████▀ ▀▀██████████▄▄███▀▀ ▀▀▀▀█▀▀▀▀ | . EUROPEAN BETTING PARTNER | |
|
|
|
Trimegistus
Legendary
Offline
Activity: 1564
Merit: 1027
|
@bitmover os caras usaram palavras com acento na lista em espanhol/francês.. Então tem que substituir os acentos na lista para fazer a comparação.. ex: "é" por "e", "à, á, ã" por "a"..
Francês tem: "cinéma" (linha 396) e o nosso também tem "cinema".. creio que deve ter mais palavras, assim como tinha "acne" na primeira lista em português e tem "acné" em espanhol..
Eu acho muito bem que se mantenham os acentos. Essa ditadura imposta pelos anglo-saxónicos tem que terminar. Será que ainda não ouviram falar em Unicode? A língua portuguesa tem acentos! Estar a escolher palavras que sejam convenientes para "eles" não faz sentido. Devíamos tentar, de alguma forma, lutar contra isso!
|
|
|
|
TryNinja
Legendary
Offline
Activity: 2982
Merit: 7399
Top Crypto Casino
|
|
September 04, 2020, 11:06:15 PM |
|
Eu acho muito bem que se mantenham os acentos. Essa ditadura imposta pelos anglo-saxónicos tem que terminar. Será que ainda não ouviram falar em Unicode?
A língua portuguesa tem acentos! Estar a escolher palavras que sejam convenientes para "eles" não faz sentido.
Devíamos tentar, de alguma forma, lutar contra isso!
Mas na verdade nós podemos usar acento, afinal, com o sem assento, o resultado vai ser o mesmo (a carteira tira os acentos). Foi só algo que o outro user (autor inicial da lista) decidiu. Mas eu também concordo que usar acento é melhor (afinal, não atrapalha).
|
|
|
|
|
sabotag3x (OP)
Legendary
Offline
Activity: 2674
Merit: 2294
Crypto Swap Exchange
|
|
September 05, 2020, 03:41:58 AM |
|
Retirei mais estas: cirene - typo bocudo - pouco utilizada boiada - já tem "bolada", "i" e "l" é muito fácil confundir chuca - 4 primeiras comboio - 4 primeiras doloso - negativa embaixo - 4 primeiras empada - 4 primeiras enjoado - negativa esquadro - 4 primeiras falecido - negativa fedido - negativa fedor - negativa folha - 4 primeiras formado - 4 primeiras fugitivo - negativa garoto - 4 primeiras interno - 4 primeiras jasmin - typo, corrigido para jasmim loiro - grafia dupla -> louro/loiro malabar - pouco utilizada melado - 4 primeiras modal - pouco utilizada museu - tinha 2x paginar - pouco utilizada plano - 4 primeiras plugue - pouco utilizada racismo - negativa sentido - 4 primeiras toca - muito parecida com touca, que já está na lista trilogia - 4 primeiras umedecer - Grafia em Portugal: humedecer *umidade - Grafia em Portugal: humidade *velar - pouco utilizada vividez - pouco utilizada *tem que ter um português para dar uma olhada na lista para evitar a rejeição do PR.. melhor uma 'universal' do que uma PTBR.. Então tem 2019 palavras, restam 29.. Peço que deem uma olhada manualmente, eu já olhei várias e sempre tem algo errado.. melhor revisar agora do que esperar 1 mês para o PR ser rejeitado e ter que refazer.. Sobre os acentos: acho que causaria mais confusão ao usuário final.. Não entendi nada sobre a Distância Levenshtein
|
|
|
|
JakobFugger
Member
Offline
Activity: 135
Merit: 49
|
|
September 05, 2020, 05:26:53 AM |
|
Eu ainda não entendi muito bem tudo. Mas procurei na lista em espanhol e português e não tem algumas palavras. Vou deixar aqui de sugestão elucidar emancipar psiquiatria delírio nuclear evocar mutual excederoceano talvez ajude
|
|
|
|
alegotardo
Legendary
Offline
Activity: 2562
Merit: 1218
☢️ alegotardo™️
|
|
September 05, 2020, 11:09:11 AM |
|
Olha o estrago que vocês fizeram Vejo que o final de semanaferiadão será longo
|
| . .Duelbits. | │ | | │ | ▄▄█▄▄░░▄▄█▄▄░░▄▄█▄▄ ███░░░░███░░░░███ ▀░░░▀░░▀░░░▀░░▀░░░▀ ▄░░░░░░░░░░░░ ▀██████████ ░░░░░███░░░░▀ ░░█░░░███▄█░░░█ ░░██▌░░███░▀░░██▌ ░█░██░░███░░░█░██ ░█▀▀▀█▌░███░░█▀▀▀█▌ ▄█▄░░░██▄███▄█▄░░▄██▄ ▄███▄ ░░░░▀██▄▀ | . REGIONAL SPONSOR | | ███▀██▀███▀█▀▀▀▀██▀▀▀██ ██░▀░██░█░███░▀██░███▄█ █▄███▄██▄████▄████▄▄▄██ ██▀ ▀███▀▀░▀██▀▀▀██████ ███▄███░▄▀██████▀█▀█▀▀█ ████▀▀██▄▀█████▄█▀███▄█ ███▄▄▄████████▄█▄▀█████ ███▀▀▀████████████▄▀███ ███▄░▄█▀▀▀██████▀▀▀▄███ ███████▄██▄▌████▀▀█████ ▀██▄███▀██▄█▄▄▄██▄████▀ ▀▀██████████▄▄███▀▀ ▀▀▀▀█▀▀▀▀ | . EUROPEAN BETTING PARTNER | |
|
|
|
bitmover
Legendary
Offline
Activity: 2450
Merit: 6249
bitcoindata.science
|
|
September 05, 2020, 04:47:17 PM |
|
Mesmo com os acentos, a unica palavra que saiu foi bonsai, que voces ja haviam retirado. Achei mais uma palavra repetida, oferta. QUero fazer daquela levenshtein distance que mencionaram na aba gringa. Achoq ue passando isso, seremos aprovados. Pelo q eu entendi vao checar isso. Criei um script para tirar as palavras que tem os 4 primeiros caracteres iguais O resultado foi esse: 307 capi 308 capi 325 cast 326 cast 327 cata 328 cata 419 comp 420 comp 503 desc 504 desc 606 enqu 607 enqu 619 enxa 620 enxa 638 esfr 639 esfr 646 espe 647 espe 1140 marc 1141 marc 1213 molh 1214 molh 1380 para 1381 para 1483 prec 1484 prec
Vou tirar as que eu achei piores e estou fazendo o pull request. 2005 palavras...
|
|
|
|
cryptobaboon
|
|
September 06, 2020, 02:29:35 AM |
|
Ôôôô delícia, o tipo de trabalho que eu adoro fazer! Tá dando até uma tristeza de não poder dar as caras mais vezes por aqui :/ não vou distribuir merits agora para não ser injusto se alguém entrar no barco antes do approval, farei questão de guardar ao menos um para todos que derem uma mão nesta IMPORTANTÍSSIMA empreitada! Sobre as words, dei uma olhada e me pergunto se há alguma condição específica de gênero. Questiono pois vejo o uso de ambos os casos, por exemplo: bonit a | brux o. Não seria melhor ter uma padronização de gêneros? Se eu puder ajudar de alguma forma (com uma latência considerável, é claro hehe ), me avisem, a gente dá uma mão como puder!
|
|
|
|
sabotag3x (OP)
Legendary
Offline
Activity: 2674
Merit: 2294
Crypto Swap Exchange
|
|
September 06, 2020, 02:52:31 AM |
|
Sobre as words, dei uma olhada e me pergunto se há alguma condição específica de gênero. Questiono pois vejo o uso de ambos os casos, por exemplo: bonita | bruxo. Não seria melhor ter uma padronização de gêneros?
Pensei nisso porém já está difícil com as atuais regras, com mais essa ficaria impossível.. Tem umas que dão conflito com outro idioma e só o outro gênero está disponível.. e ajuda bastante ter opção dupla na regra das 4 primeiras letras.. ex: gato e gata..
|
|
|
|
|