Diciamo che anche ripensandoci, molte similitudini potrebbero dipendere proprio dalla board dove si postano certi commenti.
Facendo un esempio diretto, postando nella sezione gambling immagino che il topic sia davvero “stretto”, ed il contesto tecnico, potrebbe portare ad avere un linguaggio simile.
Prova a vedere gbianchi, se chi posta nel thread NBA o Premier (internazionali ) o magari su chi posta su Serie A siano più “vicini” di altri. Sarebbe un confronto interessante.
Per il resto delle giuste opinioni di babo e pollo minato non mi esprimo. Sicuramente i dati sono pubblici, ma l’organizzazione dei metadati é sempre un argomento spinoso.
Ci sono due modi fondamentalmente diversi di usare tf-idf:
n-grammi a parole vs n-grammi a caratteri
Il primo quantizza il modo di comporre gruppi di parole, quindi quantizza molto la semantica
e cattura poco i "tic" individuali.
Il secondo invece quantizza il modo di comporre gruppi di caratteri, compresi la punteggiatura.
in particolare:
Il TF (Term Frequency) cattura l'utilizzo di certi gruppi di caratteri
il IDF (Inverse Document Frequency) valorizza gli n-grammi usati piu' raramente rispetto alla media del corpus.
questo e' il cuore della parte TF-IDF del mio algoritmo:
vec = TfidfVectorizer(analyzer="char", ngram_range=(3,5), max_features=5000)
PS: qui sto usando una parte micro-micro-infinitesimale,arcaica e a micro risorse delle tecnologie sviluppate per la AI,
quindi se vi preoccupate o vi indignate per questo, pensate cosa fanno dei vostri dati quelli della AI

Le AI sono statistica a livello di trilioni di trilioni di trilioni di volte piu' evoluta di questa robetta.