Tutto questo non so se potrebbe essere un sistema migliore dei merits o integrativo. I merits possono essere un discorso molto soggettivo, influenzabile.
Di certo queste statistiche non possono sostituire il sistema dei merits, ma possono senz’altro contribuire a dare un quadro più completo degli utenti, affiancando altre statistiche a quelle meramente sul numero di merits. Come detto, ogni statistica è influenzabile ed imperfetta, ma quando si affiancano più statistiche che analizzano diversi aspetti, il quadro é più completo.
adesso che mi sono fatto una base di codice per gestire i post, pulirti e maneggiarli, voglio provare a fare un salto qualitativo.
C'e' della letteratura e un sacco di librerie su vari approcci per valutare la qualita' dei post,
iniziamo dalla similarita'.
Approccio TF-IDF (Term Frequency-Inverse Document Frequency) In pratica cerca di fare l'analisi di coppie di post
per vedere quanto sono simili, limitando l'analisi alla similitudine delle parole, ossia limitandosi sostanzialmente ad un'analisi sintattica
(ad esempio: from sklearn.feature_extraction.text import TfidfVectorizer)
Viene poi creata una matrice di punteggi di similarita', ed in base a questo si possono dedurre
coefficenti di similarita' sia tra post dello stesso utente (spammer) che intra utente (farmer)
Pero' al tempo dell'AI si puo' fare di piu', anche se in modo molto CPU-intensive.
Ci sono librerie che sono in grado di valutare gli embedding-semantici, ad esempio questa libreria python
"sentence_transformers" ha degli LM addestrati per comprendere la semantica di un messaggio e non limitarsi alla semplice sintassi.
Alla fine poi il processo e' lo stesso: si analizzano coppie di post (dello stesso utente o intra-utente) per trovare
somiglianze semantiche, e capire se e' un spammer (stesso utente) o un farmer (intra utente).
provero' ad usare questo modello che ho letto dovrebbe funzionare decentemente anche in italiano:
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
Ovviamente qui la questione e' molto complessa, quindi vi faro' sapere se ottengo qualche risultato interessante,
ma prima credo che dovro' attrezzare un ambiente con una GPU adeguata.