<...>
¿Quizas sabes los links de los demás idiomas?
¿Como obtuviste esos reportes?
La información la he derivado a partir del trabajo de @Piggy, quien ha puesto a disposición de quien quiera una copia de ciertos campos de todos los perfiles de usuario (ver
Open scraped data of all the users - SQL Lite DB - 2.437.064 users).
Una vez importada dicha información (ya lo había hecho la semana pasada para otros análisis que he realizado), se trata de "limpiar" los valores de los campos que se quiere trabajar y agrupar. En este caso, he cogido tu lista y he agrupado por dichos países, limpiando la información previamente (por ejemplo, se ha de buscar todo valor del campo “location” que contenga el término "España" o "Spain" en parte de la cadena y agruparlos como un único país).
Tengo todos los valores del campo "location", pero limpiarlo bien para derivar todos los países es un proceso arduo. Como referencia, el campo "location" alberga 61.771 valores distintos. Esto se debe a que la gente mete de todo en este campo: direcciones BTC, nombre de un país, ciudad, ciudad+país, estado, etc. El valor más repetido es “USA” (2.779) seguido de “United States” (2.115), los cuales se deberían agrupar, pero también valores tales como “New York”, “Texas” etc.
En todo caso, como indicaba antes, esta información se ha de tomar con pinzas, dado que es probable que algunos pongan un país determinado para "despistar", y he visto cuentas creadas por Bots que como patrón común ponían el nombre de un estado de los estados unidos.