Twitter Geo Analytics
Published:
Twitter Geo Analytics
Website \ Get Started \ Github \ Docs
English :
- Prediction of the intensity of activities on Twitter according on Socio-demographic and political determinants,
- Research and developing ML models for forecasting the rate of tweets in all commune of France,
- Developing and integrating automatized NLP tools for emotions analysis (SVM, Naïve Bayes, LSTM, etc.) and text processing,
- Visualization of the rate of tweets by regional mapping.
Context
La géostatistique est l’étude des variables régionalisées, à la frontière entre les mathématiques et les sciences de la Terre. Son principal domaine d’utilisation a historiquement été l’estimation des gisements miniers, mais son domaine d’application actuel est beaucoup plus large et tout phénomène spatialisé peut être étudié en utilisant la géostatistique.
TwitterGeoAnalytics
L’application Shiny est accéssible sur ce lien: TwitterGeoAnalytics App
Cette analyse concerne uniquement la région de Rhône Alpes pour cette étude.
Analyse exploratoire
Sur l’application vous avez accées à une analyse exploratoire des données tweets dans la région de Rhône Alpes. Nous avons une visualisation cartographique du taux de tweets par commune.
La partie analyse descriptive (univarié et bivarié) des données a été réalise avec le language. Qui est un language en boom démographique par sa simplicité et sa vitesse d’execussion par rapport à R et python
Analyse variographique
Cette partie est la plus importante de la modélisation spatiale. Elle permet de construire le modéle de prédiction et de le fitter sur nos données. Elle permet également d’évaluer l’erreur de prédiction et de réajuste les hyper-parametres. Notament la fonction (sphérique, exponentiel, …), les pas de grille, ect. En gros, l’analyse variographie permet l’entrainement du modéle de prédiction spatiale.
Dans cette étude, nous avons considére un modéle sphérique, et un pas de 1 km. Autrement dit sur chaque 1 km sur le territoire rhône alpes on prédit une estimation du nombre de tweets.
#analyse variographique
coordinates(RHA)= ~longitude+latitude
RHA <- RHA[-zerodist(RHA)[,1],]
tweet.vgm<- gstat::variogram(num~ 1 , RHA, cutoff=1)
tweet.fit <- autofitVariogram(num~ 1 , RHA,model = c("Sph"))
La grille et le krigeage
Nous avons construit une grille régulliére de 1 km sur l’étandue de la région et nous avons réalise le krigeage. Vous pouvez visualise les résultats sur l’application shiny
Julia scrips
#Installation des package
using Pkg
Pkg.add("DataFrames")
Pkg.add("CSV")
Pkg.add("Plots")
Pkg.add("StatPlots")
Pkg.add("PyPlot")
Pkg.add("Plotly")
#library
using DataFrames
using CSV
using Plots
using Plotly
#Import data and check
data=CSV.read("/Users/miganehhadisahal/Desktop/TTw.csv"; header=true, delim=';')
print("La taille du jeu de données est :", size(data))
showall(data[1:5,:])
names(data)
# Histogramme de la variable régionalisée ou variables aléatoire (nombre de tweets)
Plots.histogram(data[:num],xlabel="nvr de tweet",xlims=(0,5000),color = :red,xtickfont = font(9,"Courier"),legend=nothing,ylabel="Frequency")
# Histogramme du nombre de population
Plots.histogram(data[:P14_POP],xlabel="nvr de tweet",xlims=(0,5000),color = :red,xtickfont = font(9, "Courier"),legend=nothing,ylabel="Frequency")