Les plateformes de données open sources pour les projets de Data Science

4 minute read

Published:

Lorsque vous  démarrez un projet en Data Science, la première des préoccupations est la recherche des données qui pourront répondre à votre problèmatique. Si vous avez déjà travaillé sur un projet de data science, vous avez probablement passé beaucoup de temps à naviguer sur Internet à la recherche  de données intéressantes qui répondraient à la problématique de votre projet.

Cela peut vous conduire à passer au crible des dizaines d’ensemble de données pour trouver celui qui est parfait et qui répondra eux objectifs de votre projet. Dans cet article, nous allons parcourir quelques plateformes de données open source.

 

1. Weather Underground

Weather Underground est une compagnie privée d'informations météorologiques sur internet. Elle fournit les observations et les prévisions météorologiques dans un très grand nombre d'endroits à travers le monde pour le public, les médias et des utilisateurs particuliers.

https://www.wunderground.com/login

 

2. FiveThirtyEight

Il s’agit d’un site interactif et sportif incroyablement populaire créé par Nate Silver (auteur du livre ‘The Signal and The Noise’ que je recommande). Ils écrivent des articles intéressants toujours axés sur l’étude de données. FiveThirtyEight fournit sur Github les datasets utilisés dans ses articles.

https://www.wunderground.com/login

 

3. BuzzFeed

BuzzFeed a commencé en tant que fournisseur d’articles de mauvaise qualité mais a depuis évolué et écrit maintenant quelques enquêtes abouties. BuzzFeed rend aussi les datasets utilisés dans ses articles disponibles sur Github.

https://github.com/BuzzFeedNews

 

4. Twitter

Twitter est un réseau social de microblogage géré par l'entreprise Twitter Inc. Il permet à un utilisateur d’envoyer gratuitement de brefs messages, appelés tweets, sur internet, par messagerie instantanée ou par SMS. Twitter a une bonne API de streaming où il est relativement facile de filtrer et diffuser des tweets.

https://developer.twitter.com/en/docs

 

5. Kaggle

Kaggle est une communauté de data scientists qui organise des compétitions de Machine Learning. Il existe une variété de datasets intéressants fournis par des tiers sur le site. Kaggle a des compétitions en direct et d’autres historiques. Vous pouvez télécharger des données pour l’un ou l’autre, mais vous devez vous inscrire à Kaggle et accepter les conditions d’utilisation du concours.

https://www.kaggle.com/datasetshttps://www.kaggle.com/competitions

 

6. UCI Machine Learning Repository

Le UCI Machine Learning Repository est l’une des plus anciennes sources de données sur le Web. Bien que les ensembles de données soient fournis par l’utilisateur et présentent donc différents niveaux de documentation et de propreté, la grande majorité d’entre eux sont propres et prêts pour le Machine Learning. Vous pouvez télécharger des données directement à partir du référentiel UCI Machine Learning.

http://mlr.cs.umass.edu/ml/datasets.html

 

7. data.world

data.world se décrit comme «le réseau social des données partageés», mais pourrait être plus correctement décrit comme «GitHub pour les données». C’est un endroit où vous pouvez rechercher, copier, analyser et télécharger des ensembles de données. En outre, vous pouvez télécharger vos données vers data.world et l’utiliser pour collaborer avec d’autres.

https://data.world/

 

8. The World Bank

The World Bank est une organisation mondiale de développement qui offre des prêts et des conseils aux pays en développement. La World Bank finance régulièrement des programmes dans les pays en développement, puis recueille des données pour suivre le succès de ces programmes. Vous pouvez parcourir les ensembles de données de la World Bank directement, sans vous inscrire. Les ensembles de données comportent de nombreuses valeurs manquantes et prennent parfois plusieurs clics pour accéder aux données.

https://data.worldbank.org/

 

9. Reddit

Reddit est un site de discussion communautaire populaire. Il a une section consacrée au partage d’ensembles de données intéressants. C’est ce qu’on appelle les ensembles de données subreddit ou  r/datasets.

https://www.reddit.com/r/datasets/top/?sort=top&t=all

 

10. Quandl

Quandl est un repository de données économiques et financières. Certaines de ces informations sont gratuites, mais de nombreux ensembles de données nécessitent de les acheter. Quandl est utile pour construire des modèles permettant de prédire des indicateurs économiques ou des cours boursiers. En raison de la grande quantité d’ensembles de données disponibles, il est possible de créer un modèle complexe qui utilise de nombreux ensembles de données pour prédire des valeurs dans un autre.

https://www.quandl.com/search