Posts by Tags

Le Big Data et les réseaux sociaux

11 minute read

Published: January 28, 2020

Cet article fait un tour d’horizon des outils et services qui permettent d’extraire des données et des mégadonnées des principaux réseaux sociaux (Twitter, Facebook), des sites web et des blogs.

Chatbots : vos clients sont de plus en plus exigeant, ils veulent la bonne réponse, tout de suite, tout le temps.

3 minute read

Published: June 04, 2020

Les chatbots sont des robots conversationnels qui dialoguent par écrit, les utilisateurs en langage naturel. Ils sont adaptés pour répondre aux nouvelles attentes des clients tout en optimisant les coûts de l’entreprise.

Classification et problème de classes déséquilibrées

less than 1 minute read

Published: April 22, 2020

Dans cet article, nous allons aborder le problème de classification avec des classes déséquilibrées. Nous verrons les différentes approches pour traiter ce problème, notamment les techniques d’échantillonnage et les algorithmes adaptés.

Classification et problème de classes déséquilibrées

less than 1 minute read

Published: April 22, 2020

Dans cet article, nous allons aborder le problème de classification avec des classes déséquilibrées. Nous verrons les différentes approches pour traiter ce problème, notamment les techniques d’échantillonnage et les algorithmes adaptés.

Learn the difference between longitudinal and time series data

3 minute read

Published: October 31, 2024

Longitudinal and time series data are confusing when it comes to analysing historical data. There are no strict and formal definitions on which a wide range of data analysts agree. In the literature, we have noticed that there are very few articles on the subject. And the few articles that do mention it, skim over the definition.

Les plateformes de données open sources pour les projets de Data Science

4 minute read

Published: March 05, 2020

Lorsque vous démarrez un projet en Data Science, la première des préoccupations est la recherche des données qui pourront répondre à votre problématique. Dans cet article, nous allons parcourir quelques plateformes de données open source.

Quel langage de programmation pour votre entreprise Python Vs R ?

5 minute read

Published: May 11, 2020

Dans cet article, nous allons vous guide dans le choix du logiciel de programmation pour votre entreprise, en vous expliquant les forces et les faiblesses entre python et R.

Les plateformes de données open sources pour les projets de Data Science

4 minute read

Published: March 05, 2020

Lorsque vous démarrez un projet en Data Science, la première des préoccupations est la recherche des données qui pourront répondre à votre problématique. Dans cet article, nous allons parcourir quelques plateformes de données open source.

Premiers pas avec la programmation R

10 minute read

Published: January 01, 2020

Dans cet article, nous allons vous guider à travers les premiers pas avec le langage de programmation R. Nous verrons comment installer R et RStudio, comment importer des bibliothèques, et comment effectuer une analyse de données de base.

Questions et réponses: Questions courantes en Data Science

2 minute read

Published: December 30, 2019

Dans cet article, nous allons répondre à quelques questions courantes en Data Science. Nous aborderons des sujets tels que comment débuter en Data Science, comment écrire un excellent article sur la science des données, et plus encore.

Analyse et prévision des ventes du Black Friday

9 minute read

Published: November 16, 2022

L’objectif de ce projet est de faire une EDA et une prévision d’achat pour les données de ventes du Black Friday avec le language Python. Dans cette analyse, nous allons faire deux choses. Tout d’abord, explorerer les données et trouver des corrélations entre différents éléments, afin de pouvoir obtenir des informations sur les futures stratégies marketing. En plus de cela, utiliser également la méthode de régression pour prédire les achats futurs.

Le Big Data et les réseaux sociaux

11 minute read

Published: January 28, 2020

Cet article fait un tour d’horizon des outils et services qui permettent d’extraire des données et des mégadonnées des principaux réseaux sociaux (Twitter, Facebook), des sites web et des blogs.

Les LLMs & Hugging Face

6 minute read

Published: May 30, 2025

Découvrez comment Hugging Face révolutionne l’IA avec les LLMs et GenAI. Apprenez à utiliser les modèles pré-entraînés pour le NLP, la vision et plus encore.

L’algorithme Gradient Boosting Machines : XGBOOST

3 minute read

Published: April 21, 2020

XGBoost signifie eXtreme Gradient Boosting. Comme son nom l’indique, c’est un algorithme de Gradient Boosting. Il est codé en C++ et disponible dans à peu près tous les langages de programmations utiles en Machine Learning, tels que Python, R ou encore Julia.

Analyse et prévision des ventes du Black Friday

9 minute read

Published: November 16, 2022

L’objectif de ce projet est de faire une EDA et une prévision d’achat pour les données de ventes du Black Friday avec le language Python. Dans cette analyse, nous allons faire deux choses. Tout d’abord, explorerer les données et trouver des corrélations entre différents éléments, afin de pouvoir obtenir des informations sur les futures stratégies marketing. En plus de cela, utiliser également la méthode de régression pour prédire les achats futurs.

Les LLMs & Hugging Face

6 minute read

Published: May 30, 2025

Découvrez comment Hugging Face révolutionne l’IA avec les LLMs et GenAI. Apprenez à utiliser les modèles pré-entraînés pour le NLP, la vision et plus encore.

Les Transformers & HuggingFace

4 minute read

Published: May 27, 2025

Découvrez comment HuggingFace révolutionne l’IA avec sa librairie Transformers. Apprenez à utiliser les modèles pré-entraînés pour le NLP, la vision et plus encore.

Les LLMs & Hugging Face

6 minute read

Published: May 30, 2025

Découvrez comment Hugging Face révolutionne l’IA avec les LLMs et GenAI. Apprenez à utiliser les modèles pré-entraînés pour le NLP, la vision et plus encore.

Learn the difference between longitudinal and time series data

3 minute read

Published: October 31, 2024

Longitudinal and time series data are confusing when it comes to analysing historical data. There are no strict and formal definitions on which a wide range of data analysts agree. In the literature, we have noticed that there are very few articles on the subject. And the few articles that do mention it, skim over the definition.

SCIKIT-LEARN <> Partie IV : analyse exploratoire et mise en forme des descripteurs

less than 1 minute read

Published: June 04, 2020

Dans cet article qui fait suite de la partie III, nous allons (re)voir quelques outils classiques d’analyse exploratoire disponibles dans le package Pandas, que l’on met en général en oeuvre pour avoir une meilleure connaissance du jeu de données à étudier avant de passer à l’étape de modélisation à proprement parler.

SCIKIT-LEARN <> Partie III : k plus proches voisins (k-means) & validation croisée

less than 1 minute read

Published: April 29, 2020

Dans cette partie III nous allons apprendre à manipuler : la classe KNeighborsClassifier qui permet de réaliser de la classification par la méthode des k plus proches voisins ou k-means, les fonctions cross_val_score et cross_val_predict qui permettent de réaliser des expériences de validation croisée.

Classification et problème de classes déséquilibrées

less than 1 minute read

Published: April 22, 2020

Dans cet article, nous allons aborder le problème de classification avec des classes déséquilibrées. Nous verrons les différentes approches pour traiter ce problème, notamment les techniques d’échantillonnage et les algorithmes adaptés.

L’algorithme Gradient Boosting Machines : XGBOOST

3 minute read

Published: April 21, 2020

XGBoost signifie eXtreme Gradient Boosting. Comme son nom l’indique, c’est un algorithme de Gradient Boosting. Il est codé en C++ et disponible dans à peu près tous les langages de programmations utiles en Machine Learning, tels que Python, R ou encore Julia.

SCIKIT-LEARN <> Partie II : analyse en composante principale - ACP

less than 1 minute read

Published: April 15, 2020

Dans cet article nous allons réaliser quelques opérations de base en Python et Scikit-Learn. L’objectif sera simplement de réaliser une ACP d’un jeu de données et de le représenter selon ses premières composantes principales.

Installation de Tensorflow sur winpython

2 minute read

Published: December 19, 2019

Dans ce poste je vais vous montrer comment installer Tensorflow CPU sur Windows 10 sans carte graphique GPU, ni un processeur NVIDA et sans ANACONDA.

Les Transformers & HuggingFace

4 minute read

Published: May 27, 2025

Découvrez comment HuggingFace révolutionne l’IA avec sa librairie Transformers. Apprenez à utiliser les modèles pré-entraînés pour le NLP, la vision et plus encore.

Chatbots : vos clients sont de plus en plus exigeant, ils veulent la bonne réponse, tout de suite, tout le temps.

3 minute read

Published: June 04, 2020

Les chatbots sont des robots conversationnels qui dialoguent par écrit, les utilisateurs en langage naturel. Ils sont adaptés pour répondre aux nouvelles attentes des clients tout en optimisant les coûts de l’entreprise.

Système de recommandation avec Python et R

10 minute read

Published: January 29, 2020

L’article traite de la collecte de données par scraping pour un système de recommandation, en identifiant les données clés. Il examine ensuite le fonctionnement d’un algorithme de similarité, avant de décrire l’intégration et le déploiement des processus dans l’application movie-space.

Les plateformes de données open sources pour les projets de Data Science

4 minute read

Published: March 05, 2020

Lorsque vous démarrez un projet en Data Science, la première des préoccupations est la recherche des données qui pourront répondre à votre problématique. Dans cet article, nous allons parcourir quelques plateformes de données open source.

SCIKIT-LEARN <> Partie II : analyse en composante principale - ACP

less than 1 minute read

Published: April 15, 2020

Dans cet article nous allons réaliser quelques opérations de base en Python et Scikit-Learn. L’objectif sera simplement de réaliser une ACP d’un jeu de données et de le représenter selon ses premières composantes principales.

Premiers pas avec la programmation R

10 minute read

Published: January 01, 2020

Dans cet article, nous allons vous guider à travers les premiers pas avec le langage de programmation R. Nous verrons comment installer R et RStudio, comment importer des bibliothèques, et comment effectuer une analyse de données de base.

SCIKIT-LEARN <> Partie IV : analyse exploratoire et mise en forme des descripteurs

less than 1 minute read

Published: June 04, 2020

Dans cet article qui fait suite de la partie III, nous allons (re)voir quelques outils classiques d’analyse exploratoire disponibles dans le package Pandas, que l’on met en général en oeuvre pour avoir une meilleure connaissance du jeu de données à étudier avant de passer à l’étape de modélisation à proprement parler.

Quel langage de programmation pour votre entreprise Python Vs R ?

5 minute read

Published: May 11, 2020

Dans cet article, nous allons vous guide dans le choix du logiciel de programmation pour votre entreprise, en vous expliquant les forces et les faiblesses entre python et R.

SCIKIT-LEARN <> Partie III : k plus proches voisins (k-means) & validation croisée

less than 1 minute read

Published: April 29, 2020

Dans cette partie III nous allons apprendre à manipuler : la classe KNeighborsClassifier qui permet de réaliser de la classification par la méthode des k plus proches voisins ou k-means, les fonctions cross_val_score et cross_val_predict qui permettent de réaliser des expériences de validation croisée.

Système de recommandation avec Python et R

10 minute read

Published: January 29, 2020

L’article traite de la collecte de données par scraping pour un système de recommandation, en identifiant les données clés. Il examine ensuite le fonctionnement d’un algorithme de similarité, avant de décrire l’intégration et le déploiement des processus dans l’application movie-space.

Installation de Tensorflow sur winpython

2 minute read

Published: December 19, 2019

Dans ce poste je vais vous montrer comment installer Tensorflow CPU sur Windows 10 sans carte graphique GPU, ni un processeur NVIDA et sans ANACONDA.

Questions et réponses: Questions courantes en Data Science

2 minute read

Published: December 30, 2019

Dans cet article, nous allons répondre à quelques questions courantes en Data Science. Nous aborderons des sujets tels que comment débuter en Data Science, comment écrire un excellent article sur la science des données, et plus encore.

Quel langage de programmation pour votre entreprise Python Vs R ?

5 minute read

Published: May 11, 2020

Dans cet article, nous allons vous guide dans le choix du logiciel de programmation pour votre entreprise, en vous expliquant les forces et les faiblesses entre python et R.

Scraping et visualisation des données Facebook avec R

6 minute read

Published: January 31, 2020

Dans cet article, nous allons gratter les données de Facebook avec le package Rfacebook. Ensuite, nous utiliserons ggplot2 pour nos visualisations. Je vais utiliser les données d’un groupe privé que je partageais avec des amis pour publier des liens vers de la musique qui, selon nous, méritaient d’être écoutées.

Premiers pas avec la programmation R

10 minute read

Published: January 01, 2020

Dans cet article, nous allons vous guider à travers les premiers pas avec le langage de programmation R. Nous verrons comment installer R et RStudio, comment importer des bibliothèques, et comment effectuer une analyse de données de base.

Analyse et prévision des ventes du Black Friday

9 minute read

Published: November 16, 2022

L’objectif de ce projet est de faire une EDA et une prévision d’achat pour les données de ventes du Black Friday avec le language Python. Dans cette analyse, nous allons faire deux choses. Tout d’abord, explorerer les données et trouver des corrélations entre différents éléments, afin de pouvoir obtenir des informations sur les futures stratégies marketing. En plus de cela, utiliser également la méthode de régression pour prédire les achats futurs.

Scraping et visualisation des données Facebook avec R

6 minute read

Published: January 31, 2020

Dans cet article, nous allons gratter les données de Facebook avec le package Rfacebook. Ensuite, nous utiliserons ggplot2 pour nos visualisations. Je vais utiliser les données d’un groupe privé que je partageais avec des amis pour publier des liens vers de la musique qui, selon nous, méritaient d’être écoutées.

SCIKIT-LEARN <> Partie I : régressions linéaires et polynomiales

less than 1 minute read

Published: April 04, 2020

Dans cet article nous allons réaliser quelques opérations de base en Python et Scikit-Learn. L’objectif sera d’apprendre des modèles de régression linéaires et polynomiales, de les représenter et de calculer leurs performances en terme d’erreur quadratique moyenne.

Support Vector Machines (SVM)

4 minute read

Published: April 21, 2020

Une machine à vecteur de support (SVM) est un algorithme d’apprentissage automatique supervisé qui peut être utilisé à des fins de classification et de régression. Dans cet article, nous allons explorer les bases mathématiques des SVM, les noyaux et la sélection de fonctionnalités.

SCIKIT-LEARN <> Partie II : analyse en composante principale - ACP

less than 1 minute read

Published: April 15, 2020

Dans cet article nous allons réaliser quelques opérations de base en Python et Scikit-Learn. L’objectif sera simplement de réaliser une ACP d’un jeu de données et de le représenter selon ses premières composantes principales.

SCIKIT-LEARN <> Partie I : régressions linéaires et polynomiales

less than 1 minute read

Published: April 04, 2020

Dans cet article nous allons réaliser quelques opérations de base en Python et Scikit-Learn. L’objectif sera d’apprendre des modèles de régression linéaires et polynomiales, de les représenter et de calculer leurs performances en terme d’erreur quadratique moyenne.

SCIKIT-LEARN <> Partie IV : analyse exploratoire et mise en forme des descripteurs

less than 1 minute read

Published: June 04, 2020

Dans cet article qui fait suite de la partie III, nous allons (re)voir quelques outils classiques d’analyse exploratoire disponibles dans le package Pandas, que l’on met en général en oeuvre pour avoir une meilleure connaissance du jeu de données à étudier avant de passer à l’étape de modélisation à proprement parler.

SCIKIT-LEARN <> Partie III : k plus proches voisins (k-means) & validation croisée

less than 1 minute read

Published: April 29, 2020

Dans cette partie III nous allons apprendre à manipuler : la classe KNeighborsClassifier qui permet de réaliser de la classification par la méthode des k plus proches voisins ou k-means, les fonctions cross_val_score et cross_val_predict qui permettent de réaliser des expériences de validation croisée.

Support Vector Machines (SVM)

4 minute read

Published: April 21, 2020

Une machine à vecteur de support (SVM) est un algorithme d’apprentissage automatique supervisé qui peut être utilisé à des fins de classification et de régression. Dans cet article, nous allons explorer les bases mathématiques des SVM, les noyaux et la sélection de fonctionnalités.

Système de recommandation avec Python et R

10 minute read

Published: January 29, 2020

L’article traite de la collecte de données par scraping pour un système de recommandation, en identifiant les données clés. Il examine ensuite le fonctionnement d’un algorithme de similarité, avant de décrire l’intégration et le déploiement des processus dans l’application movie-space.

Installation de Tensorflow sur winpython

2 minute read

Published: December 19, 2019

Dans ce poste je vais vous montrer comment installer Tensorflow CPU sur Windows 10 sans carte graphique GPU, ni un processeur NVIDA et sans ANACONDA.

Learn the difference between longitudinal and time series data

3 minute read

Published: October 31, 2024

Longitudinal and time series data are confusing when it comes to analysing historical data. There are no strict and formal definitions on which a wide range of data analysts agree. In the literature, we have noticed that there are very few articles on the subject. And the few articles that do mention it, skim over the definition.

Interface graphique en Python à l’aide de Tkinter

6 minute read

Published: August 25, 2020

Vous cherchez à créer une interface utilisateur graphique (GUI) en Python à l’aide de Tkinter. Si tel est le cas, dans cet article, je vais vous montrer comment créer une interface graphique avec Tkinter.

Les Transformers & HuggingFace

4 minute read

Published: May 27, 2025

Découvrez comment HuggingFace révolutionne l’IA avec sa librairie Transformers. Apprenez à utiliser les modèles pré-entraînés pour le NLP, la vision et plus encore.

Le Big Data et les réseaux sociaux

11 minute read

Published: January 28, 2020

Cet article fait un tour d’horizon des outils et services qui permettent d’extraire des données et des mégadonnées des principaux réseaux sociaux (Twitter, Facebook), des sites web et des blogs.

Scraping et visualisation des données Facebook avec R

6 minute read

Published: January 31, 2020

Dans cet article, nous allons gratter les données de Facebook avec le package Rfacebook. Ensuite, nous utiliserons ggplot2 pour nos visualisations. Je vais utiliser les données d’un groupe privé que je partageais avec des amis pour publier des liens vers de la musique qui, selon nous, méritaient d’être écoutées.

Le Big Data et les réseaux sociaux

11 minute read

Published: January 28, 2020

Cet article fait un tour d’horizon des outils et services qui permettent d’extraire des données et des mégadonnées des principaux réseaux sociaux (Twitter, Facebook), des sites web et des blogs.

Installation de Tensorflow sur winpython

2 minute read

Published: December 19, 2019

Dans ce poste je vais vous montrer comment installer Tensorflow CPU sur Windows 10 sans carte graphique GPU, ni un processeur NVIDA et sans ANACONDA.

L’algorithme Gradient Boosting Machines : XGBOOST

3 minute read

Published: April 21, 2020

XGBoost signifie eXtreme Gradient Boosting. Comme son nom l’indique, c’est un algorithme de Gradient Boosting. Il est codé en C++ et disponible dans à peu près tous les langages de programmations utiles en Machine Learning, tels que Python, R ou encore Julia.

Interface graphique en Python à l’aide de Tkinter

6 minute read

Published: August 25, 2020

Vous cherchez à créer une interface utilisateur graphique (GUI) en Python à l’aide de Tkinter. Si tel est le cas, dans cet article, je vais vous montrer comment créer une interface graphique avec Tkinter.

Armel SOUBEIGA, PhD

Posts by Tags

Big data

Chatbots

Classesdéséquilibrées

Classification

Cross-sectiona data

Data

Data Science

EDA

Facebook

GenAI

Gradient Boosting

Grid Search

HuggingFace

LLMs

Longitudinal data

Machine Learning

NLP

Open Source

PCA

Programmation R

Python

Questions

R

Random Forest

Rfacebook

Régressions

SVM

Scikit-Learn

Scikit-learn

Support Vector Machines

Système recommandation

Tensorflow

Time Series

Tkinter

Transformers

Twitter

Visualisation

Web scraping

Winpython

XGBoost

interface graphique