Différence entre l'exploration de données supervisée et sans surveillance

Différence entre l'exploration de données supervisée et sans surveillance

L'exploration de données utilise une pléthore de méthodes de calcul et d'algorithmes pour travailler sur l'extraction des connaissances. La classification est peut-être la forme la plus élémentaire d'analyse des données. Une tâche courante dans l'exploration de données consiste à examiner les données où la classification est inconnue ou se produira à l'avenir, dans le but de prédire ce qu'est cette classification ou sera. De même, les données où la classification est connue sont utilisées pour développer des règles, qui sont ensuite appliquées aux données où la classification est inconnue. Cela dit, les techniques d'exploration de données se présentent sous deux formes principales: supervisée et non surveillée. Supervisé est une technique prédictive tandis que non supervisée est une technique descriptive. Bien que les deux algorithmes soient largement utilisés pour accomplir différentes tâches d'exploration de données, il est important de comprendre la différence entre les deux.

Qu'est-ce que l'exploration de données supervisée?

L'exploration de données supervisée, comme son nom l'indique, fait référence aux algorithmes d'apprentissage qui sont utilisés dans la classification et la prédiction. L'algorithme supervisé apprend des données de formation qui sont étiquetées et la tâche est contrôlée par l'ingénieur des connaissances et le concepteur de système. Avec des données supervisées, nous devons avoir des entrées connues correspondant aux sorties connues, telles que déterminées par les experts du domaine. La tâche d'exploration de données est souvent appelée apprentissage supervisé car les classes sont déterminées avant d'examiner les données. Cette technique utilise une fonction objectif (la variable dépendante) et un ensemble d'éléments de données qui sont des variables indépendantes. La technique supervisée tente d'identifier les relations entre les variables dépendantes et indépendantes, d'identifier le degré de corrélation pour chaque ensemble de variables et de construire un modèle montrant le réseau de dépendances. Le modèle est ensuite appliqué aux données pour lesquelles la valeur cible est inconnue.

Qu'est-ce que l'exploration de données non surveillée?

Contrairement à la technique supervisée, l'exploration de données non supervisée n'a pas de fonction objectif prédéterminée, ni ne prédit une valeur cible. Les techniques non supervisées sont celles où il n'y a pas de variable de résultat pour prédire ou classer. Par conséquent, il n'y a pas d'apprentissage dans les cas où une telle variable de résultats est connue. L'algorithme exige que l'utilisateur spécifie le nombre d'intervalles et / ou le nombre de points de données doit être inclus dans un intervalle donné. Il vous aide à identifier toutes sortes de modèles inconnus dans les données. Le modèle non supervisé est également appelé modèle descriptif car il recherche des modèles inconnus dans un ensemble de données sans étiquettes prédéterminées et sans supervision humaine ou minimale. Les méthodes d'apprentissage non surveillées incluent les méthodes de clustering, d'association et d'extraction. Ce type de technique d'apprentissage est utilisé lorsqu'un objectif spécifique n'est pas disponible ou lorsque l'utilisateur cherche à trouver des relations cachées dans les données.

Différence entre l'exploration de données supervisée et sans surveillance

Données

- L'apprentissage supervisé est la tâche d'exploration de données d'utiliser des algorithmes pour développer un modèle sur les données d'entrée et de sortie connues, ce qui signifie que l'algorithme apprend des données qui sont étiquetées afin de prédire le résultat des données d'entrée. La technique supervisée est simplement d'apprendre de l'ensemble de données de formation. L'apprentissage non supervisé, en revanche, est la technique d'utilisation d'algorithmes où il n'y a pas de variable de résultat pour prédire ou classer, ce qui signifie qu'il n'y a pas d'apprentissage dans les cas où une telle variable de résultat est connue.

But

- La technique supervisée tente d'identifier les relations occasionnelles entre les variables dépendantes et indépendantes, isoler le degré de corrélation pour chaque ensemble de variables et développer un modèle montrant le réseau de dépendances. Le modèle est ensuite appliqué aux données pour lesquelles la valeur cible est inconnue. L'apprentissage non supervisé cherche à identifier les modèles inconnus dans un ensemble de données sans étiquettes prédéterminées et sans supervision humaine ou minimale. L'objectif des techniques d'exploration de données non supervisées est de trouver des modèles dans l'ensemble de données basé sur la relation entre les points de données eux-mêmes.

Méthode

- Les modèles supervisés sont ceux utilisés dans la classification et la prédiction, donc appelés modèles prédictifs car ils apprennent des données de formation, qui sont les données à partir desquelles l'apprentissage de la classification ou de la prédiction apprend. Une fois que l'algorithme a appris des données de formation, elle est ensuite appliquée à un autre échantillon de données où le résultat est connu. Les méthodes incluent les fonctions supervisées suivantes: classification, régression et détection d'anomalies. L'exploration de données non supervisée vous aide à identifier toutes sortes de modèles inconnus dans les données à l'aide de méthodes telles que le clustering, l'association et l'extraction.

Évolutivité

- L'évolutivité est l'un des principaux problèmes avec l'extraction de grands ensembles de données et il n'est pas pratique d'analyser l'ensemble de données entier plus d'une fois. L'exploration de données supervisée a tendance à être très évolutive, ce qui signifie qu'elle peut gérer d'énormes volumes de données dans les délais qui n'augmentent pas de manière déraisonnable, et elle est généralement rapide. Les méthodes d'apprentissage non supervisées, en revanche, soulèvent souvent plusieurs problèmes en ce qui concerne l'évolutivité si une sorte d'évaluation parallèle n'est pas utilisée, et contrairement à l'apprentissage supervisé, il est relativement lent, mais il peut converger vers plusieurs ensembles d'états de solution des états de solution.

Supervisé vs. Exploration de données non surveillée: graphique de comparaison

Résumé

En un mot, l'exploration de données supervisée est une technique prédictive tandis que l'exploration de données non supervisée est une technique descriptive. Des techniques supervisées sont utilisées lorsqu'un objectif défini est disponible et que l'utilisateur cherche à déterminer comment les changements dans l'état des données influencent le résultat. L'exploration de données non supervisée, en revanche, commence par une ardoise propre, ce qui signifie qu'elle n'a pas de fonction objectif prédéfinie et l'utilisateur tente de trouver des modèles inconnus ou des relations cachées dans les données. L'objectif de l'exploration de données non supervisée est de trouver des modèles dans l'ensemble de données en fonction de la relation entre les points de données eux-mêmes.