Machine Learning

* Les valeurs

Tout d’abord, on peut retrouver deux types de valeur : - les continues : numériques (13,-71…) - les discrètes : nominales (ensoleillé,gris…)

* Différents conceptes

la classification (supervisée) qui consiste à classifier des nouvelles données, en ayant auparavant, eu des exemples.
la prediction numérique (supervisée) qui prédit un nombre selon les attributs de la nouvelle données
le regroupement (non supervisé) qui classe les données en différentes catégories
selection/transformation d’attribut ( (non) supervisé)
association (supervisé) ici, le système apprend les relations entre les attributs

* Les types de classification

Il en existe beaucoup, et je vais d’abord vous parler des plus basiques.
parfois les plus basiques sont les meilleurs …

Zero-Rule / 0-R / A priori :

C’est le plus simple. Il regarde seulement le résultat final qu’il y a dans les données, et non leurs attributs.
Par exemple, s’il y a 20 cas “oui” et 10 cas “non”, l’algoritme dira toujours “oui”. Ici le taux de réussitte est de 66%.

Il permet d’avoir une base sur le pourcentage d’erreur que l’on peut obtenir avec du machine learning.

1-R :

Il choisit le meilleur attribut, i.e. celui qui fait le moins d’erreurs.
S’il il manque une donnée, il la remplace par “missing”.

Si il s’agit de données numériques :
1- il commence par trié les données dans l’ordre croissant

64	65	68	69	70	72	75	75	80	81	83	92
oui	non	oui	oui	oui	non	non	oui	oui	oui	non	oui

[A TERMINER]

Naïve Bayes :

On va utiliser tous les attributs. Pour cela, on suppose ici que tous les attributs sont indépendants. [FORMULE]
Ensuite à l’aide de formule de probabilité, dont le likelihood, on détermine le résultat que l’on devrai obtenir.

S’il manque un attribut, ce n’est pas important car on le prendra pas en compte dans la formule, ce qui ne change rien.
Par contre, si un attribut a une valeur de 0, cela pose un problème car dans nos calculs, on va retrouver un 0.
Pour remedier à cela, on ajoute +1 à tous les attributs (technique appelé estimateur de Laplace). Ou simplement, on exige d’avoir un exemple pour chaque cas.

Quand les données sont numériques, on utilise une gaussienne, qui nous permet de calculer ce fameux likelihood.

En général, il faut auparavant, bien filtrer les attributs.

Les arbres :

Les arbres essayent de reproduire le chemin général que prennent les données, en commençant par les attributs qui sont les plus révélateurs.
Pour cela, on a besoin de 5 calculs, pour chaque attribut. Ainsi, on détermine lequel a le plus d’impact, et le plus susceptible de déterminer la classe du nouvel objet.

Le Gain [FORMULE]. Plus il est grand mieux c’est.
L’info[], qui se calcul grâce à l’entropie. [FORMULE] Le plus proche de 0 possible.
Le split info [FORMULE]
Gain ratio [FORMULE]. On prend le plus haut taux.

Remarque : si le gain est important, alors l’info sera petit

Regression linéale :

On essaie de minimiser l’erreur quadratique. (On peut utiliser des matrices).
On peut aussi utiliser le processus de Stocastic gradient decent.

Classification linéale :

Se base sur la regression linéale

Accueil Damien Narbais

Machine Learning : concepte de base