Téléchargé 3 fois
Vote des utilisateurs
0
0
Détails
Licence : Non renseignée
Mise en ligne le 11 avril 2013
Plate-formes :
Linux, Mac, Windows
Langue : Français
Référencé dans
Navigation
[Statistics Toolbox] Détecter des données erronées
[Statistics Toolbox] Détecter des données erronées
Tout expérimentateur s'est une fois au moins demandé s'il était justifié ou non de supprimer d'une série de mesures des points manifestements abérants. Quand ces points sont nombreux, et en continuité avec les points normaux, la question devient cornélienne.
Je m'intéresse ici au cas ou les données s'avèrent "bizares" quand elles ont un résidu important par rapport à un modèle (depuis la simple régression linéaire jusqu'au modèle sophistiqué de 10000 lignes de code). Dans ce cas là, on a l'habitude de considérer les résidus (les erreurs au modèle) comme normalement distribués.
La question qui m'intéresse se réduit donc à la détection de valeurs improbables dans une distribution normale.
Il se trouve que le maximum et le minimum d'une série de N tirages dans une loi normale suit la loi de Gumbel. C'est ce que j'exploite pour nettoyer mes séries de données avec le programme MATLAB que voici.
Lancer la fonction sans argument déclenche une série de tests.
Je m'intéresse ici au cas ou les données s'avèrent "bizares" quand elles ont un résidu important par rapport à un modèle (depuis la simple régression linéaire jusqu'au modèle sophistiqué de 10000 lignes de code). Dans ce cas là, on a l'habitude de considérer les résidus (les erreurs au modèle) comme normalement distribués.
La question qui m'intéresse se réduit donc à la détection de valeurs improbables dans une distribution normale.
Il se trouve que le maximum et le minimum d'une série de N tirages dans une loi normale suit la loi de Gumbel. C'est ce que j'exploite pour nettoyer mes séries de données avec le programme MATLAB que voici.
Lancer la fonction sans argument déclenche une série de tests.
Ca fait belle lurette que l'on ne considère plus les résidus comme gaussien dans les modèles économétriques
Pour des résidus non gaussiens, il y a deux possibilités :
1/ tester et évaluer la qualité du résultat empiriquement. Par exemple, j'ai testé sur un bruit blanc, qui donc n'a rien de gaussien et l'algo s'est très bien comporté.
2/ modifier . Si tu connais la loi de tes résidus, l'algo est très facile à modifier. En particulier grâce aux nombreux commentaires inclus dans le code. Au besoin je peux t'y aider.
Edit : dans le cas 2 (introduire une autre loi), attention, il faut que la queue de ta loi soit quadratique. Sinon, ce n'est pas la loi de Gumbel qui s'y applique. Toutefois, toutes les queues sont décrites par seulement trois lois (Gumbel, Fréchet et Weibull). Il est donc possible de généraliser ma technique à virtuellement toutes les lois existantes en codant les deux autres lois.
1/ tester et évaluer la qualité du résultat empiriquement. Par exemple, j'ai testé sur un bruit blanc, qui donc n'a rien de gaussien et l'algo s'est très bien comporté.
2/ modifier . Si tu connais la loi de tes résidus, l'algo est très facile à modifier. En particulier grâce aux nombreux commentaires inclus dans le code. Au besoin je peux t'y aider.
Edit : dans le cas 2 (introduire une autre loi), attention, il faut que la queue de ta loi soit quadratique. Sinon, ce n'est pas la loi de Gumbel qui s'y applique. Toutefois, toutes les queues sont décrites par seulement trois lois (Gumbel, Fréchet et Weibull). Il est donc possible de généraliser ma technique à virtuellement toutes les lois existantes en codant les deux autres lois.
Developpez.com décline toute responsabilité quant à l'utilisation des différents éléments téléchargés.