Thursday, 2 March 2017

Résiduel Normalité Test In Stata Forex

Les résidus sont les différences entre les réponses observées et prédites. Les résidus sont des estimations d'erreurs expérimentales obtenues en soustrayant les réponses observées des réponses prédites. La réponse prédite est calculée à partir du modèle choisi, après que tous les paramètres du modèle inconnu ont été estimés à partir des données expérimentales. L'examen des résidus est un élément clé de toute la modélisation statistique, y compris les EOD. Examiner attentivement les résidus peut nous dire si nos hypothèses sont raisonnables et que notre choix de modèle est approprié. Les résidus sont des éléments de variation inexpliqués par le modèle ajusté Les résidus peuvent être considérés comme des éléments de variation inexpliqués par le modèle ajusté. Comme il s'agit d'une forme d'erreur, les mêmes hypothèses générales s'appliquent au groupe de résidus que nous utilisons habituellement pour les erreurs en général: on s'attend à ce qu'elles soient (approximativement) normales et approximativement distribuées indépendamment avec une moyenne de 0 et une certaine constante Variance. Hypothèses pour les résidus Voici les hypothèses qui sous tendent l'ANOVA et l'analyse de régression classique. Cela signifie qu'un analyste devrait s'attendre à ce qu'un modèle de régression se trompe en prédisant une réponse de façon aléatoire, le modèle devrait prédire des valeurs supérieures à la réalité et inférieures à la réalité avec une probabilité égale. De plus, le niveau de l'erreur doit être indépendant du moment où l'observation s'est produite dans l'étude, ou de la taille de l'observation prédite, ou même des paramètres des facteurs impliqués dans la prédiction. La configuration globale des résidus devrait être semblable à celle observée lors de la traçage d'un histogramme de données normalement distribuées. Nous insistons sur l'utilisation de méthodes graphiques pour examiner les résidus. Les départs indiquent un modèle inadéquat Les dérogations à ces hypothèses signifient généralement que les résidus contiennent une structure qui n'est pas prise en compte dans le modèle. L'identification de cette structure et l'ajout de terme (s) la représentant au modèle d'origine conduit à un meilleur modèle. Tests pour la normalité résiduelle Tracés pour l'examen des résidus Tout graphique approprié pour afficher la distribution d'un ensemble de données est approprié pour juger de la normalité de la distribution d'un groupe de résidus. Les trois types les plus courants sont: histogrammes. Parcelles de probabilité normales. Et les tracés à points. L'histogramme est un diagramme de fréquence obtenu en plaçant les données dans des cellules régulièrement espacées et en traçant la fréquence de chaque cellule par rapport au centre de la cellule. La figure 2.2 illustre une distribution approximativement normale des résidus produits par un modèle pour un processus d'étalonnage. Nous avons superposé une fonction de densité normale sur l'histogramme. Petites tailles d'échantillon Les tailles d'échantillon des résidus sont généralement faibles (lt50) parce que les expériences ont des combinaisons de traitement limitées, si bien qu'un histogramme n'est pas le meilleur choix pour juger de la distribution des résidus. Un graphe plus sensible est le graphe de probabilité normal. Tracé de probabilité normal Les étapes de la formation d'un tracé de probabilité normal sont les suivantes: Trier les résidus en ordre croissant. Calculer la probabilité cumulée de chaque résidu en utilisant la formule: avec P représentant la probabilité cumulée d'un point, i est l'ordre de la valeur dans la liste et N le nombre d'entrées dans la liste. Tracer les valeurs p calculées par rapport à la valeur résiduelle sur le papier à probabilité normale. Le graphique de probabilité normal devrait produire une ligne approximativement droite si les points proviennent d'une distribution normale. Exemple de graphique de probabilité normal avec trait de points superposé La figure 2.3 ci dessous illustre le graphe de probabilité normal créé à partir du même groupe de résidus utilisé pour la figure 2.2. Ce graphe inclut l'addition d'un tracé de points. Le tracé ponctuel est la collection de points le long de l'axe y gauche. Ce sont les valeurs des résidus. Le but de la trame ponctuelle est de fournir une indication de la répartition des résidus. Les courbes en forme de S indiquent la distribution bimodale De petits écarts par rapport à la droite dans le diagramme de probabilité normale sont courants, mais une courbe en forme de S sur ce graphique suggère une distribution bimodale des résidus. Les ruptures proches du milieu de ce graphique sont également des indications d'anomalies dans la distribution résiduelle. NOTE: Les résidus étudiés sont des résidus convertis en une échelle représentant approximativement l'écart type d'un résidu individuel par rapport au centre de la distribution résiduelle. La technique utilisée pour convertir les résidus en cette forme produit une distribution des valeurs de Student. Indépendance des résidus dans le temps Tracé séquentiel Si l'ordre des observations dans un tableau de données représente l'ordre d'exécution de chaque combinaison de traitement, un tracé des résidus de ces observations par rapport à l'ordre des cas ou l'ordre temporel des observations testera N'importe quelle dépendance de temps. Ceux ci sont appelés parcelles de séquence d'exécution. Tracé des séquences d'échantillons qui présente une tendance temporelle Tracé de séquences d'échantillons qui ne présente pas de tendance temporelle Interprétation des tracés de séquences d'échantillonnage Les résidus de la figure 2.4 suggèrent une tendance temporelle alors que ceux de la figure 2.5 ne le sont pas. La figure 2.4 suggère que le système se déplaçait lentement vers des valeurs inférieures à mesure que l'enquête se poursuivait. Dans les cas extrêmes, une dérive de l'équipement produira des modèles avec une très mauvaise capacité à tenir compte de la variabilité des données (faible R 2). Si l'enquête inclut des points centraux, les tracer dans l'ordre chronologique peut produire une indication plus claire d'une tendance temporelle si elle existe. Tracer les réponses brutes dans la séquence temporelle peut également parfois détecter des changements de tendance dans un processus que les tracés résiduels pourraient ne pas détecter. Tracer les résidus par rapport aux valeurs prédites correspondantes Vérifier l'augmentation des résidus au fur et à mesure que la taille de la valeur ajustée augmente Placer les résidus par rapport à la valeur d'une réponse adaptée devrait produire une distribution de points dispersés aléatoirement d'environ 0, quelle que soit la taille de la valeur ajustée. Bien souvent, cependant, les valeurs résiduelles peuvent augmenter à mesure que la taille de la valeur ajustée augmente. Lorsque cela se produit, le nuage résiduel devient en forme d'entonnoir avec la plus grande extrémité vers des valeurs ajustées plus grandes, c'est à dire que les résidus ont une dispersion de plus en plus grande lorsque la valeur de la réponse augmente. Tracer les valeurs absolues des résidus au lieu des valeurs signées produira une distribution en forme de coin, une fonction de lissage est ajoutée à chaque graphique qui aide à montrer la tendance. Résidus d'échantillons par rapport aux valeurs ajustées Graphique montrant des résidus croissants Résidus d'échantillon par rapport aux valeurs ajustées Graphique qui ne présente pas de résidus croissants Interprétation des résidus par rapport aux valeurs ajustées courbes Une distribution résiduelle telle que celle de la figure 2.6 montrant une tendance à des résidus absolus plus élevés que la valeur de L'augmentation de la réponse suggère qu'on devrait transformer la réponse, peut être en modélisant son logarithme ou sa racine carrée, etc. (transformations contractives). Transformer une réponse de cette manière simplifie souvent sa relation avec une variable prédictive et conduit à des modèles plus simples. Les sections suivantes traitent de la transformation plus en détail. La figure 2.7 présente les résidus après une transformation sur la variable de réponse utilisée pour réduire la dispersion. Noter la différence d'échelle sur les axes verticaux. Indépendance des résidus par rapport aux facteurs Paramètres de résidus d'échantillons par rapport à la grille de détermination des facteurs Résidus d'échantillons par rapport à la grille de détermination des facteurs après l'ajout d'un terme quadratique Interprétation des résidus par rapport aux paramètres de facteurs La figure 2.8 montre que la taille des résidus a changé en fonction des paramètres des prédicteurs. Un graphique comme celui ci suggère que le modèle a besoin d'un terme d'ordre supérieur dans ce prédicteur ou que l'on devrait transformer le prédicteur en utilisant un logarithme ou une racine carrée, par exemple. La figure 2.9 montre les résidus pour la même réponse après l'ajout d'un terme quadratique. Remarquez le point unique largement séparé des autres résidus de la figure 2.9. Ce point est un caractère aberrant. C'est à dire que sa position est bien dans la fourchette des valeurs utilisées pour ce prédicteur dans l'enquête, mais son résultat est légèrement inférieur au modèle prédit. Un signal que la courbure est présente est une trace ressemblant à un froncement de sourcils ou un sourire dans ces graphiques. Echantillon de résidus par rapport à la grille de détermination des facteurs sans un ou plusieurs termes d'ordre supérieur Interprétation de la courbe L'exemple donné aux figures 2.8 et 2.9 implique évidemment cinq niveaux de prédicteur. L'expérience a utilisé une conception de surface de réponse. Pour la conception factorielle simple qui inclut les points centraux, si le modèle de réponse considéré manque d'un ou plusieurs termes d'ordre supérieur, le graphique des paramètres résiduels par rapport aux facteurs peut apparaître comme sur la figure 2.10. Graphique indique la préscence de la courbure Bien que le graphique donne un signal précis que la courbure est présente, l'identification de la source de cette courbure n'est pas possible en raison de la structure de la conception. Les graphiques générés en utilisant les autres prédicteurs dans cette situation aurait des apparitions très semblables. Analyse supplémentaire des analyses résiduelles Note. Les résidus sont un sujet important discuté à maintes reprises dans ce manuel. Par exemple, les parcelles résiduelles graphiques sont discutées au chapitre 1 et l'examen général des résidus dans le cadre du modèle de construction est discuté au chapitre 4. NOTICE: Le groupe de consultation IDRE Statistical migrera le site Web vers WordPress CMS en février pour faciliter l'entretien Et création de nouveaux contenus. Certaines de nos anciennes pages seront supprimées ou archivées de sorte qu'elles ne seront plus conservées. Nous essaierons de maintenir les redirections afin que les anciennes URL continuent à fonctionner de la meilleure façon possible. Bienvenue à l'Institut pour la recherche et l'éducation numériques Aider le Stat Consulting Group en donnant un cadeau Stata Class Notes Analyse des données 1.0 Stata commandes dans cette unité Analyse de la variance Crée des variables fictives pendant l'estimation du modèle Prévisions après estimation du modèle Estimation de la densité du noyau et graphiques Graphiques a standardisé Graphique normal Un graphe de quantile Graphique un graphe résiduel par rapport à un graphe ajusté Tester des hypothèses linéaires après une estimation de modèle Tableaux croisés avec un test au chi carré Tester l'égalité des paires appariées de données Paires appariées de Wilcoxon test de rang signé Test Mann Whitney à deux échantillons Analogue non paramétrique à One way anova 2.0 Démonstration et explication 2.1 test chi carré des fréquences Voici la commande tabulate pour une table croisée avec une option pour calculer le test du chi carré de l'indépendance et des mesures d'association. Voici la commande avec une option pour afficher les fréquences attendues afin que l'on puisse vérifier pour les cellules avec très petites valeurs attendues. 2.2 t tests Il s'agit du test t d'un échantillon, testant si l'échantillon des scores d'écriture a été tiré d'une population avec une moyenne de 50. Il s'agit du test t apparié, testant si la moyenne de l'écriture est égale ou non Moyenne de lecture. Il s'agit du test t indépendant à deux échantillons avec des variances regroupées (égales). Il s'agit du test t indépendant à deux échantillons avec des variances distinctes (inégales). 2.3 Analyse de la variance La commande anova, sans surprise, effectue une analyse de variance (ANOVA). Voici un exemple d'analyse de variance à sens unique. Dans cet exemple, la commande anova est utilisée pour effectuer une analyse factorielle bidirectionnelle de la variance (ANOVA). Voici un exemple d'analyse de la covariance (ANCOVA) à l'aide de la commande anova. 2.4 Régression Régression linéaire OLS simple à la vanille. Dans l'exemple ci dessous, nous exécutons la régression avec des erreurs standard robustes. Ceci est très utile quand il ya hétérogénéité de variance. Cette option n'affecte pas les estimations des coefficients de régression. La commande de prévision permet de calculer les prévisions, les résidus, les statistiques d'influence, etc. après une commande d'estimation. La valeur par défaut indiquée ici est de calculer les scores prédits. Lorsque vous utilisez l'option resid, la commande predict calcule le résidu. La commande list affiche les valeurs des variables que nous avons générées. L'option en 120 stipule que seules les 20 premières observations s'affichent. La commande kdensity avec l'option normale affiche un graphe de densité des résidus avec une distribution normale superposée sur le graphique. Ceci est particulièrement utile pour vérifier que les résidus sont normalement distribués, ce qui est une hypothèse très importante pour la régression. La commande pnorm produit un graphe de probabilité normal et c'est une autre méthode de test si les résidus de la régression sont normalement distribués. La commande qnorm produit un graphique de quantile normal. C'est encore une autre méthode pour tester si les résidus sont normalement distribués. La trame qnorm est plus sensible aux déviances de la normalité dans les queues de la distribution, alors que la trame pnorm est plus sensible aux déviances proches de la moyenne de la distribution. Rvfplot est une commande de commodité qui génère un tracé du résiduel par rapport aux valeurs ajustées qu'il est utilisé après régression ou anova. Création de variables fictives à l'aide de la commande xi Le préfixe xi est utilisé pour les variables catégorielles de code fictif telles que prog. Le prog prédicteur a trois niveaux et nécessite deux variables fictives. La commande de test est utilisée pour tester l'effet collectif des deux variables codées en d'autres termes, elle teste l'effet principal de prog. Le préfixe xi peut également être utilisé pour créer des variables fictives pour prog et pour l'interaction de prog et read. La première commande de test teste l'interaction globale et la seconde commande de test teste l'effet principal de prog. 2.5 Régression logistique Afin de démontrer les commandes de régression logistique, nous allons créer une variable dichotomique appelée honcomp (composition d'honneur) à utiliser comme variable dépendante. Ceci est purement à des fins d'illustration uniquement. La commande logistique par défaut produit la sortie dans des rapports de probabilité mais peut afficher les coefficients si l'option coef est utilisée. Les mêmes résultats peuvent être obtenus en utilisant la commande logit, qui produit les coefficients comme valeur par défaut, mais affiche le rapport de cotes si l'option ou est utilisée. 2.6 Tests non paramétriques Le test de signes est l'analogique non paramétrique du test t d'un seul échantillon. La commande signrank calcule un test de Wilcoxon, l'analogique non paramétrique du test t apparié. Le test du rang est l'analogue non paramétrique du test t indépendant à deux échantillons et est connu sous le nom de test de Mann Whitney ou de Wilcoxon. La commande kwallis calcule un test de Kruskal Wallis, l'analogue non paramétrique du ANOVA unidirectionnel. 3.0 Pour plus d'informations Le contenu de ce site Web ne doit pas être interprété comme un endossement d'un site Web particulier, d'un livre ou d'un produit logiciel par l'Université de Californie.


No comments:

Post a Comment