Estimation de la moyenne
Activités #5
Table des matières
1. Pour mieux comprendre
2. Application web shiny
2.1. Installer les extensions
Installez d’abord l’extension requise.
install.packages("shiny") ## pour l'application web
N’hésitez pas à parcourir l’introduction à shiny.
Installez ensuite l’extension suggérée. Continuez même si l’installation échoue.
install.packages("ggplot2") ## pour les graphiques
2.2. Obtenir le code de l’application
Ensuite, téléchargez le fichier app-PSI.R contenant le code de l’application, et exécutez le.
app <- source('app-PSI.R') ## construire l'application web app ## lancer l'application web dans un navigateur
Pour l’instant, l’application fonctionne mais n’affiche rien d’intéressant.
2.3. Compléter le code de l’application
Votre mission consiste à écrire les quatre fonctions ci-dessous. La spécification des fonctions est précisée dans les sections suivantes.
#' SummaryPSI est une fonction calculant des statistiques a partir d'une série d'observations. #' @param x le vecteur numérique d'observations #' @return un vecteur numérique nommé contenant des indicateurs statistiques. SummaryPSI <- function(x) { ## TODO return(c("N"=0)) } #' HistPSI est une fonction construisant un histogramme d'une série d'observations. #' @param x le vecteur numérique d'observations #' @param main le titre de l'histogramme #' @param binwidth la largeur d'une barre de l'histogramme #' @return un histogramme construit avec ggplot2 HistPSI <- function(x, main, binwidth=0.5) { ## TODO if(require("ggplot2")) { ## ggplot est installé. qplot(c(), geom="histogram") } else { ## ggplot n'est pas installé. ## On utilise les graphes de 'base'. hist(0:10) } } #' SampleMean renvoie la moyenne d'un sous-échantillon aléatoire de taille size d'un vecteur x. #' @param x le vecteur numérique d'observations #' @param size le nombre d'observations du sous-échantillon #' @return la moyenne du sous-échantillon SampleMean <- function(x, size) { ## TODO return(0) } #' SampleMeans renvoie un vecteur de longueur n dont les éléments sont des estimations de la moyenne basées sur un échantillon aléatoire de taille size. #' @param x le vecteur numérique d'observations #' @param n le nombre de sous-échantillons #' @param size le nombre d'observations du sous-échantillon #' @return les moyennes des sous-échantillons SampleMeans <- function(x, n, size) { ## TODO return(0) }
3. Description de données
Cet exercice a pour but d’introduire aux outils de statistiques descriptives d’une seule variable (moyenne, quartiles, histogramme, etc.). Les étapes proposées dans cet exercice sont nécessaires pour décrire un ensemble de données impliquant une seule variable. 3 fichiers sont disponibles : temp1.csv, temp2.csv et temp3.csv. Chaque fichier contient les mesures de température de centaines de thermomètres au même instant. Les observations peuvent donc être considérées comme indépendantes.
- Calculer le nombre de données, la moyenne, la variance, l’écart-type et les quartiles.
- Décrire qualitativement la distribution des températures mesurées à l’aide d’un histogramme.
4. Influence de la taille d’un échantillon
Cet exercice a pour but de montrer comment l’estimation de la moyenne dépend de la taille de l’échantillon (nombre d’observations) sur lequel repose l’estimation. Nous allons extraire des sous-échantillons (aléatoires) de différentes tailles et montrer que la dispersion des moyennes observées dépend de cette taille. Cet exercice est une illustration de la loi faible des grands nombres.
- Ecrire une fonction
SampleMean
qui calcule la moyenne d’un sous-échantillon de taillesize
d’un vecteurx
. - Ecrire une fonction
SampleMeans
qui calcule un vecteur de longueurn
dont les éléments sont des estimations de la moyenne basées sur un échantillon aléatoire de taillesize
. - Comparer les distributions des moyennes estimées pour des échantillons de taille 10 et de taille 100.
5. Comparaison de moyenne
Cet exercice a pour but d’illustrer les outils de comparaison de moyennes à l’aide de tests statistiques.
- Les mesures de températures suivent-elles une distribution normale ? Quel(s) test(s) peut-on utiliser pour comparer les moyennes de ces distributions ?
- Comparer les moyennes estimées sur les 1000 observations des 3 séries de données à l’aide d’un test statistique adéquat.
- Comparer de nouveau, à l’aide d’un test statistique, les moyennes des 3 séries de données à partir de sous-échantillons aléatoires de taille 30.