Estimation de la moyenne
Activités #5

Table des matières

1. Pour mieux comprendre
2. Application web shiny
3. Description de données
4. Influence de la taille d’un échantillon
5. Comparaison de moyenne

1. Pour mieux comprendre

Traitement de données avec R : initiation aux méthodes exploratoires. Simon Chabot.

2. Application web shiny

2.1. Installer les extensions

Installez d’abord l’extension requise.

install.packages("shiny") ## pour l'application web

N’hésitez pas à parcourir l’introduction à shiny.

Installez ensuite l’extension suggérée. Continuez même si l’installation échoue.

install.packages("ggplot2") ## pour les graphiques

2.2. Obtenir le code de l’application

Ensuite, téléchargez le fichier app-PSI.R contenant le code de l’application, et exécutez le.

app <- source('app-PSI.R') ## construire l'application web
app ## lancer l'application web dans un navigateur

Pour l’instant, l’application fonctionne mais n’affiche rien d’intéressant.

2.3. Compléter le code de l’application

Votre mission consiste à écrire les quatre fonctions ci-dessous. La spécification des fonctions est précisée dans les sections suivantes.

#' SummaryPSI est une fonction calculant des statistiques a partir d'une série d'observations.
#' @param x le vecteur numérique d'observations
#' @return un vecteur numérique nommé contenant des indicateurs statistiques.
SummaryPSI <- function(x) {
  ## TODO
  return(c("N"=0))
}

#' HistPSI est une fonction construisant un histogramme d'une série d'observations.
#' @param x le vecteur numérique d'observations
#' @param main le titre de l'histogramme
#' @param binwidth la largeur d'une barre de l'histogramme
#' @return un histogramme construit avec ggplot2
HistPSI <- function(x, main, binwidth=0.5) {
  ## TODO
  if(require("ggplot2")) {
    ## ggplot est installé.
    qplot(c(), geom="histogram")
  } else {
    ## ggplot n'est pas installé.
    ## On utilise les graphes de 'base'.
    hist(0:10)
  }
}

#' SampleMean renvoie la moyenne d'un sous-échantillon aléatoire de taille size d'un vecteur x.
#' @param x le vecteur numérique d'observations
#' @param size le nombre d'observations du sous-échantillon
#' @return la moyenne du sous-échantillon
SampleMean <- function(x, size) {
  ## TODO
  return(0)
}

#' SampleMeans renvoie un vecteur de longueur n dont les éléments sont des estimations de la moyenne basées sur un échantillon aléatoire de taille size.
#' @param x le vecteur numérique d'observations
#' @param n le nombre de sous-échantillons
#' @param size le nombre d'observations du sous-échantillon
#' @return les moyennes des sous-échantillons
SampleMeans <- function(x, n, size) {
  ## TODO
  return(0)
}

3. Description de données

Cet exercice a pour but d’introduire aux outils de statistiques descriptives d’une seule variable (moyenne, quartiles, histogramme, etc.). Les étapes proposées dans cet exercice sont nécessaires pour décrire un ensemble de données impliquant une seule variable. 3 fichiers sont disponibles : temp1.csv, temp2.csv et temp3.csv. Chaque fichier contient les mesures de température de centaines de thermomètres au même instant. Les observations peuvent donc être considérées comme indépendantes.

Calculer le nombre de données, la moyenne, la variance, l’écart-type et les quartiles.
Décrire qualitativement la distribution des températures mesurées à l’aide d’un histogramme.

4. Influence de la taille d’un échantillon

Cet exercice a pour but de montrer comment l’estimation de la moyenne dépend de la taille de l’échantillon (nombre d’observations) sur lequel repose l’estimation. Nous allons extraire des sous-échantillons (aléatoires) de différentes tailles et montrer que la dispersion des moyennes observées dépend de cette taille. Cet exercice est une illustration de la loi faible des grands nombres.

Ecrire une fonction SampleMean qui calcule la moyenne d’un sous-échantillon de taille size d’un vecteur x.
Ecrire une fonction SampleMeans qui calcule un vecteur de longueur n dont les éléments sont des estimations de la moyenne basées sur un échantillon aléatoire de taille size.
Comparer les distributions des moyennes estimées pour des échantillons de taille 10 et de taille 100.

5. Comparaison de moyenne

Cet exercice a pour but d’illustrer les outils de comparaison de moyennes à l’aide de tests statistiques.

Les mesures de températures suivent-elles une distribution normale ? Quel(s) test(s) peut-on utiliser pour comparer les moyennes de ces distributions ?
Comparer les moyennes estimées sur les 1000 observations des 3 séries de données à l’aide d’un test statistique adéquat.
Comparer de nouveau, à l’aide d’un test statistique, les moyennes des 3 séries de données à partir de sous-échantillons aléatoires de taille 30.

Estimation de la moyenneActivités #5