データの要約

 データの要約は統計学の基本中の基本です。

身長の測定値のデータを例にとってRでの要約の方法を記述します。


> bl <- c(165,167,187,156,145,166,176,143,169,175,148,150)
> #オブジェクトの中身を確認
> bl
 [1] 165 167 187 156 145 166 176 143 169 175 148 150
> #平均値
> mean(bl)
[1] 162.25

> #中央値
> median(bl)
[1] 165.5
> #四分位値
> quantile(bl)
   0%   25%   50%   75%  100%
143.0 149.5 165.5 170.5 187.0 
[1] 165.5
> #四分位値偏差
> IQR(bl)
[1] 21

> #不偏分散      
> var(bl)
[1] 192.2045
> #範囲
> range
range          range.default 
> #範囲
> max(bl)-min(bl)
[1] 44
> png("121220_body_length.png")
> #身長を箱ひげ図に描写
> boxplot(bl, ylab="cm", main="The body length")
> dev.off()
null device
          1 

箱の中にある線が中央値Q2=165.5
左右の四分位値Q1=149.5, Q3=170.5で箱を作る。
四分位値偏差Q.D=21の1.5倍の範囲内にある最小、最大のデータに対してひげを引き、それを超えるデータ(はずれ値)をひとつひとつプロットする。