#Rで標準化前と標準後のヒストグラムを描写する。
#母集団は正規分布とする。
#乱数の種(seed)を指定
set.seed(100)
png("121223_normalization.png")
#ヒストグラムを重ねて描写
hist(rnorm(1000, mean=10, sd=3), xlim=c(-5,20), main="Normalization")
hist( ( rnorm(1000, mean=10, sd=3) - 10 ) / sqrt(3 ^ 2), add=T)
dev.off()
#標準化後の平均値
> mean ((rnorm(1000, mean=10, sd=3) - 10 ) / sqrt(3 ^ 2))
[1] 0.003523354
#標準化後の標準偏差
> var ((rnorm(1000, mean=10, sd=3) - 10 ) / sqrt(3 ^ 2))
[1] 0.9512305
## 数式のソースファイル ##
% normaliation.tex
\documentclass{jarticle}
\usepackage{amsmath}
\begin{document}
確率変数の標準化normalizationを行う。
今、連続型continuous typeの確率変数$X$が確率分布$f(x)$に従うとき、期待値の
演算$E$は次のように定義される。
\begin{eqnarray}
E(X) = \int_{-\infty}^{\infty} x f(x) dx
\end{eqnarray}
期待値Eの演算に関しては、下のような性質がある。
\begin{eqnarray}
E(c) = c \\
E(X + c) = E(X) + c \\
E(cX) = c E(X) \\
E(X+Y) = E(X) + E(Y)
\end{eqnarray}
また、$X$の平均値のまわりの2次モーメント分散$V(X)$と呼び、以下の式で定義さ
れる。
\begin{eqnarray}
V(X) = E(X - \mu)^2 =\int_{-\infty}^{ \infty } (x - \mu )^2 f(x) dx
\end{eqnarray}
分散$V(X)$には以下のような性質がある。
\begin{eqnarray}
V(c) = 0 \\
V(X + c) = V(X) \\
E(cX) = c^2 V(X)
\end{eqnarray}
任意のXからその期待値を引いて$X - E(X)$を考えると、期待値の性質と分散は、
それぞれ
\begin{eqnarray}E{X - E(X)} = E(X) - E (E(X)) = E(X) - E(X) = 0 \\
V{X - E(X)} = V(X)
\end{eqnarray}
となる。ここで以下の式で$Z$を定義する。
\begin{eqnarray}
Z = \{X - E(X)\} \sqrt{V(X)}
\end{eqnarray}
この$Z$の期待値は0で、分散は1に調整されている。\\
いかなる確率変数もその期待値を引いて分散で除すことにより、期待値0、分散1に
調整することができる。\\
このような変換を標準化と呼び、$Z$を標準化変数と呼ぶ。
\\
\\
【参考文献】\\
東京大学教養部統計学教室(1991) 『統計学入門』 東京大学出版 94 - 99pp.
\pagestyle{empty}
\end{document}
なお、アップロード用のpngファイル作成については、
$ platex normalization.tex
$ dvipdfm normalization.tex
として、pdfファイルを生成したあと、
$ open normalization.tex
でmac備え付けのviewerでファイルを開き、本文を選択して、「Tool 」-> 「Crop」でクロッピングを行い、最後にpng形式で保存した。