医療系の仕事をしています。生命の尊さ、美しさがどのようなメカニズムで生じるのかに興味があります。科学の方法論を用いて、このような問いに応えたい、私はこう思って医学生物学の基礎研究のトレーニングを受けてきました。生命を科学的手法を用いて理解を試みる上で、genomeを始めとした種々の大量データの処理が必要不可欠であることを痛感しました。また、生命科学が物理学、数学、統計学、有機化学などの種々の学問と深い関わりを持つことを実感しました。そのため、このブログは広範囲の学問領域に関しての記事を載せています。日々の学習内容を文書に書き残し、それを読み返すことによって、体系化された知識を身に付けることを目標としています。どうぞよろしくお願いします。
GEOからすでにバックグラウンド補正&の正規化されたテキストファイルをダウンロード
GSE13869のデータをCELファイルではなく、rmaでバックグラウンド補正と正規化したのち、log2にした.txtファイルがダウンロードできる。これはとても楽だ!!このファイルを使えば、いちいちCELファイルを読み込んで重たい処理をせんでも、一気に二群差比較やらネットワーク解析に持ち込むことができる。
$ lftp ftp.ncbi.nlm.nih.gov:/pub/geo/DATA/SeriesMatrix/GSE13869
cd 成功、cwd=/pub/geo/DATA/SeriesMatrix/GSE13869
lftp ftp.ncbi.nlm.nih.gov:/pub/geo/DATA/SeriesMatrix/GSE13869> ls
-r--r--r-- 1 ftp anonymous 2174702 Dec 18 16:05 GSE13869_series_matrix.txt.gz
lftp ftp.ncbi.nlm.nih.gov:/pub/geo/DATA/SeriesMatrix/GSE13869> get GSE13869_series_matrix.txt.gz
2174702 バイト転送済、34 秒経過 (62.4KB/s)
lftp ftp.ncbi.nlm.nih.gov:/pub/geo/DATA/SeriesMatrix/GSE13869> quit
$ gunzip GSE13869_series_matrix.txt.gz #カレントディレクトリの.gz形式のファイルをカレントディレクトリに解凍する。
$ ls
GSE13869 GSE13869_RAW.tar GSE13869_series_matrix.txt.gz
ls
GSE13869 GSE13869_RAW.tar GSE13869_series_matrix.txt #解凍されている!!!