前処理
データの読み込みについて、標準ライブラリと外部ライブラリ(readr)があります。
高速なのは外部ライブラリ(readr)です。
readrはtidyverseに入っているため、新たに入れる必要はありません。
データの読み込み(標準ライブラリ)
Section titled “データの読み込み(標準ライブラリ)”read.拡張子名で読み込むことができる
read.csv("csvファイル")
# 変数に入れることで加工をできるようにしておく。df = read.csv("csvファイル")データの読み込み(外部ライブラリ:readr)
Section titled “データの読み込み(外部ライブラリ:readr)”注意)”.”が”_“になっています。
read_csv("csvファイル")df = read_csv("csvファイル")*ほかの形式を読み込みたいとき(ex: SPSSやStata、SAS)を読み込みたいときは、
havenパッケージ、Excelを読み込みたいときはreadxlパッケージを使います。
こちらのサイトが詳しいことを書いています。
型を確認したいとき
Section titled “型を確認したいとき”str(データフレーム名)Rstdioの場合、右上の「Environment」タブで▽(変数名)をクリックすると、型や最初の数行を確認できます。
名前の変更、型の変更をしたいとき
Section titled “名前の変更、型の変更をしたいとき”読み込まれた型を変更したいときはas_型名を使います。
as.character(変数名) #文字列に変換as.numeric(変数名)as.integer(変数名)as.factor(変数名)as.logical(変数名)##一気に変更したい場合
df2 <- df %>% mutate(gender = as_factor(gender), age = as_factor(age), ... )mutate関数を使って変更をしました。
※Rでは標準でパイプ演算子が使えるようです。|>です。
gemimiによると標準のほうが高速のようです。
欠損値の扱い
Section titled “欠損値の扱い”私はデータ分析では補完をせず、欠損値のある行は削除しました。
来年は、補完もかねて分析をしようと思っています。