Skip to content

前処理

データの読み込みについて、標準ライブラリと外部ライブラリ(readr)があります。
高速なのは外部ライブラリ(readr)です。 readrはtidyverseに入っているため、新たに入れる必要はありません。

データの読み込み(標準ライブラリ)

Section titled “データの読み込み(標準ライブラリ)”

read.拡張子名で読み込むことができる

read.csv("csvファイル")
# 変数に入れることで加工をできるようにしておく。
df = read.csv("csvファイル")

データの読み込み(外部ライブラリ:readr)

Section titled “データの読み込み(外部ライブラリ:readr)”

注意)”.”が”_“になっています。

read_csv("csvファイル")
df = read_csv("csvファイル")

*ほかの形式を読み込みたいとき(ex: SPSSやStata、SAS)を読み込みたいときは、
havenパッケージ、Excelを読み込みたいときはreadxlパッケージを使います。

こちらのサイトが詳しいことを書いています。

str(データフレーム名)

Rstdioの場合、右上の「Environment」タブで▽(変数名)をクリックすると、型や最初の数行を確認できます。

名前の変更、型の変更をしたいとき

Section titled “名前の変更、型の変更をしたいとき”

読み込まれた型を変更したいときはas_型名を使います。

as.character(変数名) #文字列に変換
as.numeric(変数名)
as.integer(変数名)
as.factor(変数名)
as.logical(変数名)

##一気に変更したい場合

df2 <-
df %>%
mutate(gender = as_factor(gender),
age = as_factor(age),
...
)

mutate関数を使って変更をしました。
※Rでは標準でパイプ演算子が使えるようです。|>です。
gemimiによると標準のほうが高速のようです。

私はデータ分析では補完をせず、欠損値のある行は削除しました。
来年は、補完もかねて分析をしようと思っています。