前処理

データの読み込みについて、標準ライブラリと外部ライブラリ（readr）があります。
高速なのは外部ライブラリ（readr）です。 readrはtidyverseに入っているため、新たに入れる必要はありません。

データの読み込み（標準ライブラリ）

read.拡張子名で読み込むことができる

read.csv("csvファイル")

# 変数に入れることで加工をできるようにしておく。
df = read.csv("csvファイル")

注意）”.”が”_“になっています。

read_csv("csvファイル")
df = read_csv("csvファイル")

*ほかの形式を読み込みたいとき（ex: SPSSやStata、SAS）を読み込みたいときは、
havenパッケージ、Excelを読み込みたいときはreadxlパッケージを使います。

こちらのサイトが詳しいことを書いています。

str(データフレーム名)

Rstdioの場合、右上の「Environment」タブで▽（変数名）をクリックすると、型や最初の数行を確認できます。

読み込まれた型を変更したいときはas_型名を使います。

as.character(変数名) #文字列に変換
as.numeric(変数名)
as.integer(変数名)
as.factor(変数名)
as.logical(変数名)

##一気に変更したい場合

df2 <-
  df %>%
  mutate(gender = as_factor(gender),
         age = as_factor(age),
         ...
  )

mutate関数を使って変更をしました。
※Rでは標準でパイプ演算子が使えるようです。|>です。
gemimiによると標準のほうが高速のようです。

私はデータ分析では補完をせず、欠損値のある行は削除しました。
来年は、補完もかねて分析をしようと思っています。