-
-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathregression.qmd
123 lines (79 loc) · 3.13 KB
/
regression.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
---
title: "回帰問題に挑戦"
---
```{r}
#| include: false
library(ggplot2)
library(ragg)
library(palmerpenguins)
```
[相関](correlation.qmd)では2つの量的変数の関係を分析する方法として相関係数や散布図を紹介しました。
回帰とは $y = f(x)$
関数によって変数の間の関係を定式化
直線の関数とみなし、$\hat{Y}_i = a + bX_i$
変数の関係を理解、
予測ができるようになります。
例として、生まれてからのチンバンジーの日齢と体重
前者の変数が後者の変数に影響していると想定できるため
$x$を説明変数、$y$を目的変数と呼びます。
変数間の関係、モデルとして組み立てる
モデルによって説明する
直線的な関係を仮定する→線形モデル
## 単回帰モデル
線形回帰のうち、説明変数が一つの場合を単回帰といいます。
これに対して複数の説明変数によって目的変数の挙動を推定する線形回帰を重回帰と呼びますが、これについては本書では扱いません。
単回帰の基礎を抑えることで、重回帰への理解も深まります。
```{r}
#| include: false
source("data-raw/zoo.R")
```
```{r}
lm_res <-
lm(weight_kg ~ body_length_cm, data = df_zoo)
lm_res
summary(lm_res)
```
### 最小二乗法
回帰直線によって2つの変数の関係をどの程度表現できているかを示す指標
- 回帰直線からの差(残差)
- 残差が小さいほど予測がうまく行っている
残差を2乗し平均をとる --> 残差分散。値が小さいほど回帰直線による予測がうまくいくことを示す
次に示すのは南極大陸に生育するペンギンの大きさを調べた観測データです。
それぞれの変数は次の意味をもちます(詳細は[付録のデータセット](dataset.qmd)を参照してください)。
- `bill_length_mm`: 口ばしの長さ。単位はミリメートル
- `body_mass_g`: 体重。単位はグラム
```{r}
#| echo: false
#| eval: false
dplyr::select(penguins, bill_length_mm, body_mass_g)
```
`lm()`関数
```{r}
lm_res <-
lm(formula = body_mass_g ~ bill_length_mm, data = penguins)
lm_res
summary(lm_res)
```
`predict()`関数
```{r}
ggplot(penguins, aes(bill_length_mm, body_mass_g)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE)
```
点の配置にもっともよくあてはまる回帰直線は、最小二乗法の原理で求めることができる
データ点に対して、最も適合する直線を引く
二つのパラメータ、切片 $a$ と傾き $b$を決定する
残差
符号の影響を除くために二乗、さらに和をとって残差平方和
### 決定係数
モデルにおける予測値と実測値との相関係数を2乗した値。
観測値の分散のうち予測によって説明される部分の割合を示す
単純な線形回帰でどのくらい説明できるかを表す値
### 95%信頼区間
## 回帰と相関
## まとめと課題
## 参考文献・URL
- @isbn9784489021190
- @isbn9784807908592
- @isbn9784320114500
- @isbn9784873118918