어제 작성한 글은 전제를 이상하게 설정했다는 것을 알았다.
일단 데이터가 어떤 모양인지 파악도 하지 않고 기계적으로 분석을 했으니 제대로 된 결과가 나올리가 없었다.
어제의 실수는 뒤로하고 먼저 데이터를 확인해보자.
============================== R ==============================
plot(mpg$displ, mpg$cty)
============================== R ==============================
데이터의 분포는 분수함수(y=1/x)의 형태를 따르고 있다.
이 자체로 회귀분석을 하는 것보다는 정의역을 역수로 바꿔서 실시하면 데이터의 분포가 보다 더 나아질 것 같아서 일단 시행해보겠다.
============================== R ==============================
plot(mpg$displ, 1/mpg$cty)
============================== R ==============================
생각대로 보다 더 괜찮아졌다.
일단 우상향의 경향성이 존재하는 것을 확인했고 이는 양의 상관관계가 있다는 뜻이다.
예쁘게 나왔다.
summary(lm)을 해보자.
============================== R ==============================
mpg$c1 <- 1/(mpg$cty)
lmgraph <- lm(formula = displ ~ c1, data = mpg)
summary(lmgraph)
> summary(lmgraph)
Call:
lm(formula = displ ~ c1, data = mpg)
Residuals:
Min 1Q Median 3Q Max
-1.9806 -0.4652 -0.0806 0.3290 3.2960
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.6318 0.2055 -3.075 0.00236 **
c1 65.0363 3.1572 20.600 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7698 on 232 degrees of freedom
Multiple R-squared: 0.6465, Adjusted R-squared: 0.645
F-statistic: 424.3 on 1 and 232 DF, p-value: < 2.2e-16
============================== R ==============================
결정계수를 제외한 F-statistic, p-value 다 괜찮게 나왔다.
얻어진 식은 아래와 같다.
displ = 65.0363/cty - 0.6318
여기까지 구해놓고 보니까 결과가 참 한심하다.
여기서 얻을 수 있는 결론은 배기량과 시내주행 연비가 반비례한다는 걸 알았고 그것이 유의미한 결과였다는 것 또한 알아냈다.
당연한 결과라도 증명해야 좋다지만 뭐랄까 이건 너무 성의가 없었던 것 같다.
다음부터는 계획을 먼저 세우고 데이터에 접근해야겠다.
'데이터 분석 > 데이터 분석 프로젝트' 카테고리의 다른 글
[시계열, 트렌드 분석] 단역배우 자매 사망 사건의 시계열 및 트렌드 분석 -2(개요, 관심도 변화) (0) | 2018.06.14 |
---|---|
[시계열 분석] 단역배우 자매 사망 사건의 시계열 및 트렌드 분석 -1(준비 단계) (0) | 2018.06.07 |
[R] mpg 데이터를 이용한 자동 회귀분석 모델 이용 -1 (0) | 2018.05.29 |
[Weka] Weka를 이용한 Iris 데이터 머신러닝 (0) | 2018.05.06 |
[데이터 시각화] HighCharts를 이용한 서울지역 총 매출금액 총 매출금액(2016-11 ~ 2017-08) (0) | 2018.05.02 |