어제 작성한 글은 전제를 이상하게 설정했다는 것을 알았다.

일단 데이터가 어떤 모양인지 파악도 하지 않고 기계적으로 분석을 했으니 제대로 된 결과가 나올리가 없었다.

어제의 실수는 뒤로하고 먼저 데이터를 확인해보자.




============================== R ==============================

plot(mpg$displ, mpg$cty)

============================== R ==============================


데이터의 분포는 분수함수(y=1/x)의 형태를 따르고 있다.

이 자체로 회귀분석을 하는 것보다는 정의역을 역수로 바꿔서 실시하면 데이터의 분포가 보다 더 나아질 것 같아서 일단 시행해보겠다.


============================== R ==============================

plot(mpg$displ, 1/mpg$cty)

============================== R ==============================



생각대로 보다 더 괜찮아졌다.

일단 우상향의 경향성이 존재하는 것을 확인했고 이는 양의 상관관계가 있다는 뜻이다.






예쁘게 나왔다.

summary(lm)을 해보자.



============================== R ==============================

mpg$c1 <- 1/(mpg$cty)

lmgraph <- lm(formula = displ ~ c1, data = mpg)

summary(lmgraph)


> summary(lmgraph)


Call:

lm(formula = displ ~ c1, data = mpg)


Residuals:

    Min      1Q  Median      3Q     Max 

-1.9806 -0.4652 -0.0806  0.3290  3.2960 


Coefficients:

            Estimate Std. Error t value Pr(>|t|)    

(Intercept)  -0.6318     0.2055  -3.075  0.00236 ** 

c1           65.0363     3.1572  20.600  < 2e-16 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Residual standard error: 0.7698 on 232 degrees of freedom

Multiple R-squared:  0.6465, Adjusted R-squared:  0.645 

F-statistic: 424.3 on 1 and 232 DF,  p-value: < 2.2e-16

============================== R ==============================






결정계수를 제외한 F-statistic, p-value 다 괜찮게 나왔다.

얻어진 식은 아래와 같다.

displ = 65.0363/cty - 0.6318




여기까지 구해놓고 보니까 결과가 참 한심하다.

여기서 얻을 수 있는 결론은 배기량과 시내주행 연비가 반비례한다는 걸 알았고 그것이 유의미한 결과였다는 것 또한 알아냈다.

당연한 결과라도 증명해야 좋다지만 뭐랄까 이건 너무 성의가 없었던 것 같다.

다음부터는 계획을 먼저 세우고 데이터에 접근해야겠다.

+ Recent posts