관리 메뉴

bright jazz music

4.3 산포도, 회귀분석, 추세선, 결정계수 본문

기타/파이썬 금융 데이터 분석

4.3 산포도, 회귀분석, 추세선, 결정계수

bright jazz music 2021. 12. 21. 00:38

산포도, 산점도(scatter plots, dispersion graph)

 

X축과 Y축의 상관관계를 파악해 두 변수 간의 관련성을 파악하기 좋은 형식의 그래프

 

 

 

회귀분석(Regression analysis)

회귀분석이란 둘 또는 그 이상의 변수 사이의 관계를 분석할 때 널리 쓰이는 통계적 방법이다. 결국 두 변수 사이의 관계를 나타내는 추세선을 찾아내는 것이 회귀분석의 목표이다. 추세선은

 

직선( y=ax+b ) 뿐만 아니라

다항식 곡선 (y²= ax³ + bx² + cx + d),

삼각함수( y = a sin x + b cos x + c) 등 필요에 따라 다양한 형태일 수 있다.

 

추세선

추세선은 두 변수의 관계를 나타낸다. 추세선을 어떻게 구할 수 있을까? 컴퓨터는 임의의 추세선을 그려가며 추세선과 각 점 간의 거리의 합이 최소인 추세선을 찾아나가는 방식으로 회귀분석을 수행한다. 

 

직선 추세선의 공식은 1차 함수 y = ax + b이다. 여기서 a는 기울기, b는 y절편이라고 한다. 기울기가 1이면 정확히 x가 변화는 양만큼 y도 변한다는 뜻이고, 1보다 크면 x가 변하는 것보다 y는 더 큰 폭으로 변화한다는 뜻이다.

 

참고로 통계학 책에서는 추세선 공식에 오차를 함께 표현해 준다. 

 

결정계수

여러 개의 회귀분석 중 가장 추세선 품질이 높은 것을 어떻게 알 수 있을까? 이 떄 사용하는 수치가 바로 R²이다. 회귀분석을 하면 R²값이 출력되는데, 이는 추세선의 품질을 나타내는 점수이다. R²은 0과 1 사이의 값이며, 1에 가까울수록 품질, 즉 상관관계가 높다고 판단한다. 통계학에서는 R²를 결정계수라고 한다.

'기타 > 파이썬 금융 데이터 분석' 카테고리의 다른 글

6. 파이썬 실습  (0) 2021.12.25
5. 주식 엑셀(구글 시트) 실습  (0) 2021.12.21
4. 주가지수의 종류  (0) 2021.12.10
4. 주식, 가격, 지수  (0) 2021.11.18
3. 파이썬 설치  (0) 2021.11.18
Comments