통계학(Statistics) - 도수분포표와 히스토그램

안녕하세요 오랜만에 글 포스팅을 합니다.
방학 때 오히려 잠잠했던 블로그 활동을
학기 시작한 이 시점부터 다시 하려고 합니다.
개인적으로 데이터 과학에 큰 관심을 가지게 되어서
파이썬, 통계학, 머신러닝
이 3분야 위주로 글 포스팅을 하겠습니다.
물론 전공과목을 공부하면서 팁이 생기면 바로 올리겠습니다.
오늘은 도수분포표와 히스토그램에 대해 알아보도록 하겠습니다.

0. Intro

오늘은 도수분포표히스토그램에 대해서 얘기를 해보겠습니다.

위 도표 1-1은 남고생 20명의 키를 정리한 데이터입니다.
남고생의 키는 모두 같지 않고 제각각의 수치로 나타나는 것을 볼 수 있습니다.
이 다양한 수치로 나타나는 것을 전문용어로 "분포한다"고 표현합니다.
이 제각각의 수치들 사이에서도 고유한 '특징'이나 '반복되는 것'이 있습니다.
그 고유한 특징아나 반복되는 것을 '분포의 특성'이라고 합니다.
이러한 분포의 특성을 이끌어 내기 위한 방법이 "통계"입니다.
통계에서는 '축약'이라는 방법을 사용합니다.
축약은 '데이터로 나열되어 있는 많은 숫자를 어떤 기준으로 정리정돈해서
의미있는 정보만을 추출'하는 것을 의미한다.
추출에는 두 가지 방법이 있다.
1. 그래프로 만들어서 그 특징을 파악할 수 있도록 한다.
2. 숫자 하나로 특징을 대표하도록 한다(통계랑)
이번 시간은 1번, 그래프를 그려보도록 하겠습니다!

1. 도수분포표 만들기

데이터 자체를 그래프로 만들 때 가장 많이 쓰이는 그래프는 '히스토그램'으로
'막대그래프'라고 생각하시면 됩니다.
히스토그램을 그리기 위해서 먼저 도수분포표라는 표를 만들어야합니다.
도표 1-1을 예시로 설명드리겠습니다.

1) 데이터 중에서 최대값(185)과 최소값(159)을 찾습니다.

2) 최대값부터 최소값까지 포함되도록 하여 구간을 자르기 좋은 대강의 범위를 만들고,
그 범위 내에서 5~8개 정도의 작은 범위(작은 구간)들로 자릅니다.
이렇게 자른 작은 범위를 '계급'이라고 합니다.
최소값(159)와 가까운 구간에서 자르기 좋은 숫자로 155를 선택하고,
최대값(185)와 가까운 구간에서 자르기 좋은 숫자 185를 선택하겠습니다.
즉 155~185까지 범위로 하는 계급을 만듭니다.
그리고 5개 데이터씩(5cm씩) 묶으면 6개의 계급이 생깁니다.

3) 계급값으로는 가장 가운데 값을 사용합니다.
예를 들어 제1계급에서는 156,157,158,159,160의 5개 데이터가 있기 때문에
가운데 값인 158을 선택합니다.

4) 각 계급에 들어가 있는 데이터의 총 개수(도수)를 셉니다.

5) 각 계급의 도수가 전체에서 차지하는 비율(상대도수)를 구합니다.
즉 각 도수를 데이터의 총 개수인 20으로 나눕니다.
*상대도수의 합은 항상 1입니다.

6) 도수를 위에서부터 차례로 더해 내려가면 누적도수를 계산합니다.
이러한 6가지 과정을 통해서 나온 도수분포표가 바로
도표 1-2이다.
도수분포표를 자세히 보면 잃어버리는 정보가 있다는 점을 알 수 있다.
바로 '데이터에 나타나 있던 수치들 자체'다
이것은 도수분포표를 만드는 과정에서 생기는 축약으로 인해 발생한 일이다.
이 표를 통해서 우리는 다음과 같은 특징들을 알 수 있다.

1. 데이터는 균등하게 분포하지 않고 어느 한 곳에 집중되어 있다.
2. 집중되어있는 곳을 기점으로 삼으면 어느 한 곳을 축으로 좌우 대칭이 된다.

2. 막대그래프 그리기 

위의 도수분포표를 통해 히스토그램을 그릴 수 있습니다.

 1) 가로축에 계급값을 같은 간격으로 둔다

2) 각 계급값 위에 막대를 세우는데, 막대 높이는 그 계급값에 속한 계급도수로 한다
(상대도수로 하는 경우도 있다.)


이렇게 만든 막대그래프를 히스토그램이라고 한다.
사실 정확하게 히스토그램이라고 할 수 없다.
(히스토그램은 막대그래프가 붙어 있는 형태이다.)
정확히 키가 173인 남고생이 7명이 있다라고 할 순 없다.
하지만 이 그래프를 통해서 '대략적인 데이터의 특징'을 파악할 수 있다.

댓글