통계

지나가는 통계 #2 범주형 데이터와 수치형 데이터

하루하루Hi 2024. 1. 14. 00:10

오늘은 범주형 데이터와 수치형 데이터를 정리해 보겠습니다.

 

범주형 데이터는 데이터 간 비교 또는 숫자 연산이 불가능한 카테고리화된 데이터로, 명목형과 순서형으로 나눠집니다.

  • 명목형 데이터는 순서가 없으며 명목적인 성격을 가집니다. 예를 들어, 빨강, 파랑, 녹색과 같은 색깔, 서울, 동경, 뉴욕과 같은 도시 구분, 통계학, 약학과 같은 학과 구분, 월요일부터 일요일까지의 요일 등이 있습니다.
  • 순서형 데이터는 범주 간에 상대적인 순서나 등급을 나타낼 수 있으나 덧셈이나 뺄셈 등으로 절대적이 차이를 해석할 수 없습니다. 예를 들어 초졸, 고졸, 대졸과 같은 교육학력 수준, 인턴, 주임, 대리, 과장, 이사와 같은 회사 직급, 경증, 중증과 같은 질병의 정도가 해당됩니다.

 

수치형 데이터는 숫자로 표현되며 데이터 간 비교가 가능한 것으로, 이산형, 연속형, 구간형, 비율형으로 구분할 수 있습니다.

  • 이산형 데이터는 분리된 값으로 표현되며, 보통 정수값을 가집니다. 예를 들어, 주사위 눈금인 1, 2, 3, 4, 5, 6이나, 100, 200, 300명으로 표현되는 직원/고객 등의 수, 책의 페이지의 수가 있습니다.
  • 연속형 데이터는 소수점 이하 값을 가질 수 있으며 연속적으로 변할 수 있는 데이터입니다. 예를 들자면, 온도나 시간, 키와 몸무게 등이 해당됩니다.
  • 구간형 데이터는 일정한 간격을 가진 값을 숫자로 표현하지만, 영점(0)이 임의로 설정되며, 비율을 계산할 수 없는 데이터입니다. 즉, 간격만 의미가 있지만, 비율은 의미가 없습니다. 예를 들자면 0°C (얼음 녹는점)을 영점으로 하는 섭씨온도나 평균 100점을 중심으로 하는 IQ 점수가 해당됩니다.
  • 비율형 데이터는 절대적인 영점(0)을 가지며, 비율 계산이 가능한 값으로 예를 들자면 0km/s으로 시작하는 자동차 시속(속도), 0원에서 시작하는 연봉 금액, 0g부터 시작하는 무게, 0cm에서 시작하는 길이 등이 해당됩니다.

 

이 내용은 아주 기본적인 내용인데, 가끔 헷갈리네요... 바본가...