본문 바로가기

통계

지나가는 통계 #4 정규분포 정규분포에 대해서 정리해보겠습니다. 위와 같이 (표준)정규분포를 그려보면 여러 정규분포의 특징을 이해할 수 있습니다. 첫 번째로 정규분포는 평균을 중심으로 좌우 대칭을 갖는 분포입니다. 이것은 분포가 평균값을 중심으로 왼쪽과 오른쪽이 대칭적으로 나타납니다. 정규분포는 평균(μ)와 분산(σ^2)으로 특징 지어집니다. 평균은 분포의 중심(위의 예시에서는 0)을 나타내며, 분산은 데이터가 얼마나 퍼져 있는지를 나타냅니다. 표준편차(σ)는 분산의 양의 제곱근으로, 데이터의 변이성, 즉 얼마나 퍼져있는지를 나타냅니다. 정규분포에서는 평균, 중앙값, 최빈값이 모두 동일합니다. 정규분포는 꼬리가 무한히 길어지는 특징을 가집니다. 이것은 극단적인 값 또한 가능하다는 것을 의미하며, 이는 통계적 이론과 추론에서 중요한 .. 더보기
지나가는 통계 #3 임의추출(Random Sampling) 임의추출이란 무엇인지 모집단부터 이해해 보도록 하겠습니다. 모집단은 조사하려는 전체 대상 집합을 나타냅니다. 이것은 연구나 조사의 주요 대상이나, 종종 크고 다양한 데이터로 구성되어 모든 데이터를 확인하기 어려운 경우가 있습니다. 표본은 모집단에서 선택한 일부 데이터로, 모집단을 설명하기 위한 것으로 모집단을 대표하도록 고르게 선택되어야 합니다. 상황/경우에 따라 여러 표본의 종류가 있을 수 있습니다. 임의추출 (Random Sampling)은 표본을 선택할 때 사용되는 방법 중 하나입니다. 임의추출은 모집단의 모든 개체에 동일한 확률로 선택되도록 하며 표본이 모집단을 대표하도록 합니다. 상기에서 보듯이 표본 X와 Y는 각각 임의추출에 의해 선택된 표본을 나타냅니다. 더보기
지나가는 통계 #2 범주형 데이터와 수치형 데이터 오늘은 범주형 데이터와 수치형 데이터를 정리해 보겠습니다. 범주형 데이터는 데이터 간 비교 또는 숫자 연산이 불가능한 카테고리화된 데이터로, 명목형과 순서형으로 나눠집니다. 명목형 데이터는 순서가 없으며 명목적인 성격을 가집니다. 예를 들어, 빨강, 파랑, 녹색과 같은 색깔, 서울, 동경, 뉴욕과 같은 도시 구분, 통계학, 약학과 같은 학과 구분, 월요일부터 일요일까지의 요일 등이 있습니다. 순서형 데이터는 범주 간에 상대적인 순서나 등급을 나타낼 수 있으나 덧셈이나 뺄셈 등으로 절대적이 차이를 해석할 수 없습니다. 예를 들어 초졸, 고졸, 대졸과 같은 교육학력 수준, 인턴, 주임, 대리, 과장, 이사와 같은 회사 직급, 경증, 중증과 같은 질병의 정도가 해당됩니다. 수치형 데이터는 숫자로 표현되며 데이.. 더보기
지나가는 통계 #1 확률추출법과 비확률추출법 통계를 공부하고 있습니다. 언제까지 할지는 모르겠지만, 이왕 공부하는 김에 공부할 때 정리한 내용을 블로그로 관리하면서 작성해두려고 합니다. 오늘은 확률추출법과 비확률추출법에 대한 내용입니다. 확률추출법은 비용과 복잡성이 높을 수 있지만 대표성을 갖고 유용성이 큽니다. 그러나 비확률추출법은 간편하고 비용이 상대적으로 낮을 수 있지만, 대표성을 가지기 어렵고, 통계적 불확실성이 증가할 수 있습니다. 비교 확률추출법 비확률추출법 개념 모집단 내 각 개체가 표본으로 선택될 확률을 정확히 계산할 수 있는 방법을 사용하는 표본추출 방법으로, 모든 개체가 선택될 확률은 미리 계산되고 알려져 있어야 함. 모집단 내 각 개체가 표본으로 선택될 확률을 정확히 계산하지 않는 표본추출 방법으로, 임의로 혹은 주관적으로 추출.. 더보기