통계 분석은 정량적 데이터를 사용하여 추세,패턴 및 관계를 조사하는 것을 의미합니다. 과학자,정부,기업 및 기타 조직에서 사용하는 중요한 연구 도구입니다.
유효한 결론을 도출하기 위해 통계 분석은 연구 과정의 시작부터 신중한 계획이 필요합니다. 가설을 지정하고 연구 설계,표본 크기 및 표본 추출 절차에 대한 결정을 내려야 합니다.
샘플에서 데이터를 수집한 후 기술 통계를 사용하여 데이터를 구성하고 요약할 수 있습니다. 그런 다음 추론 통계를 사용하여 가설을 공식적으로 테스트하고 모집단에 대한 추정치를 만들 수 있습니다. 마지막으로 결과를 해석하고 일반화 할 수 있습니다.
이 기사는 학생과 연구자를위한 통계 분석에 대한 실질적인 소개입니다. 우리는 두 가지 연구 예제를 사용하여 단계를 안내합니다. 첫 번째는 잠재적 인 인과 관계를 조사하는 반면 두 번째는 변수 간의 잠재적 인 상관 관계를 조사합니다.
1 단계:가설을 작성하고 연구 설계 계획
통계 분석을 위해 유효한 데이터를 수집하려면 먼저 가설을 지정하고 연구 설계를 계획해야 합니다.
통계적 가설 작성
연구의 목표는 종종 인구 내의 변수 간의 관계를 조사하는 것입니다. 예측으로 시작하고 통계 분석을 사용하여 해당 예측을 테스트합니다.
통계 가설은 모집단에 대한 예측을 작성하는 공식적인 방법입니다. 모든 연구 예측은 샘플 데이터를 사용하여 테스트 할 수있는 무효 및 대체 가설로 변환됩니다.
귀무 가설은 항상 변수 간의 영향이 없거나 관계가 없음을 예측하지만 대립 가설은 효과 또는 관계에 대한 연구 예측을 나타냅니다.
연구 설계 계획
연구 설계는 데이터 수집 및 분석을 위한 전반적인 전략입니다. 그것은 당신이 나중에 가설을 테스트하는 데 사용할 수있는 통계 테스트를 결정합니다.
먼저,연구가 설명 적,상관 적 또는 실험적 디자인을 사용할지 여부를 결정하십시오. 실험은 변수에 직접적인 영향을 미치는 반면 설명 및 상관 연구는 변수 만 측정합니다.
- 실험 설계에서는 비교 또는 회귀에 대한 통계적 테스트를 사용하여 인과 관계(예:시험 점수에 대한 명상의 효과)를 평가할 수 있습니다.
- 상관 설계에서 변수 간의 관계를 탐색할 수 있습니다(예:,부모 소득 및 평점)상관 계수 및 유의성 테스트를 사용하여 인과 관계에 대한 가정없이.
- 서술적 설계에서는 통계 테스트를 사용하여 표본 데이터로부터 추론을 도출하여 인구 또는 현상의 특성(예:미국 대학생의 불안 유병률)을 연구 할 수 있습니다.
연구 설계는 또한 그룹 수준 또는 개인 수준 또는 둘 다에서 참가자를 비교할 것인지에 관한 것입니다.
- 피험자 간 설계에서 다른 치료법에 노출 된 참가자(예:명상 운동을 한 사람과 그렇지 않은 사람)의 그룹 수준 결과를 비교합니다.
- 피험자 내 디자인에서 연구의 모든 치료에 참여한 참가자의 반복 측정 값(예:명상 운동을 수행하기 전후의 점수)을 비교합니다.
- 실험적
- 상관관계
측정 변수
연구 설계를 계획할 때는 변수를 조작하고 측정 방법을 정확하게 결정해야 합니다.
통계 분석을 위해서는 변수의 측정 수준을 고려하는 것이 중요합니다.:
- 범주형 데이터는 그룹화를 나타냅니다. 이들은 명목상 일 수 있습니다(예: 성별)또는 서수(예:언어 능력 수준).
- 정량적 데이터는 금액을 나타냅니다. 이들은 간격 척도(예:시험 점수)또는 비율 척도(예:연령)일 수 있습니다.
다양한 변수를 다양한 정밀도 수준에서 측정할 수 있습니다. 예를 들어 연령 데이터는 양적(8 세)또는 범주 형(젊은)일 수 있습니다. 변수가 숫자로 코딩되는 경우(예:1-5 의 계약 수준)자동으로 범주 형 대신 정량적이라는 것을 의미하지는 않습니다.
측정 수준을 확인하는 것은 적절한 통계 및 가설 검정을 선택하는 데 중요합니다. 예를 들어 정량적 데이터로는 평균 점수를 계산할 수 있지만 범주형 데이터는 계산할 수 없습니다.
연구 조사에서 관심 변수의 측정과 함께 관련 참가자 특성에 대한 데이터를 수집하는 경우가 많습니다.
- 실험적
- 상관관계
변수 | 데이터 유형 |
---|---|
나이 | 양적(비율) |
성별 | 범주형(명목상) |
인종 또는 민족 | 범주형(명목상) |
기준 시험 점수 | 양적(간격) |
최종 시험 점수 | 양적(간격) |
변수 | 데이터 유형 |
---|---|
부모의 소득 | 양적(비율) |
평점 | 정량(간격) |
2 단계: 샘플에서 데이터 수집
대부분의 경우,공부에 관심이 있는 모집단의 모든 구성원으로부터 데이터를 수집하기가 너무 어렵거나 비용이 많이 듭니다. 대신 샘플에서 데이터를 수집합니다.
통계 분석을 통해 적절한 샘플링 절차를 사용하는 한 자신의 샘플 이외의 결과를 적용 할 수 있습니다. 당신은 인구의 대표 샘플을 목표로한다.
통계 분석을위한 샘플링
샘플을 선택하는 데는 두 가지 주요 접근법이 있습니다.
- 확률 샘플링:인구의 모든 구성원은 무작위 선택을 통해 연구를 위해 선택 될 가능성이 있습니다.
- 비 확률 표본 추출:인구의 일부 구성원은 편의 또는 자발적인 자기 선택과 같은 기준 때문에 연구를 위해 다른 구성원보다 선택 될 가능성이 더 큽니다.
이론적으로 매우 일반화 가능한 결과를 얻으려면 확률 샘플링 방법을 사용해야합니다. 무작위 선택은 샘플링 편향을 줄이고 샘플의 데이터가 실제로 모집단의 전형임을 보장합니다. 파라 메트릭 테스트는 확률 샘플링을 사용하여 데이터를 수집 할 때 강력한 통계 추론을 만드는 데 사용할 수 있습니다.
그러나 실제로는 이상적인 샘플을 수집하는 것이 거의 불가능합니다. 비 확률 샘플은 편향 될 가능성이 더 높지만 데이터를 모집하고 수집하는 것이 훨씬 쉽습니다. 비 파라 메트릭 테스트는 비 확률 표본에 더 적합하지만 모집단에 대한 추론이 약합니다.
비확률 표본에 대해 모수 검정을 사용하려면 다음과 같은 경우를 만들어야 합니다:
- 당신의 표본은 당신이 당신의 발견을 일반화하고 있는 인구의 대표적이다.
- 샘플에는 체계적인 편향이 없습니다.
외부 유효성은 샘플의 특성을 공유하는 다른 사람들에게만 결론을 일반화 할 수 있음을 의미합니다. 예를 들어,서구,교육받은,산업화 된,부유하고 민주적 인 샘플(예:,미국의 대학생)은 모든 비 이상한 인구에 자동으로 적용 할 수있는 것은 아닙니다.
비확률 표본의 데이터에 파라메트릭 검정을 적용하는 경우 토론 섹션에서 결과를 얼마나 일반화 할 수 있는지에 대한 한계에 대해 자세히 설명하십시오.
적절한 샘플링 절차 작성
연구에 사용할 수 있는 리소스를 기반으로 참가자 모집 방법을 결정합니다.
- 당신은 당신의 대학 환경의 외부 포함,널리 연구를 광고 할 수있는 자원이 있습니까?
- 당신은 광범위한 인구를 대표하는 다양한 샘플을 모집 할 수있는 수단이있을 것이다?
- 도달하기 어려운 그룹의 구성원과 연락하고 후속 조치를 취할 시간이 있습니까?
- 실험적
- 상관관계
충분한 표본 크기 계산
참가자를 모집하기 전에 해당 분야의 다른 연구를 보거나 통계를 사용하여 표본 크기를 결정하십시오. 너무 작은 샘플은 샘플을 대표하지 않을 수 있지만 너무 큰 샘플은 필요한 것보다 비용이 많이 듭니다.
온라인 샘플 크기 계산기가 많이 있습니다. 하위 그룹이 있는지 또는 연구가 얼마나 엄격한 지(예:임상 연구)에 따라 다른 공식이 사용됩니다. 일반적으로 하위 그룹당 최소 30 단위 이상이 필요합니다.
이 계산기를 사용하려면 이러한 주요 구성 요소를 이해하고 입력해야합니다:
- 유의 수준(알파):일반적으로 5%로 설정된 실제 귀무 가설을 거부 할 위험이 있습니다.
- 통계적 힘:연구가 특정 크기의 영향을 감지 할 확률(보통 80%이상).
- 예상 효과 크기: 연구의 예상 결과가 얼마나 큰지에 대한 표준화 된 표시는 일반적으로 다른 유사한 연구를 기반으로합니다.
- 모집단 표준 편차:이전 연구 또는 자신의 파일럿 연구를 기반으로 한 모집단 모수의 추정치입니다.
3 단계:기술 통계를 사용하여 데이터 요약
모든 데이터를 수집한 후에는 데이터를 검사하고 요약하는 기술 통계를 계산할 수 있습니다.
데이터 검사
다음을 포함하여 데이터를 검사하는 다양한 방법이 있습니다:
- 빈도 분포 테이블의 각 변수로부터 데이터를 구성합니다.
- 주요 변수의 데이터를 막대 차트에 표시하여 응답 분포를 확인합니다.
- 산점도를 사용하여 두 변수 간의 관계를 시각화합니다.
데이터를 표 및 그래프로 시각화하면 데이터가 기울어진 분포 또는 정규 분포를 따르는지 여부와 이상값 또는 누락된 데이터가 있는지 여부를 평가할 수 있습니다.
정규 분포는 데이터가 대부분의 값이 있는 중심 주위에 대칭적으로 분포되어 있고 꼬리 끝에서 값이 가늘어지는 것을 의미합니다.
의 평균,중앙값,모드 및 표준 편차 반면,비뚤어진 분포는 비대칭이며 한쪽 끝에 다른 쪽 끝보다 더 많은 값이 있습니다. 분포의 모양은 왜곡된 분포에서는 일부 기술 통계량만 사용해야 하므로 유의해야 합니다.
극단 이상치는 잘못된 통계를 생성 할 수 있으므로 이러한 값을 처리하기 위해 체계적인 접근 방식이 필요할 수 있습니다.
중심 경향 측정값 계산
중심 경향 측정값은 데이터 세트의 대부분의 값이 어디에 있는지 설명합니다. 중심 경향의 세 가지 주요 측정이 종종보고됩니다:
- 모드:데이터 세트에서 가장 많이 사용되는 응답 또는 값입니다.
- 중앙값: 낮은 값에서 높은 값으로 정렬될 때 데이터 세트의 정확한 중간에 있는 값입니다.
- 평균:모든 값의 합계를 값 수로 나눈 값입니다.
그러나,분포의 형상 및 측정 수준에 따라,이들 측정 중 하나 또는 두 개만이 적절할 수 있다. 예를 들어,많은 인구 통계 학적 특성은 모드 또는 비율을 사용하여 설명 될 수 있지만 반응 시간과 같은 변수는 모드를 전혀 가질 수 없습니다.
변동성 측정값 계산
변동성 측정값은 데이터 세트의 값이 얼마나 분산되어 있는지 알려줍니다. 변동성에 대한 네 가지 주요 측정이 종종보고됩니다:
- 범위:데이터 세트의 가장 높은 값에서 가장 낮은 값을 뺀 값입니다.
- 사분위수 범위:데이터 세트의 중간 절반 범위입니다.
- 표준 편차:데이터 세트의 각 값과 평균 사이의 평균 거리입니다.
- 분산:표준 편차의 제곱.
다시 한번,분포의 모양과 측정 수준은 변동성 통계의 선택을 안내해야합니다. 사분위수 범위는 비뚤어진 분포에 가장 적합한 측정값이며 표준 편차 및 분산은 정규 분포에 가장 적합한 정보를 제공합니다.
- 실험적
- 상관관계
표를 사용하여 기술 통계의 단위가 사전 테스트 및 사후 테스트 점수와 비교할 수 있는지 확인해야합니다. 예를 들어,분산 수준이 그룹 전체에서 비슷합니까? 어떤 극단적 인 값이 있습니까? 있는 경우 통계 테스트를 수행하기 전에 데이터 집합에서 극단적인 이상값을 식별 및 제거하거나 데이터를 변환해야 할 수 있습니다.
사전 테스트 점수 | 사후 테스트 점수 | |
---|---|---|
평균 | 68.44 | 75.25 |
표준 편차 | 9.43 | 9.88 |
분산 | 88.96 | 97.96 |
범위 | 36.25 | 45.12 |
엔 | 30 |
이 표에서 명상 운동 후 평균 점수가 증가하고 두 점수의 차이가 비슷하다는 것을 알 수 있습니다. 다음으로 통계 테스트를 수행하여 테스트 점수의 이러한 개선이 인구집단에서 통계적으로 유의한지 확인할 수 있습니다.
광범위한 데이터 요소가 있는지 확인하는 것이 중요합니다. 그렇지 않으면 데이터가 다른 그룹(예:높은 학업 성취 자)보다 일부 그룹으로 기울어 질 수 있으며 관계에 대한 제한된 추론 만 가능합니다.
부모의 소득(미화) | 평점 | |
---|---|---|
평균 | 62,100 | 3.12 |
표준 편차 | 15,000 | 0.45 |
분산 | 225,000,000 | 0.16 |
범위 | 8,000–378,000 | 2.64–4.00 |
엔 | 653 |
다음으로 상관 계수를 계산하고 통계 테스트를 수행하여 모집단의 변수 간의 관계의 중요성을 이해할 수 있습니다.
4 단계: 추론적 통계
로 가설을 테스트하거나 추정하기 샘플을 설명하는 숫자를 통계라고 하고 모집단을 설명하는 숫자를 모수라고 합니다. 추론 통계를 사용하여 표본 통계를 기반으로 모집단 모수에 대한 결론을 내릴 수 있습니다.
연구자들은 종종 통계에서 추론을하기 위해 두 가지 주요 방법(동시에)을 사용합니다.
- 추정:표본 통계를 기반으로 모집단 매개 변수 계산.
- 가설 검정: 샘플을 사용하여 모집단에 대한 연구 예측을 테스트하는 공식 프로세스입니다.
추정
표본 통계에서 두 가지 유형의 모집단 모수를 추정할 수 있습니다:
- 점 추정치:정확한 모수에 대한 최선의 추측을 나타내는 값입니다.
- 구간 추정치:모수가 어디에 있는지 가장 잘 추측할 수 있는 값의 범위입니다.
샘플 데이터에서 모집단 특성을 추론하고 보고하는 것이 목표라면 논문에서 점 및 구간 추정치를 모두 사용하는 것이 가장 좋습니다.
대표 표본이 있는 경우 표본 통계를 인구 모수에 대한 포인트 추정치로 간주할 수 있습니다(예:광범위한 여론 조사에서 현 정부를 지지하는 표본의 비율이 정부 지지자의 인구 비율로 간주됨).
추정에는 항상 오류가 있으므로 점 추정치 주변의 변동성을 표시하려면 구간 추정치로 신뢰 구간을 제공해야 합니다.
신뢰 구간은 표준 오차 및 지 표준 정규 분포의 점수를 사용하여 일반적으로 모집단 모수를 찾을 것으로 예상되는 위치를 전달합니다.
가설 검정
표본의 데이터를 사용하여 모집단의 변수 간의 관계에 대한 가설을 검정할 수 있습니다. 가설 검정은 귀무 가설이 모집단에서 참이라는 가정으로 시작하며 통계 검정을 사용하여 귀무 가설을 거부할 수 있는지 여부를 평가합니다.
통계 검정에서는 귀무 가설이 참일 경우 표본 데이터의 예상 분포에서 표본 데이터가 어디에 놓일지를 결정합니다. 이 테스트는 두 가지 주요 출력을 제공합니다:
- 검정 통계량은 검정 귀무 가설과 데이터가 얼마나 다른지 알려줍니다.
- 피 값은 귀무 가설이 모집단에서 실제로 참인 경우 결과를 얻을 가능성을 알려줍니다.
통계 테스트는 세 가지 주요 품종에 와서:
- 비교 테스트는 결과의 그룹 차이를 평가합니다.
- 회귀 테스트는 변수 간의 원인과 결과 관계를 평가합니다.
- 상관 테스트는 인과 관계를 가정하지 않고 변수 간의 관계를 평가합니다.
통계 테스트의 선택은 연구 질문,연구 설계,샘플링 방법 및 데이터 특성에 따라 다릅니다.
모수 검정
모수 검정 표본 데이터를 기반으로 모집단에 대한 강력한 추론을합니다. 그러나이를 사용하려면 몇 가지 가정을 충족해야하며 일부 유형의 변수 만 사용할 수 있습니다. 데이터가 이러한 가정을 위반하는 경우 적절한 데이터 변환을 수행하거나 대체 비모수 검정을 대신 사용할 수 있습니다.
회귀는 예측 변수의 변화가 결과 변수의 변화를 초래하는 정도를 모델링합니다.
- 단순 선형 회귀 분석에는 하나의 예측 변수와 하나의 결과 변수가 포함됩니다.
- 다중 선형 회귀 분석에는 둘 이상의 예측 변수 변수와 하나의 결과 변수가 포함됩니다.
비교 테스트는 일반적으로 그룹의 평균을 비교합니다. 이들은 샘플 내의 상이한 그룹의 수단(예를 들어,치료 및 대조군),상이한 시간에 취해진 하나의 샘플 그룹의 수단(예를 들어,사전 테스트 및 사후 테스트 점수),또는 샘플 평균 및 모집단 평균일 수 있다.
- 샘플이 작 으면(30 이하)정확히 1 또는 2 그룹에 대한 테스트입니다.
- 지 테스트는 샘플이 클 때 정확히 1 또는 2 그룹에 대한 테스트입니다.
- 분산 분석은 3 개 이상의 그룹에 대한 것입니다.
지 및 티 테스트에는 샘플의 수와 유형 및 가설을 기반으로 한 하위 유형이 있습니다:
- 모집단 평균과 비교할 표본이 하나만 있는 경우 표본이 하나인 검정을 사용합니다.
- 페어링된 측정값(피험자 내 설계)이 있는 경우 종속(페어링된)샘플 테스트를 사용합니다.
- 두 개의 타의 추종을 불허하는 그룹(피험자 간 설계)과 완전히 분리 된 측정이있는 경우 독립적 인 샘플 테스트를 사용하십시오.
- 특정 방향의 그룹 간 차이가 예상되는 경우 한 꼬리 테스트를 사용하십시오.
- 그룹 간 차이의 방향에 대한 기대가 없다면 양측 검정을 사용하십시오.상관 계수(아르 자형)는 두 양적 변수 간의 선형 관계의 강도를 알려줍니다.
그러나 샘플의 상관 관계가 모집단에서 중요 할만큼 충분히 강한지를 테스트하려면 상관 계수의 유의성 테스트(일반적으로 티 테스트)를 수행해야합니다. 이 검정은 표본 크기를 사용하여 모집단에서 상관 계수가 0 과 얼마나 다른지 계산합니다.
- 실험적
- 상관관계
5 단계: 결과 해석
통계 분석의 마지막 단계는 결과를 해석하는 것입니다.
통계적 유의성
가설 검정에서 통계적 유의성은 결론을 형성하는 주요 기준이다. 피 값을 설정된 유의 수준(일반적으로 0.05)과 비교하여 결과가 통계적으로 유의한지 중요하지 않은지 결정합니다.
통계적으로 유의미한 결과는 우연으로 인해 발생할 가능성이 거의 없는 것으로 간주된다. 귀무 가설이 모집단에서 참일 경우 이러한 결과가 발생할 확률은 매우 낮습니다.
- 실험적
- 상관관계
효과 크기
통계적으로 유의미한 결과가 반드시 중요한 실제 적용 또는 임상 결과가 있다는 것을 의미하지는 않습니다.
반대로 효과 크기는 결과의 실질적인 중요성을 나타냅니다. 결과의 전체 그림을 보려면 추론 통계와 함께 효과 크기를 보고하는 것이 중요합니다. 또한 효과 크기의 간격 추정치를 보고해야 합니다.
- 실험적
- 상관관계
의사결정 오류
제 1 형 및 제 2 형 오류는 연구 결론의 실수입니다. 제 1 형 오류는 귀무 가설이 실제로 사실 일 때 거절하는 것을 의미하는 반면,제 2 형 오류는 귀무 가설이 거짓 일 때 거절하지 못한다는 것을 의미합니다.
최적의 유의 수준을 선택하고 높은 전력을 보장하여 이러한 오류의 위험을 최소화하는 것을 목표로 할 수 있습니다. 그러나,이 두 오류 사이의 트레이드 오프,그래서 좋은 균형이 필요하다.
빈도주의자 대 베이지안 통계
전통적으로 빈도주의자 통계는 귀무가설 유의성 검정을 강조하고 항상 진정한 귀무가설을 가정하는 것으로 시작한다.
그러나 베이지안 통계는 지난 수십 년 동안 대체 접근법으로 인기가 높아졌습니다. 이 접근 방식에서는 이전 연구를 사용하여 기대치 및 관찰에 따라 가설을 지속적으로 업데이트합니다.
베이즈 인자는 귀무 가설을 거부하거나에 대한 결론을 만드는 것보다 대립 가설 대 널 증거의 상대 강도를 비교합니다.
통계분석에 관한 자주 묻는 질문
통계분석이란?통계 분석은 정량적 연구 데이터를 분석하는 주요 방법입니다. 확률 및 모델을 사용하여 샘플 데이터에서 모집단에 대한 예측을 테스트합니다.
설명 통계와 추론 통계의 차이점은 무엇입니까?기술 통계는 데이터 세트의 특성을 요약합니다. 추론 통계를 사용하면 가설을 테스트하거나 데이터가 광범위한 모집단에 일반화 가능한지 여부를 평가할 수 있습니다.
가설 테스트 란 무엇입니까?가설 검정은 통계를 사용하여 세계에 대한 우리의 생각을 조사하는 공식적인 절차입니다. 과학자들은 가설이라고 불리는 특정 예측을 테스트하기 위해 변수 간의 패턴이나 관계가 우연히 발생할 수있는 가능성을 계산하여 사용합니다.
무효 및 대체 가설이란 무엇입니까?통계적 가설 검정에서 검정의 귀무 가설은 항상 변수 간의 영향 또는 관계가 없음을 예측하고 대립 가설은 효과 또는 관계에 대한 연구 예측을 나타냅니다.
통계적 유의성이란 무엇입니까?통계적 유의성은 연구자들이 통계적 검정의 귀무 가설 하에서 관찰이 일어날 가능성이 거의 없다고 말하는 데 사용되는 용어입니다. 중요성은 일반적으로 피-값 또는 확률 값.
통계적 유의성은 임의적입니다-연구자가 선택한 임계 값 또는 알파 값에 따라 다릅니다. 이는 귀무 가설에서 데이터가 5%미만일 가능성이 있음을 의미합니다.
피-값이 선택된 알파 값 아래로 떨어지면 테스트 결과가 통계적으로 유의하다고 말합니다.