- 마지막 업데이트
- PDF로 저장
- 페이지 ID
- 221819
- 데이비드 하비
- 드포 대학
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}}}\) \( \newcommand{\vecd}[1]{\overset{-\!- \!\rightharpoonup}{\vphantom{a}\smash{#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{ 범위}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{범위}\,}\) \( \newcommand{\RealPart }{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\ 규범}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm {span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\ mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{범위}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{ \ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{ \유니코드[.8,0]{x212B}}\)
정규 분포는 우리가 수집하는 데이터에 대한 가장 일반적인 분포입니다. 정규 분포 곡선의 두 한계 사이의 영역이 잘 정의되어 있기 때문에 유의성 테스트를 구성하고 평가하는 것이 간단합니다.
메모
5장과 6장에서 정규 분포의 속성을 검토할 수 있습니다.
\(\overline{X}\)와 \(\mu\) 비교
새로운 분석 방법을 검증하는 한 가지 방법은 알려진 양의 분석 물질 \(\mu\)을 포함하는 샘플을 분석하는 것입니다. 방법의 정확성을 판단하기 위해 샘플의 여러 부분을 분석하고 샘플의 분석 물질의 평균 양을 결정하고 \(\overline{X}\)를 비교하기 위해 유의성 테스트를 사용합니다. \(\뮤\)로. 귀무 가설은 \(\overline{X}\) \(\mu\)는 \(\overline{X}\) 결정에 영향을 미치는 불확실한 오류로 설명됩니다. 대체 가설은 \(\overline{X}\) \(\mu\)는 불확정 오류로 설명하기에는 너무 큽니다.
\[H_0 \text{: } \overline{X} = \mu \nonumber\]
\[H_A \text{: } \overline{X} \neq \mu \nonumber\]
테스트 통계는티경험치, \(\mu\)에 대한 신뢰 구간으로 대체합니다.
\[\mu = \overline{X} \pm \frac {t_\text{exp} s} {\sqrt{n}} \nonumber\]
이 방정식을 재배열하고 \(t_\text{exp}\)를 풀면
\[t_\text{exp} = \frac {|\mu - \overline{X}| \sqrt{n}} {s} \nonumber\]
\(\mu\)가 샘플 신뢰 구간의 오른쪽 가장자리 또는 왼쪽 가장자리에 있을 때 \(t_\text{exp}\)에 대한 값을 제공합니다(그림 \(\PageIndex{1a}\)).

귀무 가설을 유지해야 하는지 아니면 기각해야 하는지 결정하기 위해 다음 값을 비교합니다.티경험치여기서 \(\alpha\)는 신뢰 수준이고 \(\nu\)는 샘플의 자유도입니다. 임계값 \(t(\alpha, \nu)\)는 불확정 오류로 설명되는 최대 신뢰 구간을 정의합니다. \(t_\text{exp} > t(\alpha, \nu)\)인 경우 샘플의 신뢰 구간은 불확정 오류로 설명되는 것보다 큽니다(그림 \(\PageIndex{1}\)b). 이 경우 귀무가설을 기각하고 대립가설을 채택합니다. \(t_\text{exp} \leq t(\alpha, \nu)\)이면 표본의 신뢰 구간은 불확정 오류로 설명되는 것보다 작고 귀무 가설을 유지합니다(그림 \(\PageIndex{1 }\)씨). 예 \(\PageIndex{1}\)는 이 유의성 테스트의 일반적인 애플리케이션을 제공합니다.티- \(\overline{X}\)에서 \(\mu\)까지의 테스트. 부록 2에서 \(t(\alpha, \nu)\)에 대한 값을 찾을 수 있습니다.
예 \(\PageIndex{1}\)
Na의 양을 결정하기 전에2CO삼샘플에서 98.76% w/w Na인 표준 샘플을 분석하여 절차를 확인하기로 결정했습니다.2CO삼. %w/w Na의 5회 반복 측정2CO삼표준에서 다음과 같은 결과를 제공합니다
\(98.71 \% \쿼드 98.59 \% \쿼드 98.62 \% \쿼드 98.44 \% \쿼드 98.58 \%\)
\(\alpha = 0.05\)를 사용하여 분석 결과가 부정확하다는 증거가 있습니까?
해결책
다섯 번의 시도에 대한 평균 및 표준 편차는 다음과 같습니다.
\[\overline{X} = 98.59 \quad \quad \quad s = 0.0973 \nonumber\]
표준에 대한 결과가 \(\mu\)보다 크거나 작아야 한다고 믿을 이유가 없기 때문에 양측티-테스트가 적합합니다. 귀무 가설과 대립 가설은 다음과 같습니다.
\[H_0 \text{: } \overline{X} = \mu \quad \quad \quad H_\text{A} \text{: } \overline{X} \neq \mu \nonumber\]
테스트 통계,티경험치, 이다
\[t_\text{exp} = \frac {|\mu - \overline{X}|\sqrt{n}} {2} = \frac {|98.76 - 98.59| \sqrt{5}} {0.0973} = 3.91 \nonumber\]
에 대한 임계 값티부록 2의 (0.05, 4)는 2.78입니다. 부터티경험치보다 크다티(0.05, 4), 귀무가설을 기각하고 대립가설을 채택합니다. 95% 신뢰 수준에서 \(\overline{X}\) 그리고 \(\mu\)는 불확실한 오류 원인으로 설명하기에는 너무 커서 분석에 영향을 미치는 명확한 오류 원인이 있음을 나타냅니다.
메모
이 결과를 해석하는 또 다른 방법이 있습니다.티-시험. 그것을 아는 것은티경험치가 3.91이고 자유도가 4이므로 부록 2를 사용하여 a에 해당하는 \(\alpha\) 값을 추정합니다.티(\(\알파\), 4)/3.91. 부록 2에서,티(0.02, 4)는 3.75이고티(0.01, 4)는 4.60입니다. 98% 신뢰 수준에서 귀무가설을 기각할 수 있지만 99% 신뢰 수준에서는 기각할 수 없습니다. 이 접근법의 장점에 대한 논의는 J. A. C. Sterne 및 G. D. Smith "Sifting the evidence—what's wrong with meaning test?"를 참조하십시오.비엠제이2001년,322, 226–231.
앞서 우리는 통계 분석 결과를 해석할 때 주의를 기울여야 한다는 점을 지적했습니다. 중요하기 때문에 이 시점으로 계속 돌아갈 것입니다. 예 \(\PageIndex{1}\)에서와 같이 결과가 부정확하다고 판단되면 다음 단계는 오류를 식별하고 수정하는 것입니다. 그러나 여기에 시간과 비용을 들이기 전에 먼저 데이터를 비판적으로 검토해야 합니다. 예를 들어 값이 작을수록에스, 값이 클수록티경험치. 분석의 표준 편차가 비현실적으로 작으면 제2종 오류의 확률이 높아집니다. 표준에 대한 몇 가지 추가 반복 분석을 포함하고티-테스트는 확정 오류에 대한 증거를 강화하거나 확정 오류에 대한 증거가 없음을 보여줄 수 있습니다.
\(s^2\)와 \(\sigma^2\) 비교
특정 샘플을 정기적으로 분석하면 분석에 대한 예상 분산 \(\sigma^2\)을 설정할 수 있습니다. 예를 들어, 매일 수백 개의 혈액 샘플을 분석하는 임상 실험실의 경우가 종종 있습니다. 단일 샘플의 몇 가지 반복 분석은 샘플 분산을 제공합니다.에스2, 그 값은 \(\sigma^2\)와 크게 다를 수도 있고 그렇지 않을 수도 있습니다.
우리는 사용할 수 있습니다에프-차이가 있는지 평가하기 위한 테스트에스2 그리고 \(\sigma^2\)는 중요합니다. 귀무가설은 \(H_0 \text{: } s^2 = \sigma^2\)이고 대립가설은 \(H_\text{A} \text{: } s^2 \neq \sigma^2\입니다. ). 귀무 가설을 평가하기 위한 검정 통계량은 다음과 같습니다.에프경험치, 이는 다음 중 하나로 지정됩니다.
\[F_\text{exp} = \frac {s^2} {\sigma^2} \text{ if } s^2 > \sigma^2 \text{ 또는 } F_\text{exp} = \frac { \sigma^2} {s^2} \text{ if } \sigma^2 > s^2 \nonumber\]
여부에 따라에스2\(\sigma^2\)보다 크거나 작습니다. 이렇게 정의하는 방법에프경험치값이 항상 1보다 크거나 같도록 합니다.
귀무가설이 참이면에프경험치1과 같아야 합니다. 그러나 불확실한 오류로 인해에프경험치, 일반적으로 1보다 큽니다. 임계값 \(F(\alpha, \nu_\text{num}, \nu_\text{den})\)는 다음 중 가장 큰 값입니다.에프경험치지정된 유의 수준 \(\alpha\), 분자의 분산에 대한 자유도, 분모의 분산이 주어졌을 때 불확정 오류의 원인이 될 수 있습니다. , \(\nu_\text{덴}\). 에 대한 자유도에스2 ~이다N– 1, 여기서N는 샘플의 분산을 결정하는 데 사용되는 반복 횟수이며 \(\sigma^2\)의 자유도는 무한대 \(\infty\)로 정의됩니다. 임계값에프\(\alpha = 0.05\)는 한쪽 꼬리 및 양쪽 꼬리 모두에 대해 부록 3에 나열되어 있습니다.에프-테스트.
예 \(\PageIndex{2}\)
아스피린 정제를 분석하기 위한 제조업체의 공정에는 25의 알려진 분산이 있습니다. 10개의 아스피린 정제 샘플을 선택하고 아스피린의 양에 대해 분석하여 mg 아스피린/정으로 다음 결과를 산출합니다.
\(254 \쿼드 249 \쿼드 252 \쿼드 252 \쿼드 249 \쿼드 249 \쿼드 250 \쿼드 247 \쿼드 251 \쿼드 252\)
\(\alpha = 0.05\)에서 표본의 분산과 예상 분산 사이에 상당한 차이가 있다는 증거가 있는지 확인합니다.
해결책
10개의 정제 샘플에 대한 분산은 4.3입니다. 귀무 가설과 대립 가설은 다음과 같습니다.
\[H_0 \text{: } s^2 = \sigma^2 \quad \quad \quad H_\text{A} \text{: } s^2 \neq \sigma^2 \nonumber\]
에 대한 값에프경험치~이다
\[F_\text{exp} = \frac {\sigma^2} {s^2} = \frac {25} {4.3} = 5.8 \nonumber\]
에 대한 임계 값에프(0.05, \(\infty\), 9)는 부록 3에서 3.333입니다. 부터에프경험치 보다 크다에프(0.05, \(\infty\), 9), 귀무가설을 기각하고 표본의 분산과 예상 분산 사이에 상당한 차이가 있다는 대립가설을 채택합니다. 차이점에 대한 한 가지 설명은 아스피린 정제가 무작위로 선택되지 않았기 때문일 수 있습니다.
두 표본의 분산 비교
우리는 연장할 수 있습니다에프- 두 샘플의 분산을 비교하기 위한 테스트,ㅏ그리고비에 대한 방정식을 다시 작성하여에프경험치~처럼
\[F_\text{exp} = \frac {s_A^2} {s_B^2} \nonumber\]
정의ㅏ그리고비의 값이에프경험치1보다 크거나 같습니다.
예 \(\PageIndex{3}\)
아래 표는 유통되는 미국 페니의 질량을 결정하기 위한 두 가지 실험의 결과를 보여줍니다. \(\alpha = 0.05\)에서 이러한 분석의 분산에 차이가 있는지 확인합니다.
첫 번째 실험 | 두 번째 실험 | ||
---|---|---|---|
페니 | 질량(g) | 페니 | 질량(g) |
1 | 3.080 | 1 | 3.052 |
2 | 3.094 | 2 | 3.141 |
삼 | 3.107 | 삼 | 3.083 |
4 | 3.056 | 4 | 3.083 |
5 | 3.112 | 5 | 3.048 |
6 | 3.174 | ||
7 | 3.198 |
해결책
두 실험의 표준 편차는 첫 번째 실험에서 0.051(ㅏ) 및 두 번째 실험의 경우 0.037(비). 귀무 가설과 대립 가설은 다음과 같습니다.
\[H_0 \text{: } s_A^2 = s_B^2 \quad \quad \quad H_\text{A} \text{: } s_A^2 \neq s_B^2 \nonumber\]
의 값에프경험치~이다
\[F_\text{exp} = \frac {s_A^2} {s_B^2} = \frac {(0.051)^2} {(0.037)^2} = \frac {0.00260} {0.00137} = 1.90 \ 숫자 없음\]
부록 3에서에프(0.05, 6, 4)는 9.197입니다. 왜냐하면에프경험치<에프(0.05, 6, 4) 귀무가설을 유지합니다. \(\alpha = 0.05\)에는 분산의 차이가 중요하다는 증거가 없습니다.
두 표본에 대한 평균 비교
분석 결과에 영향을 미치는 세 가지 요소는 방법, 샘플 및 분석가입니다. 우리는 다른 요인을 일정하게 유지하면서 한 요인을 변경하는 실험을 수행함으로써 이러한 요인의 영향을 연구할 수 있습니다. 예를 들어 두 가지 분석 방법을 비교하기 위해 동일한 분석가가 각 방법을 동일한 샘플에 적용한 다음 결과 평균을 조사하도록 할 수 있습니다. 유사한 방식으로 두 분석가를 비교하거나 두 샘플을 비교하는 실험을 설계할 수 있습니다.
두 표본의 평균을 비교하기 위한 유의성 검정을 고려하기 전에 짝이 없는 데이터와 쌍이 있는 데이터의 차이점을 이해해야 합니다. 이것은 중요한 구분이며 이 두 가지 유형의 데이터를 구별하는 방법을 배우는 것이 중요합니다. 다음은 쌍을 이루지 않은 데이터와 쌍을 이룬 데이터의 차이점을 강조하는 두 가지 간단한 예입니다. 각 예에서 목표는 동전의 무게를 달아 두 개의 저울을 비교하는 것입니다.
- 예 1: 우리는 10페니를 모으고 각 페니의 무게를 각 저울에 달았습니다. 이것은 각 잔액을 평가하는 데 동일한 10페니를 사용하기 때문에 쌍을 이룬 데이터의 예입니다.
- 예 2: 우리는 10페니를 모아 각각 5페니씩 두 그룹으로 나눕니다. 우리는 한 저울에서 첫 번째 그룹의 페니의 무게를 측정하고 다른 저울에서 두 번째 그룹의 페니의 무게를 잰다. 양쪽 저울에서 페니의 무게를 잰다는 점에 유의하십시오. 서로 다른 페니 샘플을 사용하여 각 잔액을 평가하기 때문에 이것은 짝이 없는 데이터의 예입니다.
두 예 모두 동일한 모집단에서 10페니의 표본을 추출했습니다. 차이점은 해당 모집단을 샘플링한 방법입니다. 쌍 데이터에 대한 유의성 테스트를 검토할 때 이러한 구별이 중요한 이유를 배우게 됩니다. 그러나 먼저 페어링되지 않은 데이터에 대한 유의성 테스트를 제시합니다.
메모
데이터가 짝을 이루는지 짝을 이루지 않는지를 결정하는 한 가지 간단한 테스트는 각 샘플의 크기를 보는 것입니다. 샘플의 크기가 다른 경우 데이터는 쌍을 이루어야 합니다. 그 반대는 사실이 아닙니다. 두 샘플의 크기가 같으면 쌍을 이루거나 쌍을 이루지 않을 수 있습니다.
페어링되지 않은 데이터
두 가지 분석을 고려하십시오.ㅏ그리고비, \(\overline{X}_A\) 및 \(\overline{X}_B\) 및 표준 편차에스ㅏ 그리고에스비. \(\mu_A\) 및 \(\mu_B\)에 대한 신뢰 구간은 다음과 같습니다.
\[\mu_A = \overline{X}_A \pm \frac {t s_A} {\sqrt{n_A}} \nonumber\]
\[\mu_B = \overline{X}_B \pm \frac {t s_B} {\sqrt{n_B}} \nonumber\]
어디Nㅏ그리고N비에 대한 샘플 크기입니다.ㅏ그리고비. 우리의 귀무 가설 \(H_0 \text{: } \mu_A = \mu_B\)는 \(\mu_A\)와 \(\mu_B\) 사이의 차이가 분석에 영향을 미치는 불확정 오류의 결과입니다. 대안 가설 \(H_A \text{: } \mu_A \neq \mu_B\)는 \(\mu_A\)와 \(\mu_B\)의 차이가 너무 커서 불확정 오류로 설명할 수 없다는 것입니다.
에 대한 방정식을 유도하려면티경험치, 우리는 \(\mu_A\)가 \(\mu_B\)와 같다고 가정하고 두 신뢰 구간에 대한 방정식을 결합합니다.
\[\overline{X}_A \pm \frac {t_\text{exp} s_A} {\sqrt{n_A}} = \overline{X}_B \pm \frac {t_\text{exp} s_B} {\ sqrt{n_B}} \숫자 없음\]
\(|\overline{X}_A - \overline{X}_B|\)에 대해 풀고 불확실성 전파를 사용하면
\[|\overline{X}_A - \overline{X}_B| = t_\text{exp} \times \sqrt{\frac {s_A^2} {n_A} + \frac {s_B^2} {n_B}} \nonumber\]
마지막으로, 우리는티경험치
\[t_\text{exp} = \frac {|\overline{X}_A - \overline{X}_B|} {\sqrt{\frac {s_A^2} {n_A} + \frac {s_B^2} {n_B}}} \숫자 없음\]
임계값 \(t(\alpha, \nu)\)와 비교합니다. 여기서 \(\alpha\)는 제1종 오류의 확률이고 \(\nu\)는 자유도입니다.
지금까지 우리의 개발티-test는 \(\overline{X}\)와 \(\mu\)를 비교하는 것과 유사하지만 아직 평가할 정보가 충분하지 않습니다.티-시험. 문제가 보이십니까? 두 개의 독립적인 데이터 세트를 사용하면 얼마나 많은 자유도를 가질 수 있는지 명확하지 않습니다.
분산 \(s_A^2\) 및 \(s_B^2\)가 동일한 \(\sigma^2\)의 추정치를 제공한다고 가정합니다. 이 경우 \(s_A^2\) 및 \(s_B^2\)를 바꿀 수 있습니다. 분산에 대한 더 나은 추정치인 \(s_\text{pool}^2\)와 함께 풀링된 분산을 사용합니다. 따라서 \(t_\text{exp}\)에 대한 방정식은
\[t_\text{exp} = \frac {|\overline{X}_A - \overline{X}_B|} {s_\text{pool} \times \sqrt{\frac {1} {n_A} + \ frac {1} {n_B}}} = \frac {|\overline{X}_A - \overline{X}_B|} {s_\text{pool}} \times \sqrt{\frac {n_A n_B} {n_A + n_B}} \숫자 없음\]
어디에스수영장, 합동 표준 편차는 다음과 같습니다.
\[s_\text{풀} = \sqrt{\frac {(n_A - 1) s_A^2 + (n_B - 1)s_B^2} {n_A + n_B - 2}} \nonumber\]
이 방정식의 분모는 풀링된 표준 편차의 자유도가 \(n_A + n_B - 2\)임을 보여줍니다.티-시험. \(s_A^2\) 및 \(s_B^2\)에 대한 계산으로 인해 2개의 자유도를 잃게 됩니다. \(\overline{X}_A\) 및 \(\overline{X}_B\)의 사전 계산이 필요합니다.
메모
그렇다면 분산을 합산해도 되는지 어떻게 판단합니까? 사용에프-시험.
\(s_A^2\) 및 \(s_B^2\)인 경우 크게 다른 경우 다음을 계산합니다.티경험치다음 방정식을 사용하여. 이 경우 다음 부과 방정식을 사용하여 자유도를 찾습니다.
\[\nu = \frac {\left( \frac {s_A^2} {n_A} + \frac {s_B^2} {n_B} \right)^2} {\frac {\left( \frac {s_A^ 2} {n_A} \right)^2} {n_A + 1} + \frac {\left( \frac {s_B^2} {n_B} \right)^2} {n_B + 1}} - 2 \없음\ ]
자유도는 정수여야 하므로 이 방정식에서 얻은 \(\nu\) 값을 가장 가까운 정수로 반올림합니다.
메모
자유도에 대한 위의 방정식은밀러, J.C.; 밀러, J.N.분석 화학 통계, 2nd Ed., Ellis-Horward: Chichester, UK, 1988. 6판에서 저자는 다음의 자유도에 대해 몇 가지 다른 방정식이 제안되었음을 언급합니다.티언제에스ㅏ그리고에스비자유도의 결정이 근사치라는 사실을 반영하여 다릅니다. R, Minitab, Excel과 같은 통계 소프트웨어 패키지에서 사용하는 대체 방정식은 다음과 같습니다.
\[\nu = \frac {\left( \frac {s_A^2} {n_A} + \frac {s_B^2} {n_B} \right)^2} {\frac {\left( \frac {s_A^ 2} {n_A} \right)^2} {n_A - 1} + \frac {\left( \frac {s_B^2} {n_B} \right)^2} {n_B - 1}} = \frac {\ 왼쪽( \frac {s_A^2} {n_A} + \frac {s_B^2} {n_B} \right)^2} {\frac {s_A^4} {n_A^2(n_A - 1)} + \frac {s_B^4} {n_B^2(n_B - 1)}} \nonumber\]
분석 화학의 일반적인 문제의 경우 계산된 자유도는 방정식 선택에 상당히 둔감합니다.
우리가 어떻게 계산하든 상관없이티경험치, 다음과 같은 경우 귀무 가설을 기각합니다.티경험치\(t(\alpha, \nu)\)보다 크고 다음과 같은 경우 귀무 가설을 유지합니다.티경험치\(t(\alpha, \nu)\)보다 작거나 같습니다.
예 \(\PageIndex{4}\)
예 \(\PageIndex{3}\)는 유통되는 미국 페니의 질량을 결정하기 위한 두 가지 실험에 대한 결과를 제공합니다. \(\alpha = 0.05\)에서 이러한 분석의 평균에 차이가 있는지 확인합니다.
해결책
먼저 우리는에프- 우리가 분산을 풀 수 있는지 여부를 결정하기 위해 테스트합니다. 예 \(\PageIndex{3}\)에서 이 분석을 완료했지만 유의미한 차이가 없다는 증거를 찾지 못했습니다.
\[s_\text{풀} = \sqrt{\frac {(7 - 1)(0.051)^2 + (5 - 1)(0.037)^2} {7 + 5 - 2}} = 0.0459 \nonumber\ ]
10 자유도. 수단을 비교하기 위해 다음 귀무가설과 대립가설을 사용합니다.
\[H_0 \text{: } \mu_A = \mu_B \quad \quad \quad H_A \text{: } \mu_A \neq \mu_B \nonumber\]
합동 표준 편차를 사용하고 있기 때문에 다음을 계산합니다.티경험치~처럼
\[t_\text{exp} = \frac {|3.117 - 3.081|} {0.0459} \times \sqrt{\frac {7 \times 5} {7 + 5}} = 1.34 \nonumber\]
에 대한 임계 값티(0.05, 10)은 부록 2에서 2.23입니다. 왜냐하면티경험치보다 작다티(0.05, 10) 귀무가설을 유지합니다. \(\alpha = 0.05\)의 경우 두 동전 세트가 크게 다르다는 증거가 없습니다.
예 \(\PageIndex{5}\)
%w/w Na를 결정하는 한 가지 방법2CO삼소다회에서 산-염기 적정을 사용하는 것입니다. 두 명의 분석가가 동일한 소다회 샘플을 분석하면 여기에 표시된 결과를 얻습니다.
애널리스트 A: \(86.82 \% \quad 87.04 \% \quad 86.93 \% \quad 87.01 \% \quad 86.20 \% \quad 87.00 \%\)
분석가 B: \(81.01 \% \quad 86.15 \% \quad 81.73 \% \quad 83.19 \% \quad 80.27 \% \quad 83.93 \% \quad\)
평균값의 차이가 \(\alpha = 0.05\)에서 유의미한지 확인합니다.
해결책
각 분석가의 평균 및 표준 편차를 보고하는 것으로 시작합니다.
\[\overline{X}_A = 86.83\% \quad \quad s_A = 0.32\% \nonumber\]
\[\overline{X}_B = 82.71\% \quad \quad s_B = 2.16\% \nonumber\]
합동 표준 편차를 사용할 수 있는지 여부를 결정하기 위해 먼저에프- 다음 귀무가설과 대립가설을 사용하여 검정합니다.
\[H_0 \text{: } s_A^2 = s_B^2 \quad \quad \quad H_A \text{: } s_A^2 \neq s_B^2 \nonumber\]
계산 중에프경험치, 우리는
\[F_\text{exp} = \frac {(2.16)^2} {(0.32)^2} = 45.6 \nonumber\]
왜냐하면에프경험치에 대한 임계값 7.15보다 큽니다.에프(0.05, 5, 5) 부록 3에서 귀무가설을 기각하고 분산 간에 상당한 차이가 있다는 대체가설을 채택합니다. 따라서 합동 표준 편차를 계산할 수 없습니다.
두 분석가의 평균을 비교하기 위해 다음 귀무가설과 대립가설을 사용합니다.
\[H_0 \text{: } \overline{X}_A = \overline{X}_B \quad \quad \quad H_A \text{: } \overline{X}_A \neq \overline{X}_B \nonumber\ ]
표준 편차를 합칠 수 없기 때문에 다음을 계산합니다.티경험치~처럼
\[t_\text{exp} = \frac {|86.83 - 82.71|} {\sqrt{\frac {(0.32)^2} {6} + \frac {(2.16)^2} {6}}} = 4.62 \숫자 없음\]
자유도를 다음과 같이 계산합니다.
\[\nu = \frac {\left( \frac {(0.32)^2} {6} + \frac {(2.16)^2} {6} \right)^2} {\frac {\left( \ frac {(0.32)^2} {6} \right)^2} {6 + 1} + \frac {\left( \frac {(2.16)^2} {6} \right)^2} {6 + 1}} - 2 = 5.3 \약 5 \없음\]
부록 2에서티(0.05, 5)는 2.57입니다. 왜냐하면티경험치보다 크다티(0.05, 5) 우리는 귀무가설을 기각하고 두 분석가의 평균이 \(\alpha = 0.05\)에서 상당히 다르다는 대립가설을 받아들입니다.
페어링된 데이터
환자의 혈당 농도를 모니터링하는 새로운 방법을 평가한다고 가정합니다. 새로운 방법을 평가할 때 중요한 부분은 기존 방법과 비교하는 것입니다. 이 연구를 위한 데이터를 수집하는 가장 좋은 방법은 무엇입니까? 환자들 사이의 혈당 수준의 변동이 크기 때문에 우리는 각 방법에 대한 데이터를 수집하기 위해 다른 환자를 사용하는 경우 방법 간에 작지만 중요한 차이를 감지하지 못할 수 있습니다. 두 가지 방법을 사용하여 각 환자의 혈액을 분석하는 쌍 데이터를 사용하면 모집단 내의 큰 분산이티-수단 테스트.
메모
대부분의 비당뇨병 환자의 일반적인 혈당 수치는 80~120mg/dL(4.4~6.7mM)이며 식후에는 140mg/dL(7.8mM)까지 올라갑니다. 당뇨병 전단계 또는 당뇨병 환자에게는 더 높은 수치가 일반적입니다.
페어링된 데이터를 사용할 때 먼저 개인차를 계산합니다.디나, 각 샘플 쌍 resykts 사이. 이러한 개인차를 사용하여 평균 차이 \(\overline{d}\)와 차이의 표준 편차를 계산합니다.에스디. 귀무가설 \(H_0 \text{: } d = 0\)은 두 표본 사이에 차이가 없다는 것이며, 대립가설 \(H_A \text{: } d \neq 0\)은 다음과 같습니다. 두 샘플 간의 차이가 중요하다는 것입니다.
테스트 통계,티경험치, \(\overline{d}\) 주변의 신뢰 구간에서 파생됩니다.
\[t_\text{exp} = \frac {|\overline{d}| \sqrt{n}} {s_d} \nonumber\]
어디N쌍을 이룬 샘플의 수입니다. 다른 형식의 경우에도 마찬가지입니다.티-테스트, 우리는 비교티경험치\(t(\alpha, \nu)\)로, 여기서 자유도 \(\nu\)는N– 1. 만약티경험치가 \(t(\alpha, \nu)\)보다 크면 귀무가설을 기각하고 대립가설을 채택합니다. 다음과 같은 경우 귀무 가설을 유지합니다.티경험치작거나 같음티(가, 오). 이것은 대응 t-검정으로 알려져 있습니다.
예 \(\PageIndex{6}\)
Marecek et. 알. 발효 통에서 항생제 모넨신의 농도를 신속하게 측정하기 위한 새로운 전기화학적 방법을 개발했습니다[Marecek, V.; Janchenova, H.; Brezina, M.; 베티, M.항문. 침. 악타1991년,244, 15–19]. 분석을 위한 표준 방법은 완료하기 어렵고 시간이 많이 걸리는 미생물 활성 테스트입니다. 생산 동안 다양한 시간에 발효 통에서 샘플을 수집하고 두 가지 방법을 사용하여 모넨신의 농도를 분석했습니다. 천분율(ppt) 단위의 결과가 다음 표에 보고됩니다.
견본 | 미생물학적 | 전기화학 |
---|---|---|
1 | 129.5 | 132.3 |
2 | 89.6 | 91.0 |
삼 | 76.6 | 73.6 |
4 | 52.2 | 58.2 |
5 | 110.8 | 104.2 |
6 | 50.4 | 49.9 |
7 | 72.4 | 82.1 |
8 | 141.4 | 154.1 |
9 | 75.0 | 73.4 |
10 | 34.1 | 38.1 |
11 | 60.3 | 60.1 |
\(\alpha = 0.05\)에서 방법 간에 상당한 차이가 있습니까?
해결책
장기간에 걸쳐 샘플을 수집하면 모넨신 농도에 상당한 시간 의존적 변화가 발생합니다. 샘플 간의 농도 편차가 너무 크기 때문에 paired를 사용합니다.티-다음 귀무가설과 대립가설로 테스트합니다.
\[H_0 \text{: } \overline{d} = 0 \quad \quad \quad H_A \text{: } \overline{d} \neq 0 \nonumber\]
방법의 차이점을 다음과 같이 정의
\[d_i = (X_\text{선택})_i - (X_\text{마이크로})_i \nonumber\]
각 샘플의 차이를 계산합니다.
견본 | 1 | 2 | 삼 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
\(d_i\) | 2.8 | 1.4 | -3.0 | 6.0 | -6.6 | -0.5 | 9.7 | 12.7 | -1.6 | 4.0 | -0.2 |
차이의 평균과 표준 편차는 각각 2.25ppt와 5.63ppt입니다. 의 가치티경험치~이다
\[t_\text{exp} = \frac {|2.25| \sqrt{11}} {5.63} = 1.33 \nonumber\]
에 대한 임계 값 2.23보다 작습니다.티부록 2에서 (0.05, 10). 우리는 귀무가설을 유지하고 \(\alpha = 0.05\)에서 방법의 유의미한 차이에 대한 증거를 찾지 못했습니다.
한 쌍의 중요한 요구 사항티-시험은 분석에 영향을 미치는 확정 및 불확정 오차가 분석 물질의 농도와 무관해야 한다는 것입니다. 그렇지 않은 경우, 비정상적으로 높은 농도의 분석 물질을 가진 샘플은 비정상적으로 큰디나. \(\overline{d}\) 계산에 이 샘플 포함 그리고에스디 예상 평균 및 표준 편차에 대한 편향된 추정치를 제공합니다. 이는 예 \(\PageIndex{4}\) 또는 연습 \(\PageIndex{6}\)과 같이 제한된 범위의 분석 물질 농도에 걸쳐 있는 샘플의 경우 거의 문제가 되지 않습니다. 그러나 쌍을 이룬 데이터가 광범위한 농도에 걸쳐 있는 경우 확정 및 불확정 오류 원인의 크기는 분석 물질의 농도와 독립적이지 않을 수 있습니다. true인 경우 페어링티-test는 가장 큰 절대 확정 및 불확정 오류가 있는 쌍 데이터가 \(\overline{d}\)를 지배하기 때문에 잘못된 결과를 제공할 수 있습니다. 이런 상황에서 다음 장의 주제인 회귀 분석이 데이터를 비교하는 데 더 적합한 방법입니다.
메모
짝이 있는 데이터와 짝이 없는 데이터를 구별하는 것의 중요성은 더 면밀히 검토할 가치가 있습니다. 다음은 공기-물 경계면과 퇴적물-물 경계면에서 Erie 호수의 Zn 농도를 관찰하면서 동료와 함께 완료한 일부 작업의 데이터입니다.
샘플 사이트 | 공기-물 인터페이스에서 ppm Zn | 침전물-물 경계면에서 ppm Zn |
1 | 0.430 | 0.415 |
2 | 0.266 | 0.238 |
삼 | 0.457 | 0.390 |
4 | 0.531 | 0.410 |
5 | 0.707 | 0.605 |
6 | 0.716 | 0.609 |
공기-물 경계면에서 ppm Zn에 대한 평균 및 표준편차는 0.5178 ppm 및 0.01732 ppm이고, 침전물-물 경계면에서 ppm Zn에 대한 평균 및 표준편차는 0.4445 ppm 및 0.1418 ppm이다. 이 값을 사용하여 샘플의 평균과 표준편차 \(\overline{X}\) 및 \(s\)를 평균에 대한 추정치로 사용하고 표준편차에 대한 정규분포를 그릴 수 있습니다. 모집단 \(\mu\) 및 \(\sigma\). 다음 그림에서 볼 수 있듯이
두 분포가 강하게 겹치므로티- 수단을 테스트해도 차이의 증거를 찾을 가능성이 없습니다. 그러나 우리는 또한 각 사이트에 대해 퇴적물-물 경계면의 Zn 농도가 공기-물 경계면보다 적다는 것을 알 수 있습니다. 이 경우 개별 사이트에서 Zn 농도의 차이가 충분히 커서 두 인터페이스 간의 차이를 볼 수 있는 능력이 가려집니다.
공기-물과 퇴적물-물 경계면의 차이를 취하면 0.015, 0.028, 0.067, 0.121, 0.102 및 0.107ppm Zn 값을 가지며 평균은 0.07333ppm Zn이고 표준 편차는 0.04410ppm Zn입니다. . 세 가지 정규 분포를 모두 중첩
차이에 대한 대부분의 정규 분포가 0 위에 있음을 분명히 보여줍니다.티-test는 차이가 중요하다는 증거를 보여줄 수 있습니다.
특이치
7.1장에서 우리는 유통되고 있는 미국 페니 100개의 대량으로 구성된 데이터 세트를 조사했습니다. 표 \(\PageIndex{1}\)는 데이터 세트를 하나 더 제공합니다. 이 데이터에서 이상한 점을 발견하셨습니까? 이전 표에 포함된 100페니 중 3g 미만의 페니는 없습니다. 그러나 이 표에서 1페니의 무게는 3g 미만입니다. 우리는 이 페니의 질량이 다른 페니와 너무 달라서 오류가 있는 것은 아닌지 물을 수 있습니다.
3.067 | 2.514 | 3.094 |
3.049 | 3.048 | 3.109 |
3.039 | 3.079 | 3.102 |
다른 측정치와 일치하지 않는 측정치를 이상값이라고 합니다. 이상값은 여러 가지 이유로 존재할 수 있습니다. 이상값은 다른 모집단에 속할 수 있습니다.
이것은 캐나다 페니입니까?
또는 이상값은 오염되거나 달리 변경된 샘플일 수 있습니다.
페니가 손상되었거나 비정상적으로 더럽습니까?
또는 이상값은 분석 오류로 인해 발생할 수 있습니다.
균형을 잡는 것을 잊었습니까?
소스에 관계없이 이상값의 존재는 데이터의 의미 있는 분석을 손상시킵니다. 잠재적 이상값을 식별하는 데 사용할 수 있는 많은 유의성 테스트가 있으며 그 중 세 가지를 여기에 제시합니다.
딕슨의큐-시험
특이치를 식별하기 위한 가장 일반적인 유의성 테스트 중 하나는 Dixon의 Q-테스트입니다. 귀무가설은 이상치가 없다는 것이고 대립가설은 이상치가 있다는 것이다. 그만큼큐-test는 의심되는 이상값과 가장 가까운 숫자 이웃 간의 간격을 전체 데이터 세트의 범위와 비교합니다(그림 \(\PageIndex{2}\)).

테스트 통계,큐경험치, 이다
\[Q_\text{exp} = \frac {\text{gap}} {\text{range}} = \frac {|\text{outlier's value} - \text{가장 가까운 값}|} {\text{largest 값} - \text{가장 작은 값}} \nonumber\]
이 방정식은 단일 이상값을 평가하는 데 적합합니다. Dixon의 다른 형태큐-test는 여러 이상값을 감지하는 확장을 허용합니다[Rorabacher, D. B.항문. 화학.1991년,63, 139–146].
의 가치큐경험치임계 값 \(Q(\alpha, n)\)과 비교됩니다. 여기서 \(\alpha\)는 유효한 데이터 포인트(1종 오류)를 거부할 확률이고N 총 데이터 포인트 수입니다. 유효한 데이터 포인트를 거부하지 않도록 보호하기 위해 일반적으로 보다 보수적인 양방향 방법을 적용합니다.큐- 가능한 이상값이 데이터 세트에서 가장 작거나 가장 큰 값인 경우에도 테스트합니다. 만약에큐경험치가 \(Q(\alpha, n)\)보다 크면 귀무 가설을 기각하고 이상값을 제외할 수 있습니다. 다음과 같은 경우 가능한 이상값을 유지합니다.큐경험치\(Q(\alpha, n)\)보다 작거나 같습니다. \(\PageIndex{2}\) 테이블은 3–10개의 값이 있는 데이터 세트에 대한 \(Q(\alpha, n)\) 값을 제공합니다. 더 광범위한 표는 부록 4에 있습니다. \(Q(\alpha, n)\)의 값은 기본 정규 분포를 가정합니다.
N | 큐(0.05,N) |
---|---|
삼 | 0.970 |
4 | 0.829 |
5 | 0.710 |
6 | 0.625 |
7 | 0.568 |
8 | 0.526 |
9 | 0.493 |
10 | 0.466 |
그럽의 테스트
비록 딕슨의큐-테스트는 이상값을 평가하는 일반적인 방법으로, 국제 표준 기구(ISO)에서 더 이상 선호하지 않습니다. 시험. 잠재적 이상값의 수에 따라 여러 버전의 Grubb 테스트가 있습니다. 여기서 우리는 하나의 이상치가 의심되는 경우를 고려할 것입니다.
메모
이 권장 사항에 대한 자세한 내용은 International Standards ISO Guide 5752-2 "Accuracy (trueness and precision) of measurement methods and results–Part 2: basic methods for the decision of repeatability and reproducibility of a standard measurement method," 1994를 참조하십시오.
Grubb 검정에 대한 검정 통계량,G경험치,는 표본의 표준 편차 측면에서 표본의 평균 \(\overline{X}\)과 잠재적 이상값 \(X_\text{out}\) 사이의 거리입니다.에스.
\[G_\text{exp} = \frac {|X_\text{out} - \overline{X}|} {s} \nonumber\]
우리는 의 가치를 비교합니다G경험치임계값 \(G(\alpha, n)\)로 설정합니다. 여기서 \(\alpha\)는 유효한 데이터 포인트를 거부할 확률이고N샘플의 데이터 포인트 수입니다. 만약에G경험치가 \(G(\alpha, n)\)보다 크면 데이터 포인트를 이상값으로 거부할 수 있습니다. 그렇지 않으면 데이터 포인트를 샘플의 일부로 유지합니다. 표 \(\PageIndex{3}\)는 다음에 대한 값을 제공합니다.G(0.05,N) 3-10개의 값을 포함하는 샘플의 경우. 더 광범위한 표는 부록 5에 있습니다. \(G(\alpha, n)\)의 값은 기본 정규 분포를 가정합니다.
N | G(0.05,N) |
---|---|
삼 | 1.115 |
4 | 1.481 |
5 | 1.715 |
6 | 1.887 |
7 | 2.020 |
8 | 2.126 |
9 | 2.215 |
10 | 2.290 |
쇼브네의 기준
이상값을 식별하는 마지막 방법은 Chauvenet의 기준입니다. 딕슨과 달리큐-테스트 및 Grubb의 테스트, 특정 결과에 대한 확률을 계산하는 방법을 알고 있는 한 이 방법을 모든 분포에 적용할 수 있습니다. Chauvenet의 기준에 따르면 데이터 포인트의 값을 얻을 확률이 \((2n^{-1})\)보다 작으면 데이터 포인트를 거부할 수 있습니다. 여기서N샘플의 크기입니다. 예를 들어,N= 10일 때 확률이 \((2 \times 10)^{-1}\) 또는 0.05 미만인 결과는 이상값으로 간주됩니다.
잠재적 이상값의 확률을 계산하기 위해 먼저 표준화 편차를 계산합니다.지
\[z = \frac {|X_\text{out} - \overline{X}|} {s} \nonumber\]
여기서 \(X_\text{out}\)은 잠재적 이상값이고 \(\overline{X}\)는 샘플의 평균이며에스샘플의 표준 편차입니다. 이 방정식은 다음 방정식과 동일합니다.G경험치Grubb의 테스트에서. 정규 분포의 경우 다음 값을 얻을 확률을 찾을 수 있습니다.지부록 1의 확률표를 사용합니다.
예 \(\PageIndex{7}\)
테이블 \(\PageIndex{1}\)에는 9개의 유통되는 미국 페니에 대한 질량이 포함되어 있습니다. 하나의 항목인 2.514g은 이상값으로 나타납니다. 다음을 사용하여 이 페니가 특이치인지 확인합니다.큐-테스트, Grubb의 테스트 및 Chauvenet의 기준. 을 위해큐-test 및 Grubb의 테스트, let \(\alpha = 0.05\).
해결책
을 위해큐-\(Q_\text{exp}\)의 값이 다음인지 테스트
\[Q_\text{exp} = \frac {|2.514 - 3.039|} {3.109 - 2.514} = 0.882 \nonumber\]
\(\PageIndex{2}\) 테이블에서 다음에 대한 임계값큐(0.05, 9)는 0.493입니다. 왜냐하면큐경험치보다 크다큐(0.05, 9), 우리는 2.514g의 질량을 가진 페니가 특이치일 가능성이 높다고 가정할 수 있습니다.
Grubb 테스트의 경우 먼저 평균과 표준 편차가 각각 3.011g과 0.188g이 필요합니다. 에 대한 값G경험치~이다
\[G_\text{exp} = \frac {|2.514 - 3.011|} {0.188} = 2.64 \nonumber\]
테이블 \(\PageIndex{3}\)를 사용하여G(0.05, 9)는 2.215입니다. 왜냐하면G경험치보다 크다G(0.05, 9), 우리는 2.514g의 질량을 가진 페니가 특이치일 가능성이 높다고 가정할 수 있습니다.
Chauvenet의 기준에서 임계 확률은 \((2 \times 9)^{-1}\) 또는 0.0556입니다. 의 가치지와 같다G경험치, 또는 2.64. 부록 1을 사용하여지= 2.64는 0.00415입니다. 0.2514g의 질량을 얻을 확률이 임계 확률보다 작기 때문에 질량이 2.514g인 페니가 이상치일 가능성이 높다고 가정할 수 있습니다.
유효한 결과를 거부할 가능성이 있으므로 이상값에 대한 유의성 검정을 사용할 때는 주의해야 합니다. 또한 불확실성의 전파를 기반으로 예상보다 훨씬 더 나은 정밀도로 이어지는 경우 이상값을 거부하지 않아야 합니다. 이러한 우려를 고려할 때 일부 통계학자가 이상치 제거에 대해 경고하는 것은 놀라운 일이 아닙니다[Deming, W. E.데이터의 통계 분석; Wiley: New York, 1943(Dover 재출판: New York, 1961); 피. 171].
메모
데이터 거부에 대해 보다 엄격한 요구 사항을 채택할 수도 있습니다. 예를 들어 Grubb의 테스트를 사용할 때 ISO 5752 지침에서는 거부 확률이 \(\alpha = 0.05\)보다 크면 값을 유지하고 거부 확률이 높으면 값을 "낙오자"로 플래그 지정하도록 제안합니다. \(\alpha = 0.05\)와 \(\alpha = 0.01\) 사이입니다. 거절에 대한 강력한 이유가 없는 한 "낙오자"는 유지됩니다. 지침에서는 가능한 이상값을 거부하기 위한 최소 기준으로 \(\alpha = 0.01\)를 사용하도록 권장합니다.
반면에 이상값 테스트는 의심되는 이상값의 출처를 이해하려는 경우 유용한 정보를 제공할 수 있습니다. 예를 들어, 표 \(\PageIndex{1}\)의 이상값은 미국 페니 구성의 변화로 인해 페니의 질량이 약 17% 감소했음을 나타냅니다. . 1982년에 미국 페니의 구성은 95% w/w Cu 및 5% w/w Zn(공칭 질량 3.1g)인 황동 합금에서 구리로 덮인 순수 아연 코어(공칭 2.5g의 질량) [Richardson, T. H.J.Chem. 교육1991년,68, 310–311]. 따라서 테이블 \(\PageIndex{1}\)의 페니는 서로 다른 모집단에서 가져온 것입니다.