測量尺度 (Measurement Scales)
- 測量尺度分為四種,決定了資料的特性及可進行的統計分析:
- 名目尺度 (Nominal Scale):
- 只有分類,無順序。
- 範例:血型、性別、疾病有無。
- 序位尺度 (Ordinal Scale):
- 有分類,有順序,但間距不一定相等。
- 範例:癌症分期 (I, II, III, IV)、疼痛程度 (輕度、中度、重度)、教育程度。
- 等距尺度 (Interval Scale):
- 有分類,有順序,間距相等,但無絕對零點 (零點不代表「沒有」)。
- 範例:攝氏溫度、華氏溫度、智商 (IQ)。
- 等比尺度 (Ratio Scale):
- 有分類,有順序,間距相等,且有絕對零點 (代表「沒有」某特徵)。
- 範例:身高、體重、膽固醇值、血壓、年齡。
- 名目尺度 (Nominal Scale):
交互作用 (Interaction) / 修飾作用 (Effect Modification)
定義與概念
- 指兩個或多個因子共同作用時,對結果的影響並非單純的加總,會產生協同 (synergistic) 或 拮抗 (antagonistic) 的效果。
- 當某暴露因子對疾病的影響,因另一因子 (又稱修飾因子) 的不同而有所改變時,即為交互作用。
- 範例:探討「某基因型與口腔癌的關聯性是否因抽菸狀態不同而不一樣」。
統計分析
- 檢定交互作用通常透過在迴歸模型中加入交互項 (interaction term) 來實現。
統計學基本概念與定理
中央極限定理 (Central Limit Theorem, CLT)
- 當樣本數夠大時,不論母群體的原始分佈為何,從該母群體中抽取的隨機樣本平均值的分佈都會趨近於常態分佈。
- 此定理是統計推論的基礎,即使母群體分佈未知,只要樣本夠大,即可利用常態分佈特性對樣本平均值進行推論。
無母數分析 (Non-parametric Analysis)
- 定義:一種不需對母群體資料分佈做任何假設的統計分析方法 (例如不需假設資料呈常態分佈)。
- 特性與適用時機:
- 相較於有母數分析 (Parametric Analysis),通常使用資料的排序或符號而非實際數值。
- 對資料中的極端值 (Outliers) 較不敏感。
- 統計檢定力 (Statistical Power) 通常比有母數分析低 (當資料符合有母數分析的假設時)。
- 適用時機:當資料不符合常態分佈假設、樣本數小或資料為類別變項時。
統計檢定與錯誤類型
假說檢定基本概念
- 統計假說檢定 (statistical hypothesis testing) 的目的在於評估樣本數據是否足以推翻虛無假說 (H0)。
- 虛無假說 (Null Hypothesis, H0):通常假設沒有差異、沒有效果或沒有關係。
- 對立假說 (Alternative Hypothesis, H1):通常假設有差異、有效果或有關係。
- 顯著水準 (Significance level, α):研究者設定的型一錯誤的最大可容忍機率,通常設為 0.05。
- p 值 (p-value):在虛無假說為真的前提下,觀察到目前或更極端結果的機率。
- 若 p 值 ≤ α:表示觀察到的數據在 H0 為真時發生的機率很小,因此有足夠證據拒絕 H0 (即統計上顯著)。
- 若 p 值 > α:表示觀察到的數據在 H0 為真時發生的機率不小,因此沒有足夠證據拒絕 H0 (即統計上不顯著)。
- 檢定統計值 (Test statistic):根據樣本數據計算,衡量樣本數據與虛無假說的偏離程度。其計算公式固定,不受單尾或雙尾檢定影響。
- 單尾檢定 (One-tailed test) vs. 雙尾檢定 (Two-tailed test):
- 單尾檢定:用於檢定特定方向的差異 (例如:A大於B)。
- 雙尾檢定:用於檢定任何方向的差異 (例如:A不等於B)。
- 會影響 p 值計算與臨界值選擇,但不改變檢定統計值。
錯誤類型與檢定力比較
| 概念 | 定義 | 實際情況 (H0) | 研究結論 (拒絕H0) | 機率符號 | 常見設定 / 關係 |
|---|---|---|---|---|---|
| 型一錯誤 | 當H0為真 (即兩組實際上沒有差異),卻錯誤地拒絕H0 (誤判有關係/有差異)。這就像是「誤報」或「狼來了」。 | 真 | 拒絕 | α | 0.05 (可設為0.01),表示有 5% 或 1% 的機會犯型一錯誤 |
| 型二錯誤 | 當H0為假,卻錯誤地接受H0 (誤判無關係,實際上卻有)。 | 假 | 接受 | β | - |
| 檢定力 (Power) | 當H0為假 (即H1為真) 時,正確地拒絕H0 的機率。 | 假 | 拒絕 | 1-β | 1-β (例如,若Power=0.27,則β=0.73) |
國考範例
- 情境:已知抽菸可導致肺活量降低,兩者之間有因果關係 (即虛無假說「抽菸與肺活量無關」實際上是錯誤的)。
- 研究結果:不拒絕虛無假說,並總結抽菸與肺活量並無統計上顯著的相關性。
- 判斷:此為犯了型二錯誤 (實際有關係,卻說沒關係)。
樣本數估算 (Sample Size Calculation)
- 研究設計的關鍵步驟,確保研究有足夠的檢定力 (Power) 偵測到真實存在的差異。
- 影響樣本數的因素:
- 型一錯誤 (α)
- 檢定力 (Power, 1-β)
- 效應值 (Effect Size):預期偵測到的差異大小。
- 變異數 (Variance):數據的分散程度。
- 變異數與樣本數的關係:當研究的變異數越大 (如標準差增加),數據越分散,偵測統計顯著差異越困難,因此需要更多樣本數。
信賴區間 (Confidence Interval, CI)
- 95% 信賴區間 (95% CI):表示在重複抽樣 100 次的情況下,有 95 次計算出的區間會包含真實的母群體平均值。
- 信賴區間與統計顯著性:
- 在統計顯著水準 α = 0.05 的情況下:
- 若兩個群體的 95% 信賴區間完全不重疊,則可推斷這兩個群體的平均值存在統計上的顯著差異。
- 若信賴區間有重疊,則不能斷定兩者有顯著差異 (可能仍有差異,但不足以在該顯著水準下被偵測到)。
- 單一參考值與信賴區間:
- 若特定參考值 (如虛無假說值或已知對照組數值) 落在某群體的 95% 信賴區間內,則表示該群體與此參考值之間沒有統計上的顯著差異 (在 α = 0.05 水準下)。
- 範例:若男性肺癌患者五年存活率為 15%,而女性的 95% CI 為 (2.8%, 20.2%)。由於 15% 落在女性的 CI 內,表示女性存活率與男性 15% 無統計顯著差異。
- 在統計顯著水準 α = 0.05 的情況下:
診斷性檢定指標 (Diagnostic Test Metrics)
定義
- 敏感度 (Sensitivity):
- 定義:在有疾病的人中,被正確判斷為有疾病的比例。
- 計算:真陽性人數 / (真陽性人數 + 偽陰性人數)
- 偽陽率 (False Positive Rate, FPR):
- 定義:在沒有疾病的人中,被錯誤判斷為有疾病的比例。
- 計算:偽陽性人數 / (偽陽性人數 + 真陰性人數)
- 專一性 (Specificity):
- 定義:在沒有疾病的人中,被正確判斷為沒有疾病的比例。
- 計算:真陰性人數 / (真陰性人數 + 偽陽性人數)
判斷標準 (Cut-off Point) 的影響
- 當診斷標準提高 (例如:從 >7 提高到 >8.5,表示需要更高的數值才被判斷為陽性時):
- 被判斷為陽性的人數減少。
- 偽陽率:下降 (沒有疾病的人被錯誤判斷為陽性的機會減少)。
- 敏感度:下降 (有疾病的人被正確判斷為陽性的機會減少)。
常見統計檢定方法
- 統計方法選擇的關鍵在於研究設計、變項類型和樣本大小。
資料類型與檢定選擇
- 配對資料 (Paired Data) / 相依樣本 (Dependent Samples):
- 定義:對同一組受試者在不同時間點測量 (如治療前後),或對有配對關係的兩組受試者 (如雙胞胎、夫妻) 進行比較。
- 分析需考慮資料的相依性。
- 獨立資料 (Independent Data):兩組受試者之間無任何關聯。
統計檢定方法比較
| 檢定方法 | 資料類型 | 樣本關係 | 目的 | 範例 |
|---|---|---|---|---|
| 配對 t 檢定 (Paired t-test) | 連續型 | 配對 | 比較兩組配對平均值差異 | 比較同一病患治療前後的血壓平均值 |
| 獨立 t 檢定 (Independent t-test) / 雙樣本 t 檢定 (Two-sample t-test) | 連續型 | 獨立 | 比較兩組獨立平均值差異 | 比較治療組與對照組的血壓平均值 |
| 麥內瑪關聯樣本檢定 (McNemar's test) / McNemar 卡方檢定 | 類別型 | 配對 | 比較兩組配對類別變項差異;檢定配對的類別型資料的邊際同質性 | 比較同一病患治療前後「症狀是/否」反應;配對病例對照研究中,比較暴露因子在病例組和對照組中的差異 |
| 卡方檢定 (Chi-square test) | 類別型 | 獨立 | 比較兩個或多個類別變項關聯性 | 比較性別與吸菸狀態的關聯性;探討酒駕行為與死亡車禍的關聯性 |
| 費雪精確檢定 (Fisher exact test) | 類別型 | 獨立 | 比較兩組獨立類別變項關聯性 (特別是2x2 列聯表,當預期次數過小時) | 比較兩種手術方式與術後併發症發生與否的關聯性 (當樣本數小或預期次數<5時) |
變異數分析 (Analysis of Variance, ANOVA)
- 目的:檢定兩個或更多組平均數之間是否存在顯著差異。
- 檢定統計量:F 值,服從 F 分配。
- 主要假設:
- 獨立性 (Independence):各組觀察值之間相互獨立。
- 常態性 (Normality):各組資料來源的母體分佈為常態分佈。
- 變異數同質性 (Homoscedasticity):各組資料來源的母體變異數相等。
- 若變異數不相等 (異質性),可能導致檢定結果不準確,此時需使用校正方法 (如 Welch's ANOVA) 或非參數檢定。
- 迴歸分析可透過虛擬變數 (dummy variables) 處理分組資料,但直接用單一數值變數 (如 1, 2, 3) 代表多個類別組別並不恰當,因其會錯誤地假設組別間存在線性關係。
迴歸分析 (Regression Analysis)
- 線性迴歸 (Linear Regression):
- 目的:分析一個連續型依變項 (Dependent Variable, Y) 與一個或多個自變項 (Independent Variable, X) 之間的線性關係,並建立數學模型來預測 Y,量化 X 對 Y 的影響程度。
- 簡單線性迴歸模型:Y = a + bX,其中 Y 是依變項,X 是自變項,b 是迴歸係數 (斜率)。b 的符號表示 X 與 Y 的關係方向 (正相關或負相關)。a 是截距 (intercept)。
- 判定係數 (R²):表示模型能解釋依變項總變異的比例。例如,R² = 0.4 表示模型解釋了 40% 的變異。
- 相關係數 (r) 的正負號與迴歸線斜率 (b) 的正負號一致。在簡單線性迴歸中,r² = R²,且 r 的符號與迴歸係數 b 的符號相同。
- 主要假設:
- 線性關係:X 與 Y 之間存在線性關係。
- 殘差常態性:殘差 (Residuals) 服從常態分佈。
- 殘差獨立性:殘差之間相互獨立。
- 殘差變異數同質性:殘差的變異數在所有 X 值上都相等。
- 因果關係推論:
- 迴歸分析可顯示統計關聯性和預測 Y,但本身無法證明因果關係。
- 確立因果關係需額外條件,如時序性、排除混淆因子、生物學合理性,通常需透過實驗設計或更複雜的統計模型。
關聯性檢定與量化
-
卡方檢定 (Chi-square test):
- 目的:判斷兩個或多個獨立類別變項之間是否存在統計上的關聯性。最適合用於分析次數資料的列聯表 (contingency table) 資料。
- 原理:檢定觀察到的次數分佈與預期次數分佈是否有顯著差異。
- 前提假設:所有格子的預期次數 (expected counts) 通常要求至少為 5。
- 重要提示:若在2x2 列聯表中,有任何一個細格的預期次數小於 5,卡方檢定會失去準確性,容易導致錯誤結論。此時應改用費雪精確檢定。
- 解釋:檢定統計量越大,表示兩者越可能有關聯。
-
費雪精確檢定 (Fisher exact test):
- 目的:專門用於處理2x2 列聯表,特別是當預期次數過小 (<5) 時,檢定兩個獨立類別變項的關聯性。
- 特性:是一種非參數檢定,能直接計算在邊際總數固定的情況下,觀察到該列聯表或更極端列聯表的精確機率 (p 值)。
- 適用時機:當樣本數小,導致卡方檢定的預期次數假設無法滿足時,例如總樣本數少或某類別人數極少。
-
勝算比值 (Odds Ratio, OR):
- 目的:量化暴露因子與結果之間關聯的強度。
- 定義:表示暴露組發生結果的勝算,是非暴露組發生結果勝算的倍數。
- 解釋:
- OR = 1:表示沒有關聯。
- OR > 1:表示暴露組發生結果的勝算較高。
- OR < 1:表示暴露組發生結果的勝算較低。
-
卡方檢定與勝算比值之區別:`
- 卡方檢定:回答「有沒有關聯」。
- 勝算比值:回答「關聯有多強」。
- 兩者是不同的概念,卡方值大不代表 OR 值一定大。
相關係數 (Correlation Coefficient)
- 衡量兩個變項之間線性關係的強度和方向的數值。
- 數值介於 -1 到 1 之間。
- 0:表示兩變項之間沒有線性關係,但不代表沒有其他形式的關係。
- 正值 (r > 0):正相關 (一變項增加,另一變項也傾向增加)。
- 負值 (r < 0):負相關 (一變項增加,另一變項傾向減少)。
- 絕對值越接近 1:線性關係越強 (例如 0.6 屬於中度正相關)。
- 相關係數大小表示相關強度,但判斷相關是否「顯著」需進行統計檢定 (p 值),並與預設的顯著水準 α 比較。單憑相關係數數值本身,不能直接推論其顯著性。
| 特性 | Pearson 相關係數 (r) | Spearman 相關係數 |
|---|---|---|
| 適用資料類型 | 兩個連續變項 | 兩個序位變項 或 連續變項不符合常態假設 |
| 衡量關係 | 線性關係 | 單調關係 (不一定是線性) |
| 數值範圍 | -1 到 1 | -1 到 1 |
描述性統計 (Descriptive Statistics)
集中趨勢與離散程度指標的選擇
- 對稱分布 (Symmetric Distribution) (如:常態分布):
- 集中趨勢:平均值 (Mean)
- 離散程度:標準差 (Standard Deviation)
- 原因:平均值和標準差在對稱分布下能最佳地代表資料的中心和變異性。
- 偏斜分布 (Skewed Distribution) (特別是右偏分布):
- 集中趨勢:中位數 (Median)
- 離散程度:四分位距 (Interquartile Range, IQR)
- 原因:
- 平均值易受極端值 (Extreme Values) 影響 (例如,右偏分布時,高值極端值會拉高平均值,使其無法代表中心位置)。
- 中位數不受極端值影響,更能代表資料的中心位置。
- 四分位距 (IQR) 代表資料中間 50% 的範圍,比全距 (Range) 更穩健,不易受極端值影響。
變異量指標
- 標準差 (Standard Deviation, SD):衡量數據相對於平均值的離散程度。
- 變異係數 (Coefficient of Variation, CV):
- 定義:一種相對變異量,計算方式為 標準差 / 平均值,通常以百分比表示。
- 優點:消除了測量單位和平均值大小的影響,適合比較不同單位或不同平均值資料集的變異程度。
- 範例:比較血中鉛濃度 (µg/dl) 與尿中古丁尼濃度 (ng/ml) 的變異大小。
