快速解答
A/B 測試的核心流程分為五個階段:建立可驗證的科學假設、計算所需樣本數、設計並執行實驗、監控數據品質,以及正確解讀統計結果。跳過任何一個步驟,都可能讓你的決策建立在錯誤數據上。本指南提供一套可重複執行的標準作業流程,適用於產品、行銷與成長團隊。
重點整理
- A/B 測試不是「試試看」,而是需要事前假設、樣本計算與統計驗證的科學實驗
- 假設必須包含:變數、預期方向、影響機制三個要素,才算完整
- 樣本數不足是最常見的失敗原因,建議在實驗前使用統計功效計算工具確認
- 實驗期間不應頻繁查看數據,「偷看效應」(peeking)會膨脹假陽性率
- 統計顯著性(p < 0.05)不等於商業顯著性,必須同時評估效應量(effect size)
- 單次實驗結論需謹慎,重要決策建議進行複製實驗(replication)
- 外部因素(節假日、促銷活動、流量異常)會污染實驗結果,需事先排除或記錄
- 2026 年主流工具已支援貝葉斯統計框架,可作為頻率主義方法的補充
為什麼大多數 A/B 測試都在浪費時間?
大多數 A/B 測試失敗,不是因為工具選錯,而是因為流程設計有根本性缺陷。
常見問題包括:假設模糊、樣本量不足、實驗提前終止,以及把統計顯著性誤解為「這個改動有效」。這些錯誤在產品與行銷團隊中極為普遍,導致團隊做出基於雜訊而非信號的決策。
最常見的三個致命錯誤:
- 假設不具體:「我們認為改變按鈕顏色會提升轉換率」沒有說明為什麼,也沒有說明提升多少
- 樣本量靠感覺:「跑個一週應該夠了」是最危險的直覺
- 提前停止實驗:看到 p = 0.04 就立刻宣布勝利,但置信區間可能還在劇烈震盪
第一步:如何建立一個真正有效的科學假設?

一個合格的假設必須包含三個元素:你改變了什麼(變數)、你預期會發生什麼(方向與幅度),以及為什麼你認為它會發生(機制)。
這不是學術要求,而是實際需要。沒有明確機制的假設,即使實驗「成功」,你也不知道下次該如何應用這個知識。
假設撰寫公式
「我們相信,將 [變數] 從 [現狀] 改為 [新版本],將會使 [指標] 提升/降低 [幅度],因為 [使用者行為邏輯或已知數據支持]。」
範例對比:
| 弱假設 | 強假設 |
|---|---|
| 改變 CTA 按鈕顏色會提升點擊率 | 將 CTA 按鈕從灰色改為橙色,將使首頁點擊率提升 10-15%,因為橙色在當前頁面背景下對比度更高,符合視覺注意力研究的預測 |
| 簡化結帳流程會增加完成率 | 將結帳步驟從 4 步縮短為 2 步,將使結帳完成率提升 8%,因為用戶研究顯示 62% 的放棄發生在第 3 步 |
選擇假設的決策規則:
- 如果你無法說明「為什麼」,先做用戶研究,再回來設計實驗
- 如果預期效應量低於 5%,評估是否值得投入實驗資源
- 如果變數超過一個,拆分為多個獨立實驗,避免交互效應污染結果
第二步:樣本數計算與實驗設計
在開始實驗之前,你必須計算達到統計功效所需的最小樣本量,否則實驗結果沒有意義。
統計功效(Statistical Power)通常設定為 80%,代表當真實效應存在時,你有 80% 的機率偵測到它。搭配顯著水準 α = 0.05,這是業界常用的基準組合。
樣本數計算需要的四個輸入值
- 基準轉換率:當前版本的指標數值(從歷史數據取得,不要猜)
- 最小可偵測效應(MDE):你認為值得關注的最小改變幅度
- 顯著水準(α):通常設為 0.05
- 統計功效(1-β):通常設為 0.80
工具推薦:
- Evan Miller 的線上樣本計算器(免費,適合快速估算)
- Optimizely Stats Engine(整合在平台內)
- R 套件
pwr(適合需要客製化的統計團隊)
常見錯誤: 以「天數」代替「樣本數」思考。一週不一定夠,一個月也可能過多。關鍵是樣本量,不是時間長度。
第三步:實驗執行期間的數據品質控管
實驗跑起來之後,最重要的工作是確保數據品質,而不是每天盯著轉換率數字。
執行期間的核查清單
- 流量分配驗證:確認 A/B 兩組流量比例符合設計(通常 50/50),偏差超過 5% 需調查
- 同質性檢驗(SRM 檢測):Sample Ratio Mismatch 是實驗污染的早期警訊
- 避免「偷看效應」:每天查看 p 值並在接近 0.05 時停止,會使假陽性率從 5% 膨脹到 26% 以上(根據 Johari et al., 2017 的研究)
- 記錄外部事件:促銷活動、媒體曝光、競品動作都應記錄在實驗日誌中
- 新奇效應(Novelty Effect):用戶對新版本的初始反應可能虛高,建議觀察期至少涵蓋兩個完整的用戶行為週期
第四步:如何正確解讀 A/B 測試的實驗數據?
統計顯著性(p < 0.05)只告訴你「這個差異不太可能是隨機的」,它不告訴你這個差異有多大,也不告訴你是否值得上線。
這是 A/B 測試實戰指南中最容易被誤解的環節。
解讀數據的四個維度
| 維度 | 問題 | 工具/指標 |
|---|---|---|
| 統計顯著性 | 差異是真實的嗎? | p 值、信賴區間 |
| 效應量 | 差異有多大? | Cohen’s d、相對提升幅度 |
| 實際意義 | 對業務有影響嗎? | 年化收益估算 |
| 穩健性 | 在不同子群組中一致嗎? | 分群分析(Segmentation) |
三種常見的解讀陷阱
- 「顯著就上線」:p = 0.049 和 p = 0.001 在商業意義上差異很大,不應等同對待
- 「不顯著就放棄」:樣本不足導致的不顯著,不代表變數無效,只代表你的實驗沒有功效
- 「平均值遮蓋分群差異」:整體轉換率提升 3%,但新用戶下降 8%、舊用戶上升 15%,這個結果需要完全不同的決策
貝葉斯 vs. 頻率主義:2026 年該用哪種統計框架?
對大多數商業 A/B 測試團隊來說,頻率主義方法(傳統 p 值)仍是主流,但貝葉斯方法在樣本量受限或需要持續更新決策的場景中更有優勢。
| 比較項目 | 頻率主義 | 貝葉斯 |
|---|---|---|
| 解讀方式 | p 值 + 信賴區間 | 後驗機率 + 可信區間 |
| 適合場景 | 樣本充足、單次決策 | 樣本受限、持續監控 |
| 「偷看」問題 | 嚴重影響結果 | 相對較不敏感 |
| 學習曲線 | 低 | 中高 |
| 2026 年工具支援 | 廣泛 | Optimizely、VWO 已內建 |
選擇建議: 如果你的團隊剛起步,先用頻率主義方法建立紀律。等流程穩定後,再考慮引入貝葉斯框架處理特定場景。
結論:建立可重複執行的 A/B 測試文化
A/B 測試實戰指南的核心,不只是一套工具或公式,而是一種組織決策文化的轉變。從「我覺得這樣比較好」到「數據告訴我們什麼、我們的假設是否被驗證」,這個思維轉換才是長期競爭優勢的來源。
立即可執行的三個行動:
- 本週: 審查你最近一次 A/B 測試,確認假設是否包含變數、方向和機制三個要素
- 本月: 建立實驗日誌模板,記錄每次實驗的假設、樣本計算、外部事件與最終結論
- 本季: 推動團隊採用「實驗前計算樣本數」的標準流程,並設定固定的實驗審查週期
好的 A/B 測試流程是可以被複製和改進的。從今天開始,把每一次實驗當作一份科學記錄,而不只是一個數字。
常見問題(FAQ)
Q:A/B 測試至少要跑多久?
A:時間長度取決於達到目標樣本量所需的時間,而非固定天數。建議至少涵蓋一個完整的業務週期(通常是 7 天的倍數),以消除星期效應。
Q:A/B 測試和多變量測試(MVT)有什麼差別?
A:A/B 測試一次只改變一個變數,結果清晰;MVT 同時測試多個變數組合,需要更大的樣本量,適合流量充足的大型平台。
Q:p 值 0.05 是唯一標準嗎?
A:不是。高風險決策(如大規模 UI 改版)可以設定更嚴格的 α = 0.01;低風險、快速迭代的場景可以接受 α = 0.10。關鍵是事前決定,而不是事後調整。
Q:實驗結果不顯著,代表假設錯誤嗎?
A:不一定。可能是樣本量不足(功效不夠)、效應量比預期小,或實驗設計有缺陷。先排除技術問題,再評估假設本身。
Q:A/B 測試適合所有規模的公司嗎?
A:不完全適合。每日活躍用戶低於 1,000 的產品,通常難以在合理時間內達到統計功效,建議改用定性研究(用戶訪談、可用性測試)作為決策依據。
Q:如何處理多重比較問題(Multiple Testing Problem)?
A:同時跑多個實驗或分析多個指標時,假陽性率會累積。可使用 Bonferroni 校正或 Benjamini-Hochberg 方法控制整體錯誤率,或事先明確定義主要指標(Primary Metric)。
Q:A/B 測試的結果可以直接套用到其他市場嗎?
A:不建議直接套用。不同市場的用戶行為、文化背景和流量結構差異顯著,建議在目標市場重新執行實驗以驗證結論。
參考資料
- Johari, R., Koomen, P., Pekelis, L., & Walsh, D. (2017). Peeking at A/B Tests: Why It Matters, and What to Do About It. ACM SIGKDD. https://dl.acm.org/doi/10.1145/3097983.3097992
- Kohavi, R., Tang, D., & Xu, Y. (2020). Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press.
- Evan Miller. (2014). How Not To Run an A/B Test. https://www.evanmiller.org/how-not-to-run-an-ab-test.html
Tags: A/B 測試, 實驗設計, 科學假設, 統計顯著性, 樣本計算, 數據解讀, 轉換率優化, 貝葉斯統計, 頻率主義, 產品成長, 行銷實驗, 效應量
