過度均勻才是真異常:用四種統計檢驗偵測隨機數造假
過度均勻才是真異常,這個看似微妙的論點正是本章節要説明的重點
1936 年,統計學之父 Fisher 質疑遺傳學之父 Mendel 的豌豆實驗造假。
證據不是數據「太不規律」,而是「太完美」。
這個方法後來也用在彩票造

圖裡有 4 個子檢驗:
- [A] Dispersion Index:觀測方差 / 理論方差,比值 < 1 就是過度均勻
- [B] Monte Carlo Chi² 百分位:實際 chi² 比多少比例的純隨機更小?百分位 > 95% 就是強烈過度均勻
- [C] 分段一致性:把資料切 10 段,看段間波動。波動太小 = 各時段過度一致
- [D] 滑動視窗 Chi²:用 50 期的窗口逐期掃,看 chi² 序列的時間變化
彩球這套檢驗通常會通過——但結果有沒有異常並不重要,重要的是這套工具本身。
過度均勻的物理機制:
- 彩票機器有「平衡器」強制讓所有號碼出現次數均勻
- 數據被人為調整過(造假或記錄員「自動修正」)
- 抽取機制有約束(例如刻意避免熱號)
任何這些情況,chi² 統計量都會異常小。
公式
4.1 Dispersion Index(方差比)
$$D = \frac{S^2_{\text{observed}}}{\sigma^2_{\text{theoretical}}}$$
- $D \approx 1$:方差符合預期(正常)
- $D < 1$:方差小於預期(過度均勻)
- $D > 1$:方差大於預期(過度離散,可能有 cluster)
Chi² 檢定:$(k-1) \cdot D \sim \chi^2(k-1)$,看左尾 p-value:
$$p_{\text{left}} = P\left(\chi^2_{k-1} < (k-1) \cdot D\right)$$
$p_{\text{left}} < 0.05$ → 統計顯著的過度均勻。
4.2 Monte Carlo Chi² 百分位
跑 10000 次「假彩票」模擬,記錄每次的 chi²,得到「純隨機 chi² 的經驗分布」。然後看實際 chi² 在這個分布的哪裡:
$$\text{pct} = \frac{\#\{j : \chi^2_{\text{sim},j} > \chi^2_{\text{actual}}\}}{M} \times 100\%$$
| pct | 意義 |
|---|---|
| > 95% | 強烈過度均勻(實際 chi² 比 95% 的純隨機都小) |
| > 90% | 可疑 |
| 50% 左右 | 正常 |
| < 5% | 強烈不均勻 |
4.3 滑動視窗 Chi²
理論期望 $E[\chi^2_{k-1}] = k - 1$。如果大多數視窗的 chi² 都低於這個期望——表示「持續性」過度均勻,不是偶發。
程式結果
========== 彩球 過度均勻檢驗 ==========
總期數 : 1891
[A] Dispersion Index(方差比)
觀測方差 = 266.3585
理論方差 = 290.7216
D 指數 = 0.9162 (過度均勻)
左尾 p-value = 0.3848
判定 : 未達顯著
[B] Monte Carlo Chi² 百分位
實際 Chi² = 33.0072
模擬均值 = 31.9872
百分位 = 41.68% (41.7% 的隨機模擬比你的資料更不均勻)
判定 : 正常
[C] 分段一致性(10 段)
實際段間方差 = 0.000018
模擬均值 = 0.000020
百分位 = 83.15% (83.2% 的模擬段間波動更大)
判定 : 正常
[D] 滑動視窗 Chi²(window=50)
視窗 Chi² 均值 = 31.9507
理論期望 = 37.0
低於期望比例 = 81.16%
判定 : 持續性過度均勻
解讀:
- 4 個檢驗各從不同角度測「過度均勻」
- 全部正常 → 機器看起來真的隨機
- 任何一個異常 → 需要追究原因(特別是 C, D 從時間維度檢驗)
- A + B 看「全域」,C + D 看「時間穩定性」
結論
真隨機有自然的不平均,這套方法用左尾檢定 + Monte Carlo 模擬,能偵測出 chi² 看不到的「過度均勻」異常。
真實世界的應用案例如下:
- 科學造假偵測:Fisher 質疑 Mendel 是最有名的例子,後來這套方法用在無數的學術造假調查
- 彩票公平性審計:美國一些州的彩票局會定期跑這類檢驗,確保機器沒有偏差也沒有過度平衡
- 金融資料:很多看起來「太平滑」的股價序列(例如某些主權財富基金的「平滑回報」)也被這類方法質疑過