過度均勻才是真異常：用四種統計檢驗偵測隨機數造假

過度均勻才是真異常，這個看似微妙的論點正是本章節要説明的重點

1936 年，統計學之父 Fisher 質疑遺傳學之父 Mendel 的豌豆實驗造假。
證據不是數據「太不規律」，而是「太完美」。
這個方法後來也用在彩票造

圖裡有 4 個子檢驗：

[A] Dispersion Index：觀測方差 / 理論方差，比值 < 1 就是過度均勻
[B] Monte Carlo Chi² 百分位：實際 chi² 比多少比例的純隨機更小？百分位 > 95% 就是強烈過度均勻
[C] 分段一致性：把資料切 10 段，看段間波動。波動太小 = 各時段過度一致
[D] 滑動視窗 Chi²：用 50 期的窗口逐期掃，看 chi² 序列的時間變化

彩球這套檢驗通常會通過——但結果有沒有異常並不重要，重要的是這套工具本身。

過度均勻的物理機制：

彩票機器有「平衡器」強制讓所有號碼出現次數均勻
數據被人為調整過（造假或記錄員「自動修正」）
抽取機制有約束（例如刻意避免熱號）

任何這些情況，chi² 統計量都會異常小。

公式

4.1 Dispersion Index（方差比）

$$D = \frac{S^2_{\text{observed}}}{\sigma^2_{\text{theoretical}}}$$

$D \approx 1$：方差符合預期（正常）
$D < 1$：方差小於預期（過度均勻）
$D > 1$：方差大於預期（過度離散，可能有 cluster）

Chi² 檢定：$(k-1) \cdot D \sim \chi^2(k-1)$，看左尾 p-value：

$$p_{\text{left}} = P\left(\chi^2_{k-1} < (k-1) \cdot D\right)$$

$p_{\text{left}} < 0.05$ → 統計顯著的過度均勻。

4.2 Monte Carlo Chi² 百分位

跑 10000 次「假彩票」模擬，記錄每次的 chi²，得到「純隨機 chi² 的經驗分布」。然後看實際 chi² 在這個分布的哪裡：

$$\text{pct} = \frac{\#\{j : \chi^2_{\text{sim},j} > \chi^2_{\text{actual}}\}}{M} \times 100\%$$

pct	意義
> 95%	強烈過度均勻（實際 chi² 比 95% 的純隨機都小）
> 90%	可疑
50% 左右	正常
< 5%	強烈不均勻

4.3 滑動視窗 Chi²

理論期望 $E[\chi^2_{k-1}] = k - 1$。如果大多數視窗的 chi² 都低於這個期望——表示「持續性」過度均勻，不是偶發。

程式結果

========== 彩球 過度均勻檢驗 ==========
總期數          : 1891

[A] Dispersion Index（方差比）
  觀測方差      = 266.3585
  理論方差      = 290.7216
  D 指數        = 0.9162  (過度均勻)
  左尾 p-value  = 0.3848
  判定          : 未達顯著

[B] Monte Carlo Chi² 百分位
  實際 Chi²     = 33.0072
  模擬均值      = 31.9872
  百分位        = 41.68%  (41.7% 的隨機模擬比你的資料更不均勻)
  判定          : 正常

[C] 分段一致性（10 段）
  實際段間方差  = 0.000018
  模擬均值      = 0.000020
  百分位        = 83.15%  (83.2% 的模擬段間波動更大)
  判定          : 正常

[D] 滑動視窗 Chi²（window=50）
  視窗 Chi² 均值 = 31.9507
  理論期望       = 37.0
  低於期望比例   = 81.16%
  判定          : 持續性過度均勻

解讀：

4 個檢驗各從不同角度測「過度均勻」
全部正常 → 機器看起來真的隨機
任何一個異常 → 需要追究原因（特別是 C, D 從時間維度檢驗）
A + B 看「全域」，C + D 看「時間穩定性」

結論

真隨機有自然的不平均，這套方法用左尾檢定 + Monte Carlo 模擬，能偵測出 chi² 看不到的「過度均勻」異常。

真實世界的應用案例如下：

科學造假偵測：Fisher 質疑 Mendel 是最有名的例子，後來這套方法用在無數的學術造假調查
彩票公平性審計：美國一些州的彩票局會定期跑這類檢驗，確保機器沒有偏差也沒有過度平衡
金融資料：很多看起來「太平滑」的股價序列（例如某些主權財富基金的「平滑回報」）也被這類方法質疑過

過度均勻才是真異常：用四種統計檢驗偵測隨機數造假

公式

4.1 Dispersion Index（方差比）

4.2 Monte Carlo Chi² 百分位

4.3 滑動視窗 Chi²

程式結果

解讀：

結論

新增評論

最新文章

分類