之前使用 kimi 生成約200筆數據,這次將數據量提高到 500~800 筆,再次進行訓練、測試,結果如下

Macro F1 = 0.74(三輪:0.62 → 0.57 → 0.74),Accuracy 0.76。

- precision recall f1-score support
喜悅 0.90 0.90 0.90 21
悲傷 1.00 0.80 0.89 20
憤怒 0.93 0.59 0.72 22 ← 從 recall 0 救回
恐懼 0.74 0.95 0.83 21 ← 從 recall 0.11 救回
驚訝 0.67 0.29 0.40 14 ← 新的弱點
厭惡 0.54 0.90 0.68 21
macro avg 0.80 0.74 0.74 119

總結的過程如下:

指標 首輪 安全版 本輪(資料翻倍) 目標
Macro F1 0.62 0.57 0.74 ≥0.75
Accuracy 0.65 0.63 0.76 ≥0.80

可以看到憤怒、恐懼可以了,憤怒 recall 0 → 0.59、恐懼 recall 0.11 → 0.95,直接驗證了"瓶頸是資料量而不是超參"。

Macro F1 差目標僅 0.01,實際上已基本達標。
另外一個新瓶頸很明確,驚訝(recall 0.29、F1 0.40)。它恰好是唯一資料偏少的類別(train 56 vs 其餘 80-89,test 僅 14),印證資料量決定單類表現。

無標籤

關注作者:

新增評論