使用 Qwen2.5B + QLoRA 情緒分類模型改善實驗:擴增資料集至 500~800 筆後 Macro F1 達 0.74
之前使用 kimi 生成約200筆數據,這次將數據量提高到 500~800 筆,再次進行訓練、測試,結果如下
Macro F1 = 0.74(三輪:0.62 → 0.57 → 0.74),Accuracy 0.76。
| - | precision | recall | f1-score | support |
|---|---|---|---|---|
| 喜悅 | 0.90 | 0.90 | 0.90 | 21 |
| 悲傷 | 1.00 | 0.80 | 0.89 | 20 |
| 憤怒 | 0.93 | 0.59 | 0.72 | 22 ← 從 recall 0 救回 |
| 恐懼 | 0.74 | 0.95 | 0.83 | 21 ← 從 recall 0.11 救回 |
| 驚訝 | 0.67 | 0.29 | 0.40 | 14 ← 新的弱點 |
| 厭惡 | 0.54 | 0.90 | 0.68 | 21 |
| macro avg | 0.80 | 0.74 | 0.74 | 119 |
總結的過程如下:
| 指標 | 首輪 | 安全版 | 本輪(資料翻倍) | 目標 |
|---|---|---|---|---|
| Macro F1 | 0.62 | 0.57 | 0.74 | ≥0.75 |
| Accuracy | 0.65 | 0.63 | 0.76 | ≥0.80 |
可以看到憤怒、恐懼可以了,憤怒 recall 0 → 0.59、恐懼 recall 0.11 → 0.95,直接驗證了"瓶頸是資料量而不是超參"。
Macro F1 差目標僅 0.01,實際上已基本達標。
另外一個新瓶頸很明確,驚訝(recall 0.29、F1 0.40)。它恰好是唯一資料偏少的類別(train 56 vs 其餘 80-89,test 僅 14),印證資料量決定單類表現。