使用 Qwen2.5B + QLoRA 情緒分類模型改善實驗：擴增資料集至 500~800 筆後 Macro F1 達 0.74

2026-06-27

50 次閱讀

之前使用 kimi 生成約200筆數據，這次將數據量提高到 500~800 筆，再次進行訓練、測試，結果如下

Macro F1 = 0.74(三輪:0.62 → 0.57 → 0.74)，Accuracy 0.76。

-	precision	recall	f1-score	support
喜悅	0.90	0.90	0.90	21
悲傷	1.00	0.80	0.89	20
憤怒	0.93	0.59	0.72	22 ← 從 recall 0 救回
恐懼	0.74	0.95	0.83	21 ← 從 recall 0.11 救回
驚訝	0.67	0.29	0.40	14 ← 新的弱點
厭惡	0.54	0.90	0.68	21
macro avg	0.80	0.74	0.74	119

總結的過程如下：

指標	首輪	安全版	本輪(資料翻倍)	目標
Macro F1	0.62	0.57	0.74	≥0.75
Accuracy	0.65	0.63	0.76	≥0.80

可以看到憤怒、恐懼可以了，憤怒 recall 0 → 0.59、恐懼 recall 0.11 → 0.95，直接驗證了"瓶頸是資料量而不是超參"。

Macro F1 差目標僅 0.01，實際上已基本達標。
另外一個新瓶頸很明確，驚訝(recall 0.29、F1 0.40)。它恰好是唯一資料偏少的類別(train 56 vs 其餘 80-89，test 僅 14)，印證資料量決定單類表現。

無標籤