關於資料集
在機器學習(Machine Learning, ML)中,為了讓 AI 學習得更好,我們通常會把數據分成 3 個部分:
1️⃣ 訓練集(Training Set) → 讓 AI 學習的資料 📚
2️⃣ 驗證集(Validation Set) → 調整 AI 參數的資料 ⚙️
3️⃣ 測試集(Test Set) → 檢查 AI 最終準確率的資料 🎯
📌 1. 訓練集(Training Set)
📌 「讓 AI 學習」的數據
- 訓練集是用來訓練機器學習模型的資料
- AI 會讀取這些數據,找出規律、學習模式
📌 舉例(訓練 AI 分辨貓狗)
- 數據: 5000 張 標記為「貓 🐱」或「狗 🐶」的圖片
- AI 學習: 「耳朵尖 + 鬍鬚長 = 貓」,「耳朵圓 + 鼻子大 = 狗」
💡 訓練集的比例通常是 60%~80%,用來讓 AI 訓練自己。
📌 2. 驗證集(Validation Set)
📌 「幫助 AI 調整」的數據
- 驗證集用來微調 AI 的參數,確保 AI 沒有過度記住訓練集(Overfitting)
- 訓練時,AI 會用這些數據來測試不同參數的效果,找出最好的設定
📌 舉例(調整 AI)
- 如果 AI 只記住訓練集,遇到新圖片時就無法正確判斷
- 驗證集可以幫助 AI 調整參數,讓它在新數據上表現更好
💡 驗證集的比例通常是 10%~20%,用來調整模型的超參數(Hyperparameters)。
📌 3. 測試集(Test Set)
📌 「檢查 AI 最終準確率」的數據
- 測試集是用來評估 AI 最終表現的資料
- AI 不能看過測試集的數據,這樣才能知道它是否真正學會規律
📌 舉例(檢查 AI)
- 數據: 1000 張 AI 從未見過的貓狗圖片
- AI 預測: 這些圖片是貓還是狗?
- 計算準確率: AI 的結果和正確答案比對,看看答對多少
💡 測試集通常佔 10%~20%,只在最後用來檢查模型準確度。
📌 4. 觀念整理
資料集 | 用途 | 使用時機 | 常見比例 |
---|---|---|---|
訓練集(Training Set) | 讓 AI 學習數據的規律 | 訓練模型 | 60%-80% |
驗證集(Validation Set) | 微調 AI 參數,避免過度記憶 | 訓練過程中測試不同參數 | 10%-20% |
測試集(Test Set) | 最終評估 AI 的準確率 | 訓練完後,檢查 AI 是否真的學會 | 10%-20% |
📝 5. 總結
✔ 訓練集(Training Set) → 讓 AI 學習 📚
✔ 驗證集(Validation Set) → 幫 AI 調整 ⚙️
✔ 測試集(Test Set) → 最後檢查 AI 🎯
📌 機器學習的核心目標,就是讓 AI 在「測試集」上表現良好,而不是只會在「訓練集」上答對!🚀🔥