Skip to content

關於資料集

在機器學習(Machine Learning, ML)中,為了讓 AI 學習得更好,我們通常會把數據分成 3 個部分

1️⃣ 訓練集(Training Set)讓 AI 學習的資料 📚
2️⃣ 驗證集(Validation Set)調整 AI 參數的資料 ⚙️
3️⃣ 測試集(Test Set)檢查 AI 最終準確率的資料 🎯

📌 1. 訓練集(Training Set)

📌 「讓 AI 學習」的數據

  • 訓練集是用來訓練機器學習模型的資料
  • AI 會讀取這些數據,找出規律、學習模式

📌 舉例(訓練 AI 分辨貓狗)

  • 數據: 5000 張 標記為「貓 🐱」或「狗 🐶」的圖片
  • AI 學習: 「耳朵尖 + 鬍鬚長 = 貓」,「耳朵圓 + 鼻子大 = 狗」

💡 訓練集的比例通常是 60%~80%,用來讓 AI 訓練自己。

📌 2. 驗證集(Validation Set)

📌 「幫助 AI 調整」的數據

  • 驗證集用來微調 AI 的參數,確保 AI 沒有過度記住訓練集(Overfitting)
  • 訓練時,AI 會用這些數據來測試不同參數的效果,找出最好的設定

📌 舉例(調整 AI)

  • 如果 AI 只記住訓練集,遇到新圖片時就無法正確判斷
  • 驗證集可以幫助 AI 調整參數,讓它在新數據上表現更好

💡 驗證集的比例通常是 10%~20%,用來調整模型的超參數(Hyperparameters)。

📌 3. 測試集(Test Set)

📌 「檢查 AI 最終準確率」的數據

  • 測試集是用來評估 AI 最終表現的資料
  • AI 不能看過測試集的數據,這樣才能知道它是否真正學會規律

📌 舉例(檢查 AI)

  • 數據: 1000 張 AI 從未見過的貓狗圖片
  • AI 預測: 這些圖片是貓還是狗?
  • 計算準確率: AI 的結果和正確答案比對,看看答對多少

💡 測試集通常佔 10%~20%,只在最後用來檢查模型準確度。

📌 4. 觀念整理

資料集 用途 使用時機 常見比例
訓練集(Training Set) 讓 AI 學習數據的規律 訓練模型 60%-80%
驗證集(Validation Set) 微調 AI 參數,避免過度記憶 訓練過程中測試不同參數 10%-20%
測試集(Test Set) 最終評估 AI 的準確率 訓練完後,檢查 AI 是否真的學會 10%-20%

📝 5. 總結

訓練集(Training Set) → 讓 AI 學習 📚
驗證集(Validation Set) → 幫 AI 調整 ⚙️
測試集(Test Set) → 最後檢查 AI 🎯

📌 機器學習的核心目標,就是讓 AI 在「測試集」上表現良好,而不是只會在「訓練集」上答對!🚀🔥