關於資料集

在機器學習（Machine Learning, ML）中，為了讓 AI 學習得更好，我們通常會把數據分成 3 個部分：

1️⃣ 訓練集（Training Set） → 讓 AI 學習的資料 📚
2️⃣ 驗證集（Validation Set） → 調整 AI 參數的資料 ⚙️
3️⃣ 測試集（Test Set） → 檢查 AI 最終準確率的資料 🎯

📌 1. 訓練集（Training Set）

📌 「讓 AI 學習」的數據

📌 舉例（訓練 AI 分辨貓狗）

💡 訓練集的比例通常是 60%~80%，用來讓 AI 訓練自己。

📌 「幫助 AI 調整」的數據

📌 舉例（調整 AI）

💡 驗證集的比例通常是 10%~20%，用來調整模型的超參數（Hyperparameters）。

📌 「檢查 AI 最終準確率」的數據

📌 舉例（檢查 AI）

💡 測試集通常佔 10%~20%，只在最後用來檢查模型準確度。

資料集	用途	使用時機	常見比例
訓練集（Training Set）	讓 AI 學習數據的規律	訓練模型	60%-80%
驗證集（Validation Set）	微調 AI 參數，避免過度記憶	訓練過程中測試不同參數	10%-20%
測試集（Test Set）	最終評估 AI 的準確率	訓練完後，檢查 AI 是否真的學會	10%-20%

✔ 訓練集（Training Set） → 讓 AI 學習 📚
✔ 驗證集（Validation Set） → 幫 AI 調整 ⚙️
✔ 測試集（Test Set） → 最後檢查 AI 🎯

📌 機器學習的核心目標，就是讓 AI 在「測試集」上表現良好，而不是只會在「訓練集」上答對！🚀🔥