認知層次基準線分類方法
版本:1.0 最後更新:2026-02-06
一、目的
本文件說明如何從題庫資料萃取各國考試的「認知層次 profile」,作為未來比對孩子練習紀錄的基準線。
二、理論基礎:Bloom 認知層次分類法
本系統採用教育學家 Benjamin Bloom 提出的認知層次分類法(Bloom’s Taxonomy),將題目分為六個層次:
| 層次 | 英文 | 定義 | 關鍵動詞 |
|---|---|---|---|
| 1 | Remember | 回憶事實、術語、概念 | 列出、定義、辨認、背誦 |
| 2 | Understand | 解釋意義、轉換表達 | 解釋、摘要、舉例、分類 |
| 3 | Apply | 將知識用於新情境 | 計算、解決、執行、使用 |
| 4 | Analyze | 拆解結構、找出關係 | 比較、對照、區分、推論 |
| 5 | Evaluate | 判斷、批評、驗證 | 評估、辯護、判斷、批評 |
| 6 | Create | 產生新想法、設計方案 | 設計、發明、建構、規劃 |
層次越高,越需要「思考」而非「記憶」。
三、分類方法
3.1 自動分類規則
本系統使用「關鍵詞匹配 + 題型判斷」進行自動分類:
1. 讀取題目文字
2. 比對各層次的關鍵詞
3. 考慮題型加權:
- 選擇題(無解題過程):最高到 Apply
- 證明題:最低從 Analyze 起
- 開放式題目:最低從 Analyze 起
4. 輸出層次 + 信心度
3.2 關鍵詞對照表
| 層次 | 中文關鍵詞 | 英文關鍵詞 |
|---|---|---|
| Remember | 何者是、定義、列出、背誦、辨認 | define, list, identify, recall |
| Understand | 解釋、為什麼、舉例、摘要、意義 | explain, describe, summarize |
| Apply | 計算、求、解、使用、執行 | calculate, solve, apply, use |
| Analyze | 比較、分析、區分、推論、關係 | compare, analyze, differentiate |
| Evaluate | 判斷、評估、驗證、批評、正確嗎 | evaluate, justify, assess |
| Create | 設計、建構、發明、規劃、創造 | design, create, construct |
3.3 信心度定義
| 信心度 | 定義 |
|---|---|
| high | 關鍵詞明確且題型一致 |
| medium | 關鍵詞可辨識但題型有歧義 |
| low | 需要人工判斷或無法確定 |
四、資料來源
4.1 已納入的題庫
| Layer | 國家 | 題數 | 說明 |
|---|---|---|---|
| tmmlu_tw | 🇹🇼 台灣 | 200 | 台灣多工語言理解測試 |
| sat_math_hf | 🇺🇸 美國 | 200 | SAT 數學題庫 |
| scienceqa | 🇺🇸 美國 | 200 | 科學問答題庫 |
| gaokao_cn | 🇨🇳 中國 | 100 | 中國高考數學題庫 |
| ukmt_uk | 🇬🇧 英國 | 100 | UK Mathematics Trust 2024 競賽題 |
| math_french | 🇫🇷 法國 | 500 | 法文數學題庫 |
| olympiadbench_hf | 🌍 國際 | 200 | 國際奧林匹克數學競賽題庫 |
| amc_github | 🌍 國際 | 30 | AIME 2024 競賽題 |
| aops_hf | 🌍 國際 | 500 | Art of Problem Solving 題庫 |
4.2 取樣策略
- 每個 Layer 最多取樣 1000 題
- 優先取樣有解題步驟的題目
- 按難度分層取樣(若有難度標記)
五、已知限制
5.1 準確度
自動分類準確度約 70-80%。
5.2 可能的誤差來源
- 層次低估:看起來是「計算」,但實際需要「分析」才能找到解法
- 選擇題偏差:選擇題難以判斷學生是「真懂」還是「猜對」
- 語言偏差:中文和英文的關鍵詞對應可能有差異
- 題型限制:開放式題目的分類較準確,選擇題可能有誤差
5.3 不適用場景
- 評估單一學生的能力
- 跨科目的難度比較
- 作為教學評量的唯一依據
六、各國考試特色(參考)
| 國家 | 特色 | 認知層次傾向 |
|---|---|---|
| 🇹🇼 台灣 | 基礎要穩、也要會算 | 記憶 25% + 應用 35% |
| 🇺🇸 美國 | 生活情境、能不能用 | 應用 45% 為主 |
| 🇨🇳 中國 | 推論、抽象數學 | 分析 25% 最高 |
| 🇬🇧 英國 | 競賽導向、邏輯推理 | 應用 + 分析各 35% |
| 🇫🇷 法國 | 推導過程、邏輯表達 | 應用 45% + 分析 20% |
| 🌍 國際競賽 | 最高難度認知挑戰 | 分析 45% + 評鑑 18% |
七、使用建議
7.1 適合用途
- 了解題庫的整體特性
- 比較不同來源的題目分布
- 作為 Phase 2 比對的基準
7.2 不適合用途
- 評估孩子的能力
- 提供學習建議
- 預測考試表現
八、更新紀錄
| 日期 | 版本 | 變更內容 |
|---|---|---|
| 2026-02-06 | 1.0 | 初始版本 |
本文件由學生學習地圖系統產生