認知層次基準線分類方法

版本:1.0 最後更新:2026-02-06


一、目的

本文件說明如何從題庫資料萃取各國考試的「認知層次 profile」,作為未來比對孩子練習紀錄的基準線。


二、理論基礎:Bloom 認知層次分類法

本系統採用教育學家 Benjamin Bloom 提出的認知層次分類法(Bloom’s Taxonomy),將題目分為六個層次:

層次 英文 定義 關鍵動詞
1 Remember 回憶事實、術語、概念 列出、定義、辨認、背誦
2 Understand 解釋意義、轉換表達 解釋、摘要、舉例、分類
3 Apply 將知識用於新情境 計算、解決、執行、使用
4 Analyze 拆解結構、找出關係 比較、對照、區分、推論
5 Evaluate 判斷、批評、驗證 評估、辯護、判斷、批評
6 Create 產生新想法、設計方案 設計、發明、建構、規劃

層次越高,越需要「思考」而非「記憶」。


三、分類方法

3.1 自動分類規則

本系統使用「關鍵詞匹配 + 題型判斷」進行自動分類:

1. 讀取題目文字
2. 比對各層次的關鍵詞
3. 考慮題型加權:
   - 選擇題(無解題過程):最高到 Apply
   - 證明題:最低從 Analyze 起
   - 開放式題目:最低從 Analyze 起
4. 輸出層次 + 信心度

3.2 關鍵詞對照表

層次 中文關鍵詞 英文關鍵詞
Remember 何者是、定義、列出、背誦、辨認 define, list, identify, recall
Understand 解釋、為什麼、舉例、摘要、意義 explain, describe, summarize
Apply 計算、求、解、使用、執行 calculate, solve, apply, use
Analyze 比較、分析、區分、推論、關係 compare, analyze, differentiate
Evaluate 判斷、評估、驗證、批評、正確嗎 evaluate, justify, assess
Create 設計、建構、發明、規劃、創造 design, create, construct

3.3 信心度定義

信心度 定義
high 關鍵詞明確且題型一致
medium 關鍵詞可辨識但題型有歧義
low 需要人工判斷或無法確定

四、資料來源

4.1 已納入的題庫

Layer 國家 題數 說明
tmmlu_tw 🇹🇼 台灣 200 台灣多工語言理解測試
sat_math_hf 🇺🇸 美國 200 SAT 數學題庫
scienceqa 🇺🇸 美國 200 科學問答題庫
gaokao_cn 🇨🇳 中國 100 中國高考數學題庫
ukmt_uk 🇬🇧 英國 100 UK Mathematics Trust 2024 競賽題
math_french 🇫🇷 法國 500 法文數學題庫
olympiadbench_hf 🌍 國際 200 國際奧林匹克數學競賽題庫
amc_github 🌍 國際 30 AIME 2024 競賽題
aops_hf 🌍 國際 500 Art of Problem Solving 題庫

4.2 取樣策略

  • 每個 Layer 最多取樣 1000 題
  • 優先取樣有解題步驟的題目
  • 按難度分層取樣(若有難度標記)

五、已知限制

5.1 準確度

自動分類準確度約 70-80%

5.2 可能的誤差來源

  1. 層次低估:看起來是「計算」,但實際需要「分析」才能找到解法
  2. 選擇題偏差:選擇題難以判斷學生是「真懂」還是「猜對」
  3. 語言偏差:中文和英文的關鍵詞對應可能有差異
  4. 題型限制:開放式題目的分類較準確,選擇題可能有誤差

5.3 不適用場景

  • 評估單一學生的能力
  • 跨科目的難度比較
  • 作為教學評量的唯一依據

六、各國考試特色(參考)

國家 特色 認知層次傾向
🇹🇼 台灣 基礎要穩、也要會算 記憶 25% + 應用 35%
🇺🇸 美國 生活情境、能不能用 應用 45% 為主
🇨🇳 中國 推論、抽象數學 分析 25% 最高
🇬🇧 英國 競賽導向、邏輯推理 應用 + 分析各 35%
🇫🇷 法國 推導過程、邏輯表達 應用 45% + 分析 20%
🌍 國際競賽 最高難度認知挑戰 分析 45% + 評鑑 18%

七、使用建議

7.1 適合用途

  • 了解題庫的整體特性
  • 比較不同來源的題目分布
  • 作為 Phase 2 比對的基準

7.2 不適合用途

  • 評估孩子的能力
  • 提供學習建議
  • 預測考試表現

八、更新紀錄

日期 版本 變更內容
2026-02-06 1.0 初始版本

本文件由學生學習地圖系統產生