中級iPAS AI 應用規劃師科目二模擬試題(3)
Автор: AI live & life
Загружено: 2026-03-16
Просмотров: 12
Описание:
情境一:「量子金融」的高頻量化交易與分散式架構
【背景故事】 「量子金融」是一家專注於跨國高頻交易的避險基金。團隊每天需從全球各地的分散式資料庫中,即時處理數十億筆包含雜訊的市場報價、社群情緒與總經數據。為了追求極致的運算速度與預測準確度,工程團隊與資料科學家正面臨架構與演算法的極限考驗。
Q1. 團隊建置了分散式資料庫來處理全球跨節點的交易,以防止單一伺服器故障。根據大數據架構中的「CAP 理論」,若全球網路發生嚴重的「分區故障(Partition tolerance, P)」,系統設計時最多只能在另外兩個特性中忍痛「二選一」。請問是哪兩個特性? (A) 原子性(Atomicity)與持久性(Durability) (B) 一致性(Consistency)與可用性(Availability) (C) 速度(Velocity)與真實性(Veracity) (D) 隔離性(Isolation)與擴充性(Scalability)
✅ 解答:(B) 📖 深度解析: CAP 理論(又稱「不可能三角」)指出,在分散式系統中,一致性(Consistency)、可用性(Availability)分區容錯性(Partition tolerance),最多只能同時滿足兩項。在大數據環境下,網路分區故障(P)是必然可能發生的物理限制。因此,當 P 發生時,系統必須在「保證所有人讀到最新資料(C),但可能暫停服務」或「保持系統隨時可用(A),但資料可能短暫不同步」之間做出取捨。
Q2. 量化團隊試圖從 1,000 個獨立的另類數據特徵中找出能預測股價的訊號。他們對每個特徵分別進行 t 檢定,並設定顯著水準 α=0.05。若這 1,000 個特徵「實際上完全沒有預測力(虛無假設皆為真)」,在純機率的作用下,預期會出現幾個「偽陽性」的顯著結果?實務上應如何校正? (A) 0 個;不需要校正 (B) 5 個;使用 Z-score 標準化 (C) 50 個;使用 Bonferroni 校正或 FDR(錯誤發現率)控制 (D) 500 個;使用 SMOTE 人工合成樣本
✅ 解答:(C) 📖 深度解析: 這是進階統計中極為致命的**「多重檢定問題(Multiple Testing Problem)」**。當 α=0.05 時,代表我們允許 5% 的型一錯誤(偽陽性)發生。因此,同時做 1,000 次檢定,即便全無預測力,也會有約 1,000×0.05=50 個特徵因隨機巧合而呈現「顯著」。為避免把雜訊當黃金,必須採用 Bonferroni 校正(將 α 除以檢定次數)或 FDR(False Discovery Rate)等方法來嚴格控制偽陽性風險。
Q3. 為了加速超大語言模型(LLM)分析財報的訓練速度,並降低 GPU 記憶體負載,團隊採用了一種進階的運算技術。該技術結合了 16-bit 與 32-bit 的浮點數運算,讓模型在不損失精度的情況下極速收斂。這種技術稱為? (A) 主成分分析(PCA) (B) 模型並行(Model Parallelism) (C) 梯度累積(Gradient Accumulation) (D) 混合精度訓練(Mixed Precision Training)
✅ 解答:(D) 📖 深度解析: 混合精度訓練(Mixed Precision Training)是大模型訓練的標配技術。它在神經網路的前向傳播(Forward Pass)與反向傳播(Backward Pass)中使用運算快、佔用記憶體小的 FP16(16位元浮點數),但在更新權重時,為避免數值下溢(數值太小變成 0),會使用精確度高的 FP32(32位元浮點數)保存主權重,藉此達到加速與節省記憶體的雙重目的。
Q4. 團隊使用 Python 的 statsmodels 套件進行多元線性迴歸,分析程式碼中包含 X2 = sm.add_constant(X) 這一行。若拿掉這一行程式碼,會對迴歸模型產生什麼數學上的強制限制? (A) 模型將無法計算出 p-value (B) 迴歸線將被強制通過原點(Y截距強制為 0) (C) 模型會自動將所有變數轉換為浮點數 (D) 決定係數(R-squared)會強制變成 1
✅ 解答:(B) 📖 深度解析: 在 statsmodels 函式庫中,執行 OLS(一般最小平方法)時,預設是「不會」包含截距項(Constant/Intercept)的。sm.add_constant(X) 的作用就是在特徵矩陣中加入一整欄全為 1 的常數,藉此計算出截距。若遺漏此步驟,模型等同於強制迴歸線必須穿過原點 (0,0),這會嚴重扭曲斜率(係數)的估計,並導致 R2失去傳統的解釋意義。
Q5. 為找出跨國洗錢網絡中,作為「資金過橋」的關鍵人頭帳戶(本身資金不大,但掌控多個洗錢群體之間的唯一連通管道),團隊應計算圖論(Graph Analysis)中的哪一個中心性指標最適當? (A) 程度中心性(Degree Centrality) (B) 接近中心性(Closeness Centrality) (C) 中介中心性(Betweenness Centrality) (D) 特徵向量中心性(Eigenvector Centrality)
✅ 解答:(C) 📖 深度解析:
程度中心性(Degree):找直接連線最多的人(大戶)。
接近中心性(Closeness):找距離所有人平均最短的人(消息傳播最快)。
中介中心性(Betweenness):計算該節點作為其他節點「最短路徑橋樑」的頻率。洗錢的「過橋帳戶」或跨部門的「聯絡人」,其特徵就是扮演資訊或資金的「中介咽喉」,因此 Betweenness 是最精準的指標。
🏥 情境二:「跨國智醫」的多模態大模型與法規泥沼
【背景故事】 「跨國智醫」開發了一款擁有千億參數的通用醫療 AI 模型,能同時處理病歷(文字)、X光(影像)與心音(音訊)。他們不僅將模型開源並進行微調,更準備同時進軍歐盟與美國加州市場。然而,兩地的極端監管法規與嚴苛的隱私挑戰,讓法務長與資料科學家焦頭爛額。
Q1. 歐盟與美國加州對超大算力模型皆設有嚴格的監管門檻。若團隊訓練這款通用醫療大模型,累積的訓練算力達到了10的25.5次方 FLOPS(即介於10的25次方與10的26次方之間)。根據最新法規,這款模型會觸發哪一邊的最嚴格監管義務? (A) 同時觸發歐盟與加州的嚴格監管 (B) 兩者皆未觸發 (C) 僅觸發歐盟《人工智慧法案》中「具系統性風險之通用 AI (GPAI)」的額外義務 (D) 僅觸發美國加州 SB 53《前沿 AI 安全法》的通報義務
✅ 解答:(C) 📖 深度解析: 這是考驗您對法規數字極限敏銳度的魔王題。歐盟 AI Act 將累積訓練算力 大於10的25次方 FLOPS 的通用模型定義為「具系統性風險(Systemic Risk)」,需進行對抗性測試與嚴重事故通報。而美國加州 SB 53 鎖定的「前沿模型(Frontier AI models)」門檻更高,要求算力必須 大於10的26次方FLOPS。因此 10的25.5次方的算力落在了歐盟嚴管、但加州尚未觸發 SB 53 極限門檻的區間。
Q2. 團隊是基於某個開源的基礎模型進行了「實質性修改(Substantial Modification)」,大幅強化了其醫療診斷能力。為了符合加州 AB 2013《訓練數據透明法案》的要求,團隊在官網公開「訓練數據集的高層次摘要」時,依法應如何揭露? (A) 必須完整揭露原始開源模型所使用的所有底層數據 (B) 無需揭露任何資訊,因為基礎模型是開源的 (C) 僅需針對「團隊自己用於微調與實質修改」的訓練數據進行揭露 (D) 必須將所有病患個資原文公開以示透明
✅ 解答:(C) 📖 深度解析: 加州 AB 2013 法案明確規定,若開發者對預先存在的第三方系統(如開源模型)進行了實質性修改(如微調),其透明度揭露的義務是針對「該公司自己使用的訓練內容與修改過程」,而不需要為底層 AI 模型提供者所使用的訓練數據負責。
Q3. 在處理多國語言混雜、且常出現醫生拼寫錯誤(Typo)與罕見專有名詞的病歷文本時,團隊決定將文字轉化為向量。相較於傳統的 Word2Vec 或 GloVe,哪一種詞嵌入(Word Embedding)技術因為考慮了「子詞(Subword)資訊」,能最有效地處理拼寫錯誤與未知詞彙(OOV)? (A) TF-IDF (B) FastText (C) One-Hot Encoding (D) 詞頻統計(Term Frequency)
✅ 解答:(B) 📖 深度解析: Word2Vec 和 GloVe 是以「完整的詞」為單位進行訓練,遇到沒看過的詞(Out-Of-Vocabulary)或拼字錯誤就會束手無策。而 Facebook 開發的 FastText 將詞拆解為 n-gram 的子詞(Subword,例如 "apple" 拆為 "app", "ppl", "ple"),因此即使遇到拼字錯誤或罕見醫學字根,也能透過組合已知的子詞向量來推算語意,展現極強的強健性。
Q4. 為了在不洩露個別病患隱私的前提下,與外部研究機構共享「不同年齡層糖尿病患病率」的統計數據,團隊在演算法輸出的結果中「刻意注入了數學上精確計算的隨機雜訊」。這種確保即使攻擊者擁有無限背景知識,也無法反推單一病患是否在資料庫中的技術為何? (A) 同態加密(Homomorphic Encryption) (B) 差分隱私(Differential Privacy) (C) 聯邦學習(Federated Learning) (D) 雜湊演算法(Hashing)
✅ 解答:(B) 📖 深度解析: 加入隨機雜訊(Noise)是**差分隱私(Differential Privacy)**的核心機制。它保證了查詢結果的統計分佈總體正確,但對於單一個體的數據點會被雜訊掩蓋,防止「再識別(Re-identification)」攻擊。同態加密是加密狀態下的運算;聯邦學習是模型傳遞不傳資料,兩者皆非「注入雜訊」。
Q5. 在評估極度罕見的「神經元突變分類模型」時,由於病患樣本極少(N=50),團隊使用了如附圖/虛擬程式碼描述的驗證法:訓練模型 50 次,每次拿 1 筆作為測試集,其餘 49 筆作為訓練集,最後平均所有的評估指標。這種極端的交叉驗證法稱為? (A) Bootstrap(拔靴法) (B) 分層 K 折交叉驗證(Stratified K-Fold CV) (C) 留一交叉驗證(Leave-One-Out Cross Validation, LOOCV) (D) 隨機欠採樣(Random Undersampling)
✅ 解答:(C) 📖 深度解析: 這種將 K 值設定為等於樣本總數 N 的交叉驗證方法,就是經典的 留一交叉驗證 (LOOCV)。由於每次只留下一筆資料當測試,能最大化訓練資料的使用量,非常適合總樣本數極小的情況。缺點是運算成本極高(需訓練 N 次模型)。
情境三:
在留言區
#ipasimasamkolam #iPAS AI 應用規劃師 #AI #大數據
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: