名詞筆記
數據品質 5V 特性
- Volume (數據量)
- Velocity (數據速度)
- Variety (數據多樣性)
- Veracity (數據真實性)
- Value (數據價值)
平均數/中位數/眾數
平均值、中位數及眾數是統計學中用來描述一組數據的集中趨勢的三種不同方法。下面是對這三種方法的具體說明和案例:
-
平均值(Mean):平均值是指一組數據的總和除以數據的個數。計算平均值的時候,所有的數據都會被考慮到。平均值對於描述數據的整體水平很有用,但如果數據中有極端值(例如異常高或異常低的數據),平均值可能會被這些極端值所影響,從而不能準確地反映數據的真實情況。
案例:假設有一家公司有5名員工,分別的工資是2000、2500、3000、3500和4000元。平均工資 = (2000 + 2500 + 3000 + 3500 + 4000) / 5 = 3000元。
-
中位數(Median):中位數是指將數據按從小到大的順序排列後,位於中間位置的數據。如果數據的個數是奇數,中位數就是中間的那個數據;如果數據的個數是偶數,中位數就是中間兩個數據的平均值。中位數對於描述數據的中間位置很有用,尤其是在數據中有極端值的情況下。
案例:假設有一組數據:1、3、5、7、9。中位數是5,因為它是中間的數據。
-
眾數(Mode):眾數是指在一組數據中出現次數最多的數據。一個數據集可能有多個眾數,也可能沒有眾數(如果所有數據都不同)。適合用於類別資料分析,例如教育程度。
案例:假設有一組數據:1、2、2、3、4、4、4。眾數是4,因為它出現的次數最多。
綜上所述,平均值、中位數和眾數都是描述數據集中趨勢的重要指標,但它們反映的方面不同,適用的情況也不同。平均值對於描述整體水平很有用,但可能受極端值的影響;中位數對於描述中間位置很有用,尤其是在有極端值的情況下;眾數則反映了最常見的數據值。
直方圖/散佈圖/雷達圖
以下是簡單的解釋:
- 直方圖(Histogram):是一種統計圖表,用於顯示資料的分布情況。它將資料分成多個區間(bin),並計算每個區間的頻率(frequency)。直方圖可以幫助我們了解資料的集中趨勢、離散程度和分布形狀。
例子:如果我們想要了解一組學生的考試成績分布情況,可以使用直方圖來顯示成績的分布。
- 散佈圖(Scatter plot):是一種統計圖表,用於顯示兩個變數之間的關係。它將每個資料點繪製在座標平面上,x軸代表一個變數,y軸代表另一個變數。散佈圖可以幫助我們了解兩個變數之間的相關性和模式。
例子:如果我們想要了解身高和體重之間的關係,可以使用散佈圖來顯示這兩個變數之間的關係。
- 雷達圖(Radar chart):是一種統計圖表,用於顯示多個變數之間的關係。它將每個變數繪製在極坐標系上,形成一個多邊形圖形。雷達圖可以幫助我們了解多個變數之間的相關性和模式。
例子:如果我們想要了解一組產品的多個特性(如價格、性能、設計等)之間的關係,可以使用雷達圖來顯示這些變數之間的關係。
4. 箱型圖 (Box chart):展示數據的分布情況,可顯示中位數、四分位數與異常值。
四分位數
四分位數(Quartile):是一種統計量,用於描述資料的分布情況。它將資料分成四個區間,每個區間包含25%的資料。四分位數包括:
-
- 第一四分位數(Q1):資料的下25%的值
- 第二四分位數(Q2):資料的中位數(中間50%的值)
- 第三四分位數(Q3):資料的上25%的值
- 四分位距(IQR):Q3 - Q1,代表資料的離散程度
例子:如果我們想要了解一組學生的考試成績分布情況,可以使用四分位數來描述成績的分布。例如,Q1 = 60,Q2 = 70,Q3 = 80,IQR = 20,代表成績的中位數是70,下25%的成績是60以下,上25%的成績是80以上,成績的離散程度是20。
四分位距 (IQR) 特點:
- 常用來檢測異常值
- 不受極端值影響
- 僅代表 50% 資料的分散程度
計算例子:
要計算 Q1、Q2 和 Q3,需要按照以下步驟進行:
- 將數據集依小至大排序:80, 85, 85, 90, 90, 95, 95, 100, 100
- 計算數據集的位置:
- 第一四分位數 (Q1) 是排序後數據集的 25% 位置的值。
- 第二四分位數 (Q2) 是排序後數據集的 50% 位置的值,即中位數。
- 第三四分位數 (Q3) 是排序後數據集的 75% 位置的值。
- 由於數據集有 9 個值,計算位置如下:
- 25% 位置 = (9 + 1) * 0.25 = 2.5,四捨五入為 3,所以 Q1 是第 3 個值。
- 50% 位置 = (9 + 1) * 0.5 = 5,所以 Q2 是第 5 個值。
- 75% 位置 = (9 + 1) * 0.75 = 7.5,,所以 Q3 是第 7 個值。
- 根據排序後的數據集,找到對應的值:
- Q1 = 第 3 個值 = 85
- Q2 = 第 5 個值 = 90
- Q3 = 第 8 個值 = 100
因此,Q1 = 85,Q2 = 90,Q3 = 95。
四分位距 (IQR) = Q3 - Q1 = 95 - 85 = 10
DALL-E vs Midjourney
DALL-E 和 Midjourney 是兩種基於人工智慧的圖像生成工具,以下是簡單的說明和比較:
DALL-E
- DALL-E 是一種基於變分自編碼器(VAE)和_transformer 的圖像生成模型。
- 它可以根據文字描述生成圖像,例如「一隻狗坐在椅子上」。
- DALL-E 的生成圖像通常具有高品質和細節,但可能需要大量的計算資源和數據。
- DALL-E 的主要優點是其生成圖像的多樣性和創造性,但也可能產生不合理或不現實的圖像。
Midjourney
- Midjourney 是一種基於生成對抗網絡(GAN)和_diffusion 模型的圖像生成工具。
- 它可以根據文字描述生成圖像,例如「一座未來城市的風景」。
- Midjourney 的生成圖像通常具有高品質和細節,且比 DALL-E 更加快速和高效。
- Midjourney 的主要優點是其生成圖像的速度和效率,但也可能產生不夠多樣或不夠創造性的圖像。
比較
- 生成品質:DALL-E 和 Midjourney 都可以生成高品質的圖像,但 DALL-E 的生成圖像可能更加多樣和創造性。
- 計算資源:Midjourney 比 DALL-E 更加快速和高效,需要較少的計算資源。
- 文字描述:DALL-E 和 Midjourney 都可以根據文字描述生成圖像,但 DALL-E 的文字描述可能更加複雜和細節。
- 應用場景:DALL-E 可能更加適合於需要高品質和創造性的圖像生成任務,例如藝術和設計;Midjourney 可能更加適合於需要快速和高效的圖像生成任務,例如廣告和行銷。
總之,DALL-E 和 Midjourney 是兩種不同的圖像生成工具,各有其優缺點和適用場景。
BERT (Transformer)
- 基於Transformer架構:BERT的核心是Transformer模型,該模型使用自注意力機制(Self-Attention)來處理序列數據。這使得BERT能夠捕捉到文本中詞彙之間的長距離依賴關係和上下文信息。
- 預訓練:BERT通過大規模的預訓練數據集進行訓練,學習到通用的語言特徵和語義信息。預訓練任務包括掩碼語言模型(Masked Language Modeling)和下一句預測(Next Sentence Prediction)。
- 細調訓練:在預訓練的基礎上,BERT可以通過少量的任務特定數據進行細調訓練,以適應特定的下游任務,如文本分類、命名實體識別等。
- 文本分類:BERT在文本分類任務中表現出色,如情感分析、主題分類等。
- 命名實體識別:BERT可以用於識別文本中的命名實體,如人名、地名、組織名等。
- 問答系統:BERT可以用於自然語言問答系統,理解問題的意圖和上下文。
- 文本生成:BERT可以用於文本生成任務,如自動摘要、文本填充等。
- 語言翻譯:BERT可以用於語言翻譯任務,特別是在低資源語言的翻譯中。
GPT vs BERT
GPT is one directional while BERT is bidirectional. You use GPT to predict the next token GIVEN the previous context, while you use BERT to predict the token in between GIVEN the token of both previous and future context. So you use GPT for text generation while you use BERT for text classification (understanding text). In terms of architecture, GPT is transformer-decoder only while BERT is transformer-encoder only.
準確度/精確率/錯誤率/召回率
模型評估指標
- 準確度(Accuracy):判斷正確的比例,不適用於數據(類別)不平衡的資料。
- 精確率(Precision):預測為正的樣本中,實際為正的比例。減少誤判(FP)很重要時使用。
- 召回率(Recall):實際為正的樣本中,被成功找出的比例。避免漏判(FN)很重要時使用。
- 錯誤率(Error):判斷錯誤的比率。
- 錯誤率 = (FP+FN) / 總數
- 錯誤率 = 1 - 準確度
- F1 Score:Precision 與 Recall 的調和平均值。適用於資料不平衡的情況。
- AUC-ROC:衡量模型整體區分正負樣本的能力,數值愈高愈好(1 是完美)。
不同應用場景需要不同評估重點:
- 機場安檢:召回率優先
- 金融詐騙:召回率優先
- 醫療診斷:召回率與精確率都重要
- 自動駕駛:各項指標都需要極高標準
損失函數 (Loss Function)
什麼是損失函數?
在機器學習中,損失函數(Loss Function),也稱為成本函數(Cost Function),是一個用來衡量模型預測值與真實值之間差異的數學函數。簡單來說,它告訴我們模型做得有多「差」。
想像一下,你正在教一個孩子如何射箭。每次他射中靶心,你都給他一個高分;每次他射偏了,你都記錄下他離靶心的距離。這個「離靶心的距離」就是損失,而這個記錄距離的過程,就是損失函數在做的事。
損失函數的用途
損失函數是機器學習模型學習和優化的關鍵。它的主要用途如下:
- 評估模型表現: 損失函數給出一個量化的數值,讓我們知道模型在當前資料集上的表現好壞。損失值越小,代表模型預測得越準確;損失值越大,代表預測越不準確。
- 指導模型學習: 機器學習的目標,就是透過不斷調整模型的參數(例如神經網路中的權重和偏差),來最小化損失函數的值。這個過程通常透過梯度下降(Gradient Descent)等優化演算法來實現。
可以把損失函數想像成一張地圖,地圖上的高度代表損失值。梯度下降演算法就像是從地圖上隨機一點出發,每次都朝著最陡峭的下坡方向走一小步,最終找到地圖上的最低點。
幾種常見的損失函數
損失函數的選擇取決於你要解決的問題類型。
- 均方誤差 (Mean Squared Error, MSE)
- 用途: 主要用於迴歸問題,也就是預測連續數值(例如房價、氣溫)。
- 原理: 計算每個預測值與真實值之間差的平方,再取平均。
- 特點: 對於較大的誤差會給予更高的懲罰,因為誤差被平方了。
- 交叉熵 (Cross-Entropy)
- 用途: 主要用於分類問題,特別是邏輯迴歸和神經網路。
- 原理: 衡量兩個機率分布之間的差異。在分類問題中,就是衡量模型預測的機率分布與真實類別(一個one-hot 編碼的機率分布)之間的差異。
- 特點: 當預測錯誤時,會產生巨大的損失,能有效引導模型修正錯誤。
- 平均絕對誤差 (Mean Absolute Error, MAE)
- 用途: 也是用於迴歸問題。
- 原理: 計算每個預測值與真實值之間差的絕對值,再取平均。
- 特點: 相較於 MSE,MAE 對於異常值(Outliers)的影響較不敏感,因為它不會將誤差平方。
LLM 評估基準(Benchmark)
| 基準名稱 | 類型 | 特性與用途 | 主要評估能力 |
| MMLU | 通用型 | 包含 57 個學科的多選題,從人文到理工科皆有,能全面評估模型的知識廣度。 | 專業知識、常識、多領域理解 |
| HellaSwag | 通用型 | 測試模型在日常情境中的常識推理能力,選項設計得非常相似,能有效評估語境理解。 | 日常推理、語境理解、常識判斷 |
| ARC | 通用型 | 包含來自小學到高中程度的科學問題,重點在於評估模型的科學推理與解題能力。 | 科學知識、邏輯推理、多步驟解題 |
| HumanEval | 特定型 | 專為評估程式碼生成而設計,提供函式說明讓模型生成程式碼。 | 程式碼生成、除錯能力、邏輯編程 |
| GSM8K | 特定型 | 包含小學程度的數學應用題,雖問題簡單,但需多步驟推理才能解答。 | 數學運算、邏輯推理、數學解題 |
| AlpacaEval | 特定型 | 透過另一個更強大的 LLM(如 GPT-4)作為評審,來評估模型的回應品質。 | 指令遵循、對話流暢度、回答品質 |
聯合學習 (Federated Learning)
保護資料隱私的機器學習方案
過去為優化AI 演算法,會將用戶資料上傳到資料中心進行訓練,但國際法規規定對個人資料的使用行為必須要有用戶的授權與同意,讓資料使用、整合與共享形成一道難以跨越的高牆。聯合學習突破「資料共享」與「資料隱私」之間的難題,以「模型共享」方式,在資料不用離開用戶裝置的情況下,進行AI 演算法訓練,如醫療產業為主要應用領域之一。如醫療產業、手機上的 Siri/Google Gemini App 等主要應用領域。