名詞筆記

平均數/中位數/眾數

平均值、中位數及眾數是統計學中用來描述一組數據的集中趨勢的三種不同方法。下面是對這三種方法的具體說明和案例：

平均值（Mean）：平均值是指一組數據的總和除以數據的個數。計算平均值的時候，所有的數據都會被考慮到。平均值對於描述數據的整體水平很有用，但如果數據中有極端值（例如異常高或異常低的數據），平均值可能會被這些極端值所影響，從而不能準確地反映數據的真實情況。

案例：假設有一家公司有5名員工，分別的工資是2000、2500、3000、3500和4000元。平均工資 = (2000 + 2500 + 3000 + 3500 + 4000) / 5 = 3000元。
中位數（Median）：中位數是指將數據按從小到大的順序排列後，位於中間位置的數據。如果數據的個數是奇數，中位數就是中間的那個數據；如果數據的個數是偶數，中位數就是中間兩個數據的平均值。中位數對於描述數據的中間位置很有用，尤其是在數據中有極端值的情況下。

案例：假設有一組數據：1、3、5、7、9。中位數是5，因為它是中間的數據。
眾數（Mode）：眾數是指在一組數據中出現次數最多的數據。一個數據集可能有多個眾數，也可能沒有眾數（如果所有數據都不同）。適合用於類別資料分析，例如教育程度。

案例：假設有一組數據：1、2、2、3、4、4、4。眾數是4，因為它出現的次數最多。

綜上所述，平均值、中位數和眾數都是描述數據集中趨勢的重要指標，但它們反映的方面不同，適用的情況也不同。平均值對於描述整體水平很有用，但可能受極端值的影響；中位數對於描述中間位置很有用，尤其是在有極端值的情況下；眾數則反映了最常見的數據值。

直方圖/散佈圖/雷達圖

以下是簡單的解釋：

直方圖（Histogram）：是一種統計圖表，用於顯示資料的分布情況。它將資料分成多個區間（bin），並計算每個區間的頻率（frequency）。直方圖可以幫助我們了解資料的集中趨勢、離散程度和分布形狀。

例子：如果我們想要了解一組學生的考試成績分布情況，可以使用直方圖來顯示成績的分布。

散佈圖（Scatter plot）：是一種統計圖表，用於顯示兩個變數之間的關係。它將每個資料點繪製在座標平面上，x軸代表一個變數，y軸代表另一個變數。散佈圖可以幫助我們了解兩個變數之間的相關性和模式。

例子：如果我們想要了解身高和體重之間的關係，可以使用散佈圖來顯示這兩個變數之間的關係。

雷達圖（Radar chart）：是一種統計圖表，用於顯示多個變數之間的關係。它將每個變數繪製在極坐標系上，形成一個多邊形圖形。雷達圖可以幫助我們了解多個變數之間的相關性和模式。

例子：如果我們想要了解一組產品的多個特性（如價格、性能、設計等）之間的關係，可以使用雷達圖來顯示這些變數之間的關係。

4. 箱型圖 (Box chart)：展示數據的分布情況，可顯示中位數、四分位數與異常值。

四分位數

四分位數（Quartile）：是一種統計量，用於描述資料的分布情況。它將資料分成四個區間，每個區間包含25%的資料。四分位數包括：

- 第一四分位數（Q1）：資料的下25%的值
- 第二四分位數（Q2）：資料的中位數（中間50%的值）
- 第三四分位數（Q3）：資料的上25%的值
- 四分位距（IQR）：Q3 - Q1，代表資料的離散程度

例子：如果我們想要了解一組學生的考試成績分布情況，可以使用四分位數來描述成績的分布。例如，Q1 = 60，Q2 = 70，Q3 = 80，IQR = 20，代表成績的中位數是70，下25%的成績是60以下，上25%的成績是80以上，成績的離散程度是20。

四分位距特點：

常用來檢測異常值
不受極端值影響
僅代表 50% 資料的分散程度

計算例子：

要計算 Q1、Q2 和 Q3，需要按照以下步驟進行：

將數據集依小至大排序：80, 85, 85, 90, 90, 95, 95, 100, 100
計算數據集的位置：
- 第一四分位數 (Q1) 是排序後數據集的 25% 位置的值。
- 第二四分位數 (Q2) 是排序後數據集的 50% 位置的值，即中位數。
- 第三四分位數 (Q3) 是排序後數據集的 75% 位置的值。
由於數據集有 9 個值，計算位置如下：
- 25% 位置 = (9 + 1) * 0.25 = 2.5，四捨五入為 3，所以 Q1 是第 3 個值。
- 50% 位置 = (9 + 1) * 0.5 = 5，所以 Q2 是第 5 個值。
- 75% 位置 = (9 + 1) * 0.75 = 7.5，，所以 Q3 是第 7 個值。
根據排序後的數據集，找到對應的值：
- Q1 = 第 3 個值 = 85
- Q2 = 第 5 個值 = 90
- Q3 = 第 8 個值 = 100

因此，Q1 = 85，Q2 = 90，Q3 = 95。

四分位距 (IQR) = Q3 - Q1 = 95 - 85 = 10

DALL-E vs Midjourney

DALL-E 和 Midjourney 是兩種基於人工智慧的圖像生成工具，以下是簡單的說明和比較：

DALL-E

DALL-E 是一種基於變分自編碼器（VAE）和_transformer 的圖像生成模型。
它可以根據文字描述生成圖像，例如「一隻狗坐在椅子上」。
DALL-E 的生成圖像通常具有高品質和細節，但可能需要大量的計算資源和數據。
DALL-E 的主要優點是其生成圖像的多樣性和創造性，但也可能產生不合理或不現實的圖像。

Midjourney

Midjourney 是一種基於生成對抗網絡（GAN）和_diffusion 模型的圖像生成工具。
它可以根據文字描述生成圖像，例如「一座未來城市的風景」。
Midjourney 的生成圖像通常具有高品質和細節，且比 DALL-E 更加快速和高效。
Midjourney 的主要優點是其生成圖像的速度和效率，但也可能產生不夠多樣或不夠創造性的圖像。

比較

生成品質：DALL-E 和 Midjourney 都可以生成高品質的圖像，但 DALL-E 的生成圖像可能更加多樣和創造性。
計算資源：Midjourney 比 DALL-E 更加快速和高效，需要較少的計算資源。
文字描述：DALL-E 和 Midjourney 都可以根據文字描述生成圖像，但 DALL-E 的文字描述可能更加複雜和細節。
應用場景：DALL-E 可能更加適合於需要高品質和創造性的圖像生成任務，例如藝術和設計；Midjourney 可能更加適合於需要快速和高效的圖像生成任務，例如廣告和行銷。

總之，DALL-E 和 Midjourney 是兩種不同的圖像生成工具，各有其優缺點和適用場景。

BERT (Transformer)

BERT (Transformer) 模型的原理：

基於Transformer架構：BERT的核心是Transformer模型，該模型使用自注意力機制（Self-Attention）來處理序列數據。這使得BERT能夠捕捉到文本中詞彙之間的長距離依賴關係和上下文信息。
預訓練：BERT通過大規模的預訓練數據集進行訓練，學習到通用的語言特徵和語義信息。預訓練任務包括掩碼語言模型（Masked Language Modeling）和下一句預測（Next Sentence Prediction）。
細調訓練：在預訓練的基礎上，BERT可以通過少量的任務特定數據進行細調訓練，以適應特定的下游任務，如文本分類、命名實體識別等。

使用情境：

文本分類：BERT在文本分類任務中表現出色，如情感分析、主題分類等。
命名實體識別：BERT可以用於識別文本中的命名實體，如人名、地名、組織名等。
問答系統：BERT可以用於自然語言問答系統，理解問題的意圖和上下文。
文本生成：BERT可以用於文本生成任務，如自動摘要、文本填充等。
語言翻譯：BERT可以用於語言翻譯任務，特別是在低資源語言的翻譯中。

BERT的優勢在於其能夠捕捉到語言的深層語義信息和上下文關係，使得它在各種NLP任務中表現出色。

準確度/精確率/錯誤率/召回率

模型評估指標

準確度（Accuracy）：判斷正確的比例，不適用於數據（類別）不平衡的資料。
精確率（Precision）：預測為正的樣本中，實際為正的比例。減少誤判（FP）很重要時使用。
召回率（Recall）：實際為正的樣本中，被成功找出的比例。避免漏判（FN）很重要時使用。
錯誤率（Error）：判斷錯誤的比率。
- 錯誤率 = (FP+FN) / 總數
- 錯誤率 = 1 - 準確度
F1 Score：Precision 與 Recall 的調和平均值。適用於資料不平衡的情況。
平均絕對誤差（MAE）：
- 適用於預測數值問題，例如預測氣溫，房價等
- 計算預測值與實際值之間的平均距離。
- 對於每一個預測誤差的影響是等同的，不像 MSE 那樣放大較大
  的誤差。
- MAE 的單位與預測目標相同，例如溫度預測的 MAE 單位是 °C。
均方誤差（MSE）：
- 適用於迴歸問題，反映預測誤差的大小。
- 強調較大的誤差，因為誤差值會被平方，適合於對較大誤差敏感
  的情境。
AUC-ROC：衡量模型整體區分正負樣本的能力，數值愈高愈好（1 是完美）。

不同應用場景需要不同評估重點：

機場安檢：召回率優先
金融詐騙：召回率優先
醫療診斷：召回率與精確率都重要
自動駕駛：各項指標都需要極高標準

損失函數 (Loss Function)

損失函數（Loss Function）是用於衡量模型預測結果與真實標籤之間差異的函數。在訓練大語言模型時，損失函數扮演著至關重要的角色，以下是簡單的解釋：

什麼是損失函數？

損失函數是一種數學函數，計算模型預測結果與真實標籤之間的差異。這個差異被稱為「損失」或「誤差」。損失函數的目的是要找到模型的最佳參數，使得損失最小化。

使用時機：

損失函數在訓練大語言模型時使用，尤其是在監督式學習（Supervised Learning）中。當模型預測結果與真實標籤不符時，損失函數會計算出這個差異，然後模型會根據這個差異調整其參數，以減少損失。

使用方式：

選擇損失函數： 根據模型的任務和輸出類型，選擇適合的損失函數。常見的損失函數包括均方差（Mean Squared Error, MSE）、交叉熵（Cross-Entropy）等。 計算損失： 將模型預測結果和真實標籤代入損失函數，計算出損失值。 反向傳播： 根據損失值，計算出模型參數的梯度（Gradient），並將其傳播回模型的前一層。 優化： 使用優化演算法（例如梯度下降法，Stochastic Gradient Descent, SGD）更新模型參數，以減少損失。 重複： 重複步驟2-4，直到模型收斂或達到預設的停止條件。

常見的損失函數包括：

均方差（Mean Squared Error, MSE）：用於回歸任務交叉熵（Cross-Entropy）：用於分類任務二元交叉熵（Binary Cross-Entropy）：用於二元分類任務

總之，損失函數是訓練大語言模型的核心部分，幫助模型學習到最佳參數，以最小化預測結果與真實標籤之間的差異。