Week 4作業
課本重點摘錄
一.Central Tendency (mean, median, mode, geometric mean)
二.Variation and Shapes (range, variance, coefficient of variation, skewness, Z scores)
三.Quartiles (interquartile range)
一.Central Tendency(集中趨勢) 課本p120始
大多變數呈現聚集在中間值的趨勢
三種主要的集中趨勢測量,mean平均數, median中位數, mode眾數
a.The Mean (平均數)
又叫作Arithmetic mean(算術平均數),是中央趨勢中最常用的測量。
1.平均數可呈現一組資料的“平衡點”,也就是中間值。
2.在平均數中,每個值扮演同等的角色。
3.平均數的算法就是把全部值加起來並且除以值的數量,可寫為公式
X̄=sum of values/number of values
4.每個值扮演一樣重要的地位,所以在“有差異很大的值”時,應該避免使用。
b.The Median (中位數)
中位數是當資料被由小至大依序排名時,位於中間的那個數。
1.因是排名中中間的那位,所以前面一半會小於等於中位數,後面一半反之。
2.不會被極端的數值影響。
3.中位數可寫成公式
median = (n+1)/2 ranked value
4.做中位數時遵循兩個規則
4-1如果是奇數個數字,則取排名中間那個。
4-2如果是偶數個數字,則去排名中間兩個平均。
c.The Mode(眾數)
眾數就是資料中,出現頻率最高的一個數字。
d.The Geometric Mean(幾何平均數)
在要取得一段時間內變數的比率變化時使用(平均比率與平均速度)。
1.Geometric Mean幾何平均數
n個值相乘以後開n次根號。
2.Geometric Mean Rate of Return 幾何平均收益
將單期的收益率相乘再開n次根號。
二.Variation and Shapes 課本p126開始
除了中央趨勢外,變數也可以用變量以及形狀來區分。
變異數測量資料的分散程度
a.The Range(全距)
全距即是資料中的最大值減去最小的值。
b.The Variance(變異數)
1.簡單的算法可以是全部的數值減去平均數然後加起來(但會是零)。
2.將差異平方後相加SS,除以n-1 = 簡單變異數公式
以下取網路資源做了解
c.The Coefficient of Variation<CV>(變異係數)
變異係數為標準差除以平均數,CV資料相對於平均數的散佈程度。
1.變異係數變異數的相對測量,以“百分比”表示。用以比較單位不同或單位相同但資料差異甚大的資料分散情形。
2.變異係數的公式即為
3.變異係數大,分散程度大。
d.Z Scores(Standard Score)(標準分數)
1.數值和平均數的差除以標準差。
2.以標準差為單位來表示一個分數在團體中所處位置的相對位置量數。
3.標準分數幫忙辨識outliers , outliers是指特別突出,和其他人差特別遠的數。
4.當Z Score特別大特別小時,(通常小於-0.3或大於0.3)就是outlier。
e.Skewness(偏態)
偏態用來說明一組數據的分佈情況,判斷相對平均數是否對稱
用平均數與中位數的關係來判斷
平均數大於中位數 右偏
平均數等於中位數 對稱
平均數小於中位數 左偏
三.Quartiles (interquartile range) 四分位數 課本p137開始
四分位即以百分之25分為線分界分成四等份。
Q1就是從小開始前面百分之25,Q2則是從小開始前面百分之五十,類推。
網路參考資料http://ocw.nctu.edu.tw/course/stat021/CH2.pdf