Archive for Courses

Week 10

這次考試考不好,大都因為太緊張,不是很熟悉電腦操作,而且忘了帶課本,所以考的不是很理想。雖然有及格,但進步的空間還是很大。

進步的方法如下:

1.熟悉觀念

2.大量練習

3.教別人

4.上網看資料 outsourcing

The grade of exam is not good, mostly because too tight, not very familiar with computer operation, and I forgot to bring textbooks, so the test is not very ideal. Although I passed the exam there is still great room for improvement.
Progress is as follows:
1. be familiar with the concept of
2. a lot of practice
3. Teach others
4. Look online data outsourcing

 

 

>>將內容用自己的手機、平版分享到.....

week 9

1.13.30  complete homework version –> https://www.dropbox.com/s/1n3yxo3dznfrmvv/03154150week9.pdf?dl=0

 photos can not be uploaded don’t know why please understand

(1)

 

H0= the mean height for females who prefer to sit in the back of the room ≤ average

 

H1= the mean height for females who prefer to sit in the back of the room > average

 

(4) p-value<α=0.05 reject the null hypothesis  the mean height for females who prefer to sit in the back of the room > average

 

2.13.44

(1)

H0=mean of placebo- mean of drug=0

H1= mean of placebo- mean of drug≠0

(4)p-value>α=0.05 do not reject the null hypothesis the claim that the drug could reduce jet lag couldn’t be accepted

3.13.45

(1)

(1)H0=blood pressure before-after=0

H1=blood pressure before-after≠0

(4)p-value<αreject the null hypothesis i.e. the blood pressure is higher before seeing the dentist

4.13.60

(1)

 

H0=men’s mean time of exercising=women’s mean time of exercising

H1= men’s mean time of exercising≠women’s mean time of exercising

(4) p-value<0.05 do not reject the null hypothesis i.e. the time of exercising has no association with gender

>>將內容用自己的手機、平版分享到.....

What are p-value, null value?

P-value

p-value is computed by assuming that the null hypothesis is true. When the p value is small enough, we reject the null hypothesis so as we accept the alternative hypothesis.”small enough” is defined as p value ≤α, where α =level of significance(usually0 .05)= 1-confidence interval

Null value

Ho:population parameter =null value

Null value is the specific number.If the parameter equals that number, then the null hypothesis is true.

Two-sided alternative hypothesis:

Ha:population parameter ≠null value

One-sided alternative hypothesis (choose one)

Ha: population parameter > null value

Ha: population parameter < null value

alternative hypothesis never includes the equals sign

Example 1 one-sided hypothesis test:

If researchers wanted to find out whether men have a lower mean pulse than women, the hypotheses for this one-sided hypothesis test would be:

Ho:μ1-μ2=0(μ1=μ2)

Ha:μ1-μ2<0(μ1<μ2)

μ1,μ2 are the mean pulse rates for the population of all men and all women, and the null value is 0.

Example 2

Suppose that a null hypothesis, in words, is that the mean weight for the population of newborn babies is the same in the United States as it is in England.

Ho:μ1-μ2=0

null value =0

Example 3

A legislator who wondered whether more than 50% of the voters in her district favored a law that would reduce the legal blood alcohol level that defines drunk driving. We let p= proportion of all voters in the district favoring the lower limit. A majority is p>0.5, so the null and alternative hypotheses for this situation may be written as:

Ho:p≤ 0.5(not a majority)

Ha:p>0.5(a majority)

The null value in this instance is pο=0.5

>>將內容用自己的手機、平版分享到.....

Week 7

1.上傳上課筆記

1460167957828-5700303671460168041224-12892154611460168071819-27991167314601681129464818125181460168156109-1584033414
2.預習
(1)全文翻譯466頁最後一個Definition

The level of significance 顯著水準

用希臘字母α表示,為判定p值(p-value)是否小的足以選擇對立假設之界線值(決定臨界區)。當p值小於或等於α時,拒絕虛無假設。當p值比α大時,則無法拒絕虛無假設。顯著水準亦稱為α水準測驗。由研究者選擇。

(2)全文翻譯469頁Example 12.7全部

醫學檢驗的誤差

想像你現在正被檢查是否患病。實驗室的技術人員和內科醫生評估你的結果時,必須在兩個假設下做選擇:

虛無假設:你沒病。對立假設:你有病。

不幸的是,很多實驗室對於疾病的檢測並非100%準確。結果可能是錯的。試想兩個可能的錯誤和後果:

可能錯誤1:你被檢測出病,但你其實沒有。檢測結果為假有。

後果:你會白擔心你的健康,而且還會接受不必要的治療,可能會受苦於不利的副作用。

可能錯誤2:你有病,但被檢查出沒病。檢測結果為假無。

後果:你有病卻沒接受治療,如果此病具傳染性,你可能會傳染給別人。

哪一個錯誤比較嚴重?在大多數醫療情況中,第二個情況,假無比較嚴重,但還是依疾病和接下來一連串採取的動作判定。例如,在癌症的篩選測試中,假無的結果可能會導致致命的延誤治療。最初的癌症測試結果為陽性時,大多會再重新測驗,所以假有會趕快被找到。

(3)全文翻譯470頁Definition

型1錯誤:出現時機為虛無假設為真時。錯誤出現在把對立假設當真。

型2錯誤:出現時機為對立假設為真時。錯誤出現在無法拒絕虛無假設。
(4)全文翻譯471頁Definition

當虛無假設為真時,型1錯誤的機率和顯著水準(α水準)相同。當虛無假設不真時,無法犯型1錯誤,所以機率為0。
3.複習
(1)P.500, 12.6

a. H1:p=0.7

b.H1:p>0.45

c.H1:p<0.4

(2)P.501, 12.20

a.0.03

b.0.05

c.0.61

d.100

e.0.5

(3)P.508,12.104 based on Example 12.17 on Page 488

Step1: Determine the null and alternative hypothesis.

H0:p1-p2<=0(or p1>p2)

Ha:p1-p2>0(or p1<=p2)

Step2: Summarize the data into an appropriate test statistic after first verifying necessary data conditions are met.

  • p^1= 0.25 p^2=0.09
  • The sample statistic is p^1-p^2=0.25-0.09=0.16
  • The combined proportion is p^=(783.81+250)/(8709+1000)=0.106
  • The null standard error is null s.e.(p^1-p^2)=[0.106(1-0.106)(1/8709+1/1000)]^(1/2)=0.0102783 about 0.0103
  • z=(Sample statistic-Null value)/Null standard error=0.16/0.0103=10.3129

Step3, 4, and 5:

Z score equals 10.3129 using table A.1 we could determine the probability 0.9999999 pvalue equals 1-0.999999=0.0000001

assume alpha value equals 0.05 which is larger than pvalue, so we could reject the null hypothesis.

Capture

>>將內容用自己的手機、平版分享到.....

week5

1.上課筆記上傳

14591575668921459157598053145915764119314591576760121459157701657145915772522314591577497931459157783383
2.預習
(1)全文翻譯462頁12.1至Lesson 1之間

假設檢測總覽

任何的假設檢測(亦稱顯著性檢測)都有五個基本步驟。這些應用五個比率參數的細節在第13章會提到。假設檢測在其他情況的應用在14到16章會提到。同樣的五個步驟總會用到,儘管一些細節改變。在第4章介紹的五個步驟如下:

1.決定用於推理母體的虛無假設與對立假設。

2.將所有重要的資料核對符合後,把資料總結為適當的測驗統計。

3.比較測驗統計與期望的所有可能性,看虛無假設是否屬實,以便找出P值。

4.用P值決定結果是否具統計顯著性。

5.將統計結論文字化。

習題模型的1、2會描述五個步驟的基礎概念與定義。習題3會討論假設中影響可能性的誤差的可能的誤差及因素。
(2)全文翻譯463頁definition

虛無假設用符號H0代表,表示沒有發生任何事情。特定的虛無假設因問題而異,但大致可視為維持現狀,或沒有關聯、無差異。在大部分的情況中,研究者希望可以反駁會推翻虛無假設。

對立假設用符號H1代表,表示有事情發生。在大多數的情況中,此假設為研究者希望證明的。它可能證明現狀是假的,或者有關連、有差異。
(3)全文翻譯464頁definition

單邊假設測驗是對立假設中,用來說明從特定的「虛無」值中單一方面的參數值。單邊假設測驗亦稱「單尾假設檢定」。

雙邊假設測驗是對立假設中,用來說明從特定的「虛無」值中雙方方面的參數值。雙邊假設測驗亦稱「雙尾假設檢定」。
(4)全文翻譯466頁definition

假設測驗的檢定統計量為資料的總彙,用於評估虛無及對立假設。

p值計算方式為:假設虛無假設為真,然後斷定檢定統計量為極值,或比以對立假設角度假設的檢定統計量更極端的觀察的檢定統計量機率。
3.複習
上課例題11.60利用PHStat做一遍

Capture123456

4.下週小考,範圍Ch10與Ch11(我有教的部分)

>>將內容用自己的手機、平版分享到.....

week 4

1.記得3/16筆記上網!

1458633672470145863370966514586337400681458633765453

 

2.P.451 Q11.26完整計算過程

1458633973383

3.P.451 Q11.30完整計算過程

14586358872281458635915047

4.以PHStat4軟體做Q11.30

ss

5.全文翻譯 P.439 Lesson 2至440頁Formula前

變異數相等假設和合併標準誤

在估計兩個母體平均數的差異時,有時可以合理假設兩個母體有相同標準差。變異數就是標準差的平方,所以假設相同的標準差也就表示變異數也相同。運用統計記號,我們可以將母體變異數相等的假設記為σ1^2=σ2^2=σ^2 σ^2代表變異數的共同值。有了變異數相等的假設,兩者群體的資料合併便可以估計出 σ^2的值。用合併估計出的變異數叫作合併變異數。合併變異數的方根叫作合併標準差,計算方法如下:

Sp

將個別的標準差s1與s2用合併版的sp代進公式成為兩者平均數差異的合併標準誤:

這些或許看似複雜,但如果變異數相等假設是正確的話,它為算出乘數t提供了更簡易的數學解決方法。此情況中,自由度df=n1+n2-2

6.全文翻譯P.442 Pooled or Unpooled?

合併與否

在範例11.14中,男性與女性的樣本標準差大約相同,所以假設母體標準差相同是合理的。然而平均數差異的信賴區間會大略相等,就算沒做標準差相同的假設。在未合併的過程中,母體平均數差異的95%信賴區間為-0.10到1.03小時,和合併過的-0.103到1.025小時蠻接近的。用合併方法的一項好處就是比較簡單。

兩個獨立樣本的樣本標準差幾乎從來都不會一樣。所以我們如何得知,何時是使用合併母體平均數差異的信賴區間的合理時機?還有當母體標準差真的不同時,使用合併方式計算又有什麼風險呢?我們會仔細探導此問題,當我們在第13章講到假設測試時,但這裡我們只給初步的導引:

*如果兩個樣本標準差的巨大差異,來自群體的大樣本數,則合併版本的則傾向於產生較未合併更大的信賴區間,所以為較保守的差異估計值,就像下個例子所描述的。類似於我們為求一個比利,而用信賴區間內保守的邊際誤差值,用較保守的合併方式是可以被接受的。但是對於操做過大的區間卻不是好方法。

*另一方面,如果兩樣本標準差中較小的來自於較大的樣本,使用合併的方法可能會產生偏離的狹窄區間。

*一般來說,最好是用未合併的方式,除非樣本標準差非常相近。

 

7.詳細解釋下表黃色的數字如何得出

03162

Sample Standard Deviation= σd/n^1/2

standard error of the mean=s/n^1/2=1.5206906/(9)^1/2

interval lower/upper limit= sample mean +- t*se=25.5+- 2.3036*0.506896878

>>將內容用自己的手機、平版分享到.....

Estimating Proportions with Confidence

以下作業-可以書寫在Word或Excel,但交到平台都要截圖, 掃瞄或是pdf檔。

1.忘了,記得3/10筆記上網!
1457769899367145776992821114577699585401457770002873145777003879914577700877561457770115994145777014513114577701725141457770199919
2.page 403, 10.12

1457770430635

3.page 405, 10.28

1457770476165

4.上述兩題以PHStat4軟體做一次。

10.1210.28

5. page 407, 10.58

1457770512541

6.全文翻譯p.416 Example 11.1

寵物與壓力

很多研究使用相依與獨立樣本的組合。獨立樣本用來比較群體或處理情形,相依樣本計用來測量兩者群體中每個人變動率的變化。

舉例來說,假設研究員想知道獨居的年長者養寵物是否能降低血壓。他們可以設計實驗:召募一些想參與實驗的自願者。隨機分配寵物給一半的受試者,另一半則當控制組。實驗開始時先測量所有自願者最初的血壓。然後六個月再次測量。資料比率為血壓的變化。

每個人血壓的變化就是相依差距(最初的血壓-最後的血壓)。像這樣蒐集資料方法就是一個用第一種方法(p.415″同樣的測量每人做兩次,在不同情況或時間下”)取得相依資料的例子。在這個例子中,血壓在兩種情況下進行測量:實驗一開始時,和養寵物的六個月後。

兩個群體血壓的變化,那些有寵物和沒有寵物的控制組構成了獨立樣本。如此收集資料的方法為第三種取得獨立樣本的方法”參與者被隨機指定兩者中其中一種情況,同樣的應變數也會隨單位記錄”。在這例子中,這兩種情況為寵物的有無,應變數則為實驗前後的測量。

參數比率為 Md= 獨居年長者擁有寵物母體平均血壓變化

M1-M2=母體中獨居年長者血壓平均變化不同,有寵物與沒有的比較

7.page 449, 11.6

1458117923221

8.參考 Example 11.1,解page 453, 11.46 a與b。

1458139838183

>>將內容用自己的手機、平版分享到.....

Week 2 hw

1. note
20160306_22270020160306_22270320160306_22272120160306_222710

2.全文翻譯p.378上面3個黑點

如果你受過敏困擾,你可能會想你有幾家公司。我們希望估計的參數為p=母體中受過敏困擾的比例。這參數在範例10.2中估計。

如果你贏了樂透,你會繼續工作嗎?其他人會怎麼做?一個比例參數p=工作中的成年人如果贏了樂透,說會辭掉工作的比例。這參數在範例10.6中估計。

女人和男人的說法是否一致,當與一個性格極好的人約會,會不看外貌?為了調查,我們可能要估計參數p=p1-p2=母體中對問題「你是否會與一個個性很好,但對你完全沒有吸引力的人約會?」回答是的女性與男性的比例差異程度。這參數在範例10.3中估計。

3.全文翻譯p.379 Example 10.1上面2段

將信賴區間作估計區間的概念

記得點分析有時候會用來當作樣本統計量(樣本估計值)的同義字synonym。這是因為在數線上,他是一個單一的數字或點。相反的,估計區間則是信賴區間的同義詞。儘管是一段區間的值,估計區間估計的是單一固定的母體的值。

一個信賴區間總會伴隨著一段信心水準,它告訴我們估計區間包含實際參數值的可能性有多高。最常用在研究和媒體的信心水準為95%。在這章節之後,我們將學習如何從任一特定的信心水準找出適當的區間。

4.全文翻譯p.381-382 Example 10.2

1998年四月,聖母學院公眾輿論調查了883個隨機抽樣的美國成年人是否過敏。根據學院網站的報告,樣本中36%的人對於「你是否對任何東西過敏」回答是,所以樣本比例中,回答是的為p̂=0.36。我們用樣本資訊計算出95%信賴區間對母體參數p=美國成年人對某些東西過敏的比例的估計值。部分公式樣本統計量+-乘數*標準誤的值如下:
樣本統計量=p̂=0.36
乘數=2(為了達到95%信心水準)
標準誤=(p̂(1-p̂)/n)^1/2=(0.36(1-0.36)/883)^1/2=0.016
95%的信賴區間為0.36+-2*0.016等於0.36+-0.032或0.328 0.392(約33%到39%)
翻譯:信賴區間0.328到0.392估計出所有美國成年人有過敏的比例。用百分比表示為33%到39%。信心水準(95%)描述了我們對於用來估計區間的信心程度。長期來看,這程序有效占95%的次數,意指它會提供涵蓋真實母體比例值的區間。

5.回答10.24(仿課本詳細過程)

20160308_064719

 

6.回答10.54(仿課本詳細過程)

1457406614392

>>將內容用自己的手機、平版分享到.....

Week 2 pre

1.p.327 中間那3段

統計量的標準差與標準誤

標準差公式的樣本分配因五種不同情況而有所差異,但在各個情況中,受到樣本大小影響,當樣本數變大時會變小。換句話說,當樣本數變大,可能質的變化性縮小。

為了從σ(獨立測量母體的標準差)區別出樣本分配的標準差,我們必須先從理論中預選。我們先將統計量視為理論上的標準差的一部份。然後將標準差樣本分配的平均值稱x̄。樣本分配標準差之於樣本的比率稱為p̂的標準差,以此類推。現在單單只用「標準差」已不足以提供足夠的資訊。為了能清楚表達,在使用標準差的字眼時應該說明,如母體測量標準差或樣本平均之標準差。

當我們使用統計推論的結果時,通常需要樣本資料來估計樣本分配之標準差。為了表明這個值是估計的,我們稱之為標準誤。所以,平均值的標準誤或是x̄的標準誤皆用來說明x̄的標準差,至於用來測量p̂的標準差,我們稱之為p̂的標準誤。

2.p.332 下半頁3段含公式

從單一樣本比例估計母體比例

從9.4例子中,我們從投票中用來預測的可能值範圍:n=2400 p=0.4 在值計操作中,當我們真的在政治選舉中隨機抽樣2400位投票者,我們只有一個樣本比例,而且無法知道母體的比例。但是,我們知道樣本與實際母體的比例大概相去多遠。而這項訊息就在p̂的標準差裡: s.d.(p̂) = (p(1-p)/n)^1/2

這公式包含p(母體比例)。在很多情況中,我們並不知道p的值。相反的,我們用觀察到的樣本比例(p̂)去估計未知參數p的值。於是我們用公式中樣本值p̂來估計p̂的標準差。而這估計的結果稱為p̂的標準誤。

s.e.(p̂)=(p̂(1-p̂)/n)^1/2

舉例來說,如果p̂=0.39 n=2400 s.e.=(0.39(1-0.39)/2400)^1/2=0.

01神奇的是,藉由單一的樣本決定出來這個值,用來估計所有可能樣本分配之標準本比例相當好用。因為我們已經知道實際平均值(p的比率)可以幾乎確定在觀察值p̂三個標準差以內,我們幾乎可以確定p的範圍在p̂+-3(s.e.)=0.39+-3(0.01)=0.39+-0.03。所以現在我們知道,實際支持候選人的比例幾乎可以確定介於0.36和0.42間。而唯一我們為了得知所需要的數值為樣本比例p̂還有樣本數n。

3.p.338 Definition下面那一段
測量值的標準差和樣本平均數標準差

小心不要搞混原始母體的測量值σ和本平均數標準差σ/n^1/2。參數σ是用來測量獨立母體的變異數。至於σ/n^1/2則是用來測量在母體中從不同隨機抽樣的n的樣本平均變異數。

4.p.339 最後一段含公式
平均數的標準誤

在實際操作過程中,母體標準差σ鮮少是知道的,所以樣本標準差s則用來代替它,當在尋找平均數之樣本分配標準差。與之前的做樣本比例的程序一樣,當做代換時,我們稱結果為平均值的標準誤。這論述合理,因為標準誤能大約的測量出平均x̄有誤差,並當作估計母體平均μ
我們將平均數的標準誤以s.e.(x̄)表示,公式如下:
s.e.(x̄)=s/n^1/2
s是樣本中觀察值的標準誤

5.p.348 中間之後的2段,最後一段不用
學生t分配:將σ代換成s
當在計算標準化後的統計平均值,我們面臨一個難題:我們鮮少知道母體標準差,而它又包含在公式裡。例如標準化x̄的分母包含鮮少知道的母體標準差σ。最好的解決辦法是,求出σ的逼近值,用樣本標準差s,然後用s.e.(x̄)=s/n^1/2推出s.d.(x̄)=σ/n^1/2。不幸的是,當樣本數很小時,使用這種方法通常會偏離目標,所以標準化的統計量不會完全符合標準常態分配。相反的,在特定情況下,它有一種分配,稱為學生t分配或t分布。

學生t-分配恆常是鐘形的,並對稱於平均數0。這個分配完全取決於單一參數,我們稱之為自由度degree of freedom(df)。在大部分的應用中,這參數是用來當作樣本數的功能,但是特定的自由度公式取決於問題的類型。像標準化的樣本平均數x̄ df=n-1。t分布的特性之一為,當自由度增加時,分配會越趨近於標準常態分佈的曲線。當t分布的自由度趨近於無限時,它和標準常態分布是一模一樣的。在實際操作中,如果自由度非常大時,它和標準常態分布是可替換地。

6.預習課程平台3/3筆記(3/1晚上上傳)

>>將內容用自己的手機、平版分享到.....

week1

 

notes

12495258_1006673792744246_8529100340192562767_n 12742443_1006673729410919_7204148064484809524_n 12742824_1006673592744266_5278738092840934156_n 12744619_1006673749410917_4432049423884178064_n 12744627_1006673529410939_9074798142272226417_n 12744710_1006673696077589_1723402750529825040_n 12745772_1006673672744258_5852912121448167059_n 12791098_1006673646077594_2847187611127752343_n 12376791_1006673622744263_4832547964506731447_n

Chapter 9 Understanding Sampling Distributions: Statistics as Random Variables

9.1 Parameters, Statistics, and Statistical Inference

parameter 參數 : numerical summary of a population, value is fixed and unchanging

statistic or sample statistic 樣本統計量 : a numerical summary of a sample, value may be different for different samples

statistical inference 推論統計: 研究如何根據樣本數據去推斷總體數量特徵的方法。它是在對樣本數據進行描述的基礎上,對統計總體的未知數量特徵做出以機率形式表述的推斷。更概括地說,是在一段有限的時間內,通過對一個隨機過程的觀察來進行推斷的。The two most common procedures are to find confidence intervals and to conduct hypothesis tests.

confidence interval 信賴區間 :參數的真實值有一定機率落在測量結果的周圍的程度。信賴區間給出的是被測量參數的測量值的可信程度。這個機率被稱為信心水準。舉例來說,如果在一次大選中某人的支持率為55%,而信心水準0.95上的信賴區間是(50%,60%),那麼他的真實支持率有百分之九十五的機率落在百分之五十和百分之六十之間,因此他的真實支持率不足一半的可能性小於百分之2.5(假設分布是對稱的)。

hypothesis testing or significance testing 假設檢定 : 根據某些樣本,推論統計可以進行實驗的檢定某個假設 H1 是否可能,其方法是透過否定對立假設 H0,看看 H0 是否不太可能發生。

9.2 From Curiosity to Questions about Parameters

 

9.3 SD Module 0: An Overview of Sampling Distributions

9.4 SD Module 1: Sampling Distribution for One Sample Proportion

9.5 SD Module 2: Sampling Distribution for the Difference in Two Sample Proportions

9.6 SD Module 3: Sampling Distribution for One Sample Mean

9.7 SD Module 4: Sampling Distribution for the Sample Mean of Paired Differences

9.8 SD Module 5: Sampling Distribution for the Difference in Two Sample Means

9.9 Preparing for Statistical Inference: Standard Statistics 

9.10 Generalizations beyond the Big Five

>>將內容用自己的手機、平版分享到.....