วันพฤหัสบดีที่ 20 กุมภาพันธ์ พ.ศ. 2563

โปรแกรม R บทที่ 7


บทที่ 7
การทดสอบสมมติฐาน


7.1 การทดสอบสมมติฐานสำหรับสัดส่วนของประชากร
(Hypothesis Test for a Population Proportion)
            นักวิจัยอาจต้องการที่จะทราบว่าความนิยมในพรรคการเมืองพรรคหนึ่งน้อยลงหรือไม่ หรืออัตราการวางงานของคนไทยเพิ่มขึ้นหรือไม่ หรือสัดส่วนของคนที่ไม่รู้หนังสือเปลี่ยนแปลงไปจากเดิมหรือไม่ เราสามารถใช้การทดสอบสัดส่วนในการตอบคำถามเหล่ านี้ได้
            สมมติให้
p0 ค่าสัดส่วนที่แท้จริงที่ สะท้อนถึงสิ่งที่ เกิดขึ้นในอดีตของตัวแปรๆหนึ่งที่ เราสนใจ นักวิจัยอาจต้องการที่จะทดสอบว่าค่าสัดส่วนของตัวแปรเดียวกันนี้ในปัจจุบันp มีค่าแตกต่างไปจากp0 หรือไม่ โดยมีสมมติฐานที่ทดสอบคือ
            H0: p= p0
เปรียบเทียบกับสมมติฐานทางเลือกที่ เป็ นไปได้สามแบบดังนี้
           
Ha: p > p0 ,     Ha: p < p0 ,   Ha: p p0
            หากในการทำการสำรวจได้มีการสุ่มตัวอย่างจากประชากรเป้ าหมาย แล้วจำนวนของสิ่งที่สนใจx จะมีการแจกแจง แบบทวินาม เมื่อ  ˆp= x/nและˆpจะมีการแจกแจงประมาณได้ด้วยการแจกแจงแบบปกติ ถ้า nมีขนาดใหญ่พอ เราอาจจะใช้ ˆp เป็ นค่าสถิติทดสอบได้โดยตรง แต่วิธีที่นิยมใช้มากกว่าคือการแปลงค่า ˆpให้
เป็นค่
ามาตรฐาน   และค่าp-value จะมีค่าเปลี่ยนแปลงไปตามสมมติฐานทางเลือก ดังนี้
            

            โดยที่ ในสองกรณีแรกเป็ นการทดสอบแบบทางเดียว และกรณีที่ สามเป็ นการทดสอบแบบสองทาง



การทดสอบสัดส่วนของประชากร
            สมมติฐานที่ทดสอบคือ
H0: p= p0 ,
  Ha: p < p0 , p > p0 , p p0
ค่าสถิติทดสอบคือ
                       

ˆpได้มาจากตัวอย่างสุ่มที่ มีขนาดใหญ มากพอ แล้ว Zจะมี การแจกแจงแบบปกติ มาตรฐานภายใต้สมมติฐาน
หลัก และหาค่า
p-value ได้ตามที่กล่าวมาแล้ว   ในR มีฟังก์ชันprop.test( ) ที่ สามารถนำมาใช้ในการทดสอบสมมติฐานนี้ได้
ตัวอย่างที่ 7.1
           
ในสหรัฐอเมริกา จากการศึกษาพบอัตราความยากจนเพิ่มขึ้นจากเรื่อยๆในแต่ละปี หากการทำสำมะโน
ในปี
2000 พบว่ามีอัตราคนยากจน 11.3 เปอร์เซ็นต์ ของประชากรทั้งหมด นักวิจัยอยากทราบว่าอัตราคนยากจนในปี 2001 จะเพิ่มขึ้นจากในปี 2000 จริงหรือไม่ จึงได้สุ่มคนมาจำนวน 50,000 คน พบว่ามีอัตราคนยากจนอยู่ 11.7เปอร์เซ็นต์ เราต้องการทดสอบว่าจากตัวเลข 11.7 เปอร์เซ็นต์ จะบอกได้หรือไม่อัตราคนยากจนในสหรัฐอเมริการนั้นเพิ่มขึ้นในปี 2001
            สมมติฐานในการทดสอบคือ
H0: p= 0.113,   Ha: p >0.113
            จากข้อมูลเราทราบว่าในคน
50,000 คน ที่สุ่มมานั้นมีคนอยู่ 11.7 เปอร์เซ็นต์ ที่เป็นยากจน หรือคือ
จำนวน
5,850  คน นั่นเอง เราสามารถหาค่าp-value ของการทดสอบได้ดังนี้
> p0 = .113; n = 50000; sd = sqrt(p0*(1-p0)/n)
> pnorm(.117, mean=p0, sd = sd, lower.tail=FALSE)
[1] 0.002362807

            จากค่า
p-value = 0.0024 ซึ่งถือว่ามีนัยสำคัญอย่างยิ่ง ดังนั้นจึงสรุปได้ว่าอัตราคนยากจนในปี 2001 นั้นสูงกว่าในปี 2000 อย่างมีนัยสำคัญทางสถิติ
การใชprop.test( ) ในการหาค่าp-value
            จากตัวอยาง 7.1 นั้นเราสามารถหาค่าp-value ของการทดสอบได้อีกวิธีหนึ่ง นั่นคือการใช้ฟังก์ชัน
prop.test( )  ซึ่ งเราเคยใช้ฟังก์ชันนี้ในการหาช่ วงความเชื่ อมั่นของสัดส่ วนของประชากรภายใต้เงื่ อนไขอย่ างเดียวกันมาแล้ว  การใช้ฟังก์ชันprop.test( ) สำหรับทดสอบสมมติฐานเกี่ยวกับสัดส่วนของประชากร มีรูปแบบดังนี้    
                       
prop.test(x, n, p=..., alternative="two.sided")
            เมื่อ
x คือจำนวนของสองที่สนใจในตัวอย่าง,n คือขนาดตัวอย่าง,p คือค่าp0 ในสมมติฐานหลัก และ
alternative คือการกำหนดสมมติฐานทางเลือก ซึ่งมีค่าให้เลือกอยู่สามค่า คือ "less", "greater" หรือ "two.sided"
ชุดคำสั่งต่อไปนี้แสดงการใช้ฟังก์ชัน
propo.test( ) ในการทดสอบสมมติฐานในตัวอย่างที่ 7.1
> prop.test(x=5850, n=50000, p=.113, alt="greater")
1-sample proportions test with continuity correction
data: 5850 out of 50000, null probability 0.113
X-squared = 7.9417, df = 1, p-value = 0.002415
alternative hypothesis: true p is greater than 0.113
95 percent confidence interval:
0.1146464 1.0000000
sample estimates:
  
p
0.117
7.2 การทดสอบคาเฉลี่ย (t-test)
           
การทดสอบความมีนัยสำคัญของค่าเฉลี่ยของประชากร มีสมมติฐานที่ทดสอบ คือ
H0: µ= µ0 ,  Ha: µ < µ0 ,µ> µ0 ,  µ  µ0
และมีค่าสถิติทดสอบคือ   
                                   

            ในกรณีที่ประชากรมีการแจกแจงแบบปกติ ค่าสถิติทดสอบ
T จะมีการแจกแจงแบบt ด้วยจำนวนองศา
อิสระเท่ากับ
n1 Rมีฟังก์ชันที่ สามารถนำมาใช้ในการทดสอบสมมติฐานเกี่ ยวกับค่าเฉลี่ ยของประชากรคือ
t.test(x, mu=..., alt="two.sided")
            เมื่อ
x คือเวกเตอร์ของข้อมูลmu คือค่าµ0 ในสมมติฐานหลัก ส่วนalt คือสมมติฐานทางเลือก ซึ่งมีอยู่สามตัวเลือก  คือ "less", "greater" หรือ "two.sided"
ตัวอยางที่ 7.2
           
กลุ่มผู้บริโภคกลุ่มหนึ่งต้องการทราบว่า อัตราการใช้น้ำมันของรถปิ กอัพรุ่นใหม่เป็ นไปตามที่บริษัทรถยี่ห้อนั้นโฆษณาคือ 17 ไมล์ต่อแกลลอน หรือไม่ โดยกลุ่มผู้บริโภคคิดว่าอัตราการใช้น้ำมันน่าจะน้อยกว่าที่โฆษณาไว้พวกเขาจึงได้ทำการทดสอบโดยเติมน้ำเต็มถังให้กับรถคันหนึ่ง และนำรถไปขับจนกว่าน้ำมันจะหมด จากนั้นบันทึกระยะทางที่รถวิ่งได้ และทำการทดลองซ้ำ 10 ครั้ง ได้ข้อมูลดัง stem-and-leaf ต่อไปนี้
The decimal point is at the |
11 | 4
12 |
13 | 1
14 | 77
15 | 0569
16 | 08

            จาก
stem-and-leaf จะเห็นได้ว่าข้อมูลมีการแจกจแงใกล้เคียงกับการแจกแจงแบบปกติ ดังนั้นสมมติฐานทดสอบ  คือ    H0: µ= 17,   Ha: µ <17
            สมมติฐานนี้เป็ นสมมติฐานทางเดียว ค่า
p-value ของการทดสอบจะคำนวณได้จากการที่ค่าสถิติมีค่าน้อยกว่าค่าสถิติที่สังเกตได้จากข้อมู ลตัวอย่าง ดังนี้
> mpg = c(11.4,13.1,14.7,14.7,15.0,15.5,15.6,15.9,16.0,16.8)
> xbar = mean(mpg)
> s = sd(mpg)
> n = length(mpg)
> c(xbar,s,n)
[1] 14.870000   1.572012   10.000000
> SE = s / sqrt(n)
> (xbar - 17)/SE
[1] -4.284732
> pt(-4.2847, df=9, lower.tail=TRUE)
[1] 0.001017926

            จะเห็นได้ว่า
p-value มีค่าน้อยมากๆ ซึ่ งหมายความว่าคำโฆษณาที่ ว่ารถรุ่นนี้มีอัตราการใช้น้ำมัน 17 ไมล์ต่อแกลลอน นั้นไม่จริง  นอกจากการคำนวณหาค่าp-value ในข้างต้นแลว เราสามารถใช้ฟังก์ชันt.test( ) ได้ดังนี้
> t.test(mpg,mu=17,alt="less")
One Sample t-test
data: mpg
t = -4.2847, df = 9, p-value = 0.001018
alternative hypothesis true mean is less than 17 (
สมมุติฐานทางเลือกเป็นจริงค่าเฉลี่ย น้อยกว่า 17)
95
percent confidence interval (95 เปอร์เซ็นต์ของช่วงความเชื่อมั่น)
           
-Inf 15.78127
sample estimates: (การประมาณกล่มตัวอย่าง )
mean of x  (
ค่าเฉลี่ยของ x )
14.87
ตัวอยางที่ 7.3
           
ร้านจำหน่ายหนังสือแห่งหนึ่ งกล่าวว่า นักศึกษาในมหาวิทยาลัยจะจ่ายเงินในการซื้อหนังสือเรียน 101.75 เหรียญต่อวิชา แต่นักศึกษาเชื่อว่าพวกเขาจ่ายเงินมากกว่านี้ในการซื้อหนังสือเรียนในหนึ่งวิชา เพื่อทดสอบความเชื่อนี้ พวกเขาจึงได้สุ่มวิชาในมหาวิยาลัยมา 10 วิชา และบันทึกค่าหนังสือในแต่ละวิชาได้ข้อมูลดังนี้   140, 125, 150, 124, 143, 170, 125, 94, 127, 53
สมมติฐานที่ทดสอบคือ  
H0: µ= 101.75,  Ha: µ >101.75
ใช้ฟังก์ชัน
t.test( ) ทดสอบสมมติฐานนี้ได้ดังนี้
> x = c(140,  125,  150,  124,  143,  170,  125,  94,  127,  53)
> qqnorm(x)
> t.test(x, mu=101.75, alt="greater")
One Sample t-test
data: x
t = 2.291, df = 9, p-value = 0.02385
alternative hypothesis: true mean is greater than 101.75
95 percent confidence interval:

106.4169           Inf
sample estimates:
mean of x
           
125.1
            จะเห็นได้ว่า
p-value มีค่าน้อยมากหมายความนักศึกษาจ่ายเงินค่าหนังสือต่อรายวิชามากกว่า 101.75
หรียญ อย่างมีนัยสำคัญทางสถิติ
           
 
7.3 การทดสอบสัดส่วนสองประชากร
           
ในข้อนี้เราจะพิจารณาการเปรียบเทียบสัดส่วนของประชากรสองกลุ่ม เช่น การเปรียบเทียบผลการสำรวจ ณ เวลาที่ ต่างกัน หรือเปรียบเทียบผลการสำรวจการเป็ นที่ รู้จักของสินค้าก่อนและหลังการโฆษณา หรือการเปรียบเทียบความคิดเห็นของคนสองกลุ่ม เป็ นต้น
            จากตัวอย่างที่ 7.1  แทนการเปรียบเทียบอัตราคนยากจนในปี 2001 ซึ่งมีการสุ่มตัวอย่าง และปี 2000 ซึ่งได้จากการสำมะโน เราอาจต้องการเปรียบเทียบอัตราคนยากจนในปี 2001 กับปี 2002 ซึ่งได้จากสุ่มตัวอย่างทั้งคู่ได้ โดยอยากทราบว่าอัตราคนยากจนในปี 2002 นั้นสูงกว่าในปี 2001 หรือไม่ โดยมีสมมติฐานที่ทดสอบคือ
H0: p1= p2,  H0: p1 < p2
โดยใช
ˆp1และˆp2 เป็นคาสถิติทดสอบ โดยมีค่าสถิติทดสอบมาตรฐานคือ
                                   
เมื่อ                              p=
ในR มีฟังก์ชันprop.test( ) ในการทดสอบสัดสวนของประชากรสองกลุ่ม โดยมีรูปแบบดังนี้
prop.test(x, n, alt="two.sided")
เมื่อ
x คือเวกเตอร์ของจำนวนของสิ่งที่สนใจจากตัวอย่างสุ่มสองกลุ่ม และn คือเวกเตอร์ของขนาดตัวอย่างกลุ่มที่หนึ่ง และสอง
ตัวอย่างที่ 7.4
           
จากตัวอย่างที่ 7.1 ในปี 2001 นักวิจัยได้สุ่มตัวอย่างมา 50000 คน และมีอัตราคนยากจน 11.7% ส่วน
ในปี
2002 สุ่มตัวอย่างมาจำนวน 60000 คน มีอัตราคนยากจน 12.1% อยากทราบว่าจากข้อมูลตัวอย่างนี้ จะสรุปไดหรือไม่ว่าในปี 2002 มีอัตราคนยากจนมากกว่าในปี 2001 อย่างมีนัยสำคัญ
สมมติฐานที่ทดสอบคือ
           
H0: p1= p2,  Ha: p1 < p2
เราสามารถใช้ฟังก์ชัน prop.test( ) ในการทดสอบสมมติฐานนี้ได้ดังนี้
> phat = c(.117,.121)
> n = c(50000,60000)

> x = n*phat
> x
[1] 5850  7260
> prop.test(x,n,alt="less")
            2-sample test for equality of proportions with continuity correction
data:  x  out of  n
X-squared = 4.1187, df = 1,   p-value = 0.02121
alternative hypothesis: less
95 percent confidence interval:
-1.0000000000  -0.0007588993
sample estimates:
prop 1   prop 2
0.117    0.121
121
           
จะเห็นได้ว่าp-value มีค่าน้อย ดังนั้นจึงสรุปได้ว่าอัตราคนยากจนนั้นสูงขึ้นอย่างมีนัยสำคัญทางสถิติ
7.4 การทดสอบเปรียบเทียบค่าเฉลี่ยสองกลุ่มที่ตัวอย่างเป็นอิสระกัน
           
หากตัวอย่างสุ่มสองชุดเป็ นอิสระกัน โดยที่ประชากรที่สุ่มตัวอย่างมานั้นมีการแจกแจงแบบปกติ โดยมี
           
X –  จะเป็นตัวประมาณที่ดีของ µX µY ค่าสถิติทดสอบคือ
              
            ้าความแปรปรวนของประชากรทั้งสองเท่ ากัน แล้ว
                                   
เมื่อ                                      
            โดยT จะมีการแจกแจงแบบ t  ด้วย df= nx+ ny2
            ถ้าความแปรปรวนของประชากรทั้งสองไม่เท่ากันแล้ว
                                   
โดยT จะมีการแจกแจงแบบ t ด้วย
                                    
ในR มีฟังก์ชันt.test( ) ที่ สามารถทดสอบสมมติฐานนี้ได้ โดยมีรูปแบบดังนี้
           
t.test(x, y, alt="two.sided", var.equal=FALSE)
เมื่ อ
var.equal=FALSE เป็ default ของ argument นี้ ซึ่งเป็นการกำหนดว่าความแปรปรวนของประชากรไม่เท่ากัน
ตัวอยางที่ 7.5
           
AZT เป็ นยาที่ ใช้ในการรักษาผู้ป่ วยที่ ได้รับเชื้อ HIV โดยปริมาณยาที่ ใช้คือ 30 มก. สองครั้งต่อวัน
หากใช้ยาในปริมาณมากกว่านี้จะทำให้เกิดผลข้างเคียงต่อผู้ป่
วย แต่การใช้ยาในปริมาณที่ มากขึ้นอาจมีประสิทธิภาพมากกว่าก็ได้ เพื่อศึกษาถึงข้อสงสัยนี้ จึงได้มีการศึกษาขึ้นในป 1990 โดยเปรียบเทียบการใช้ยาในปริมาณ 300 มก., 600 มก.และ 1500 มก. ซึ่งจากการศึกษาพบวาการใช้ยาในปริมาณมากจะเปนพิษต่อผู้ป่วยมากขึ้น และที่สำคัญกว่านั้นคือการใช้ยาในปริมาณต่ำมีประสิทธิภาพดีเท่ากับการใช้ยาในปริมาณมาก โดยการวัดประสิทธิภาพของยานั้นวัดจากปริมาณของ  p24 antigen ที่ถูกกระตุ้นใหสร้างขึ้นจากอิทธิพลของยา ค่าวัด p24 ของคนไข้ที่ใช้ยาที่ปริมาณ 300 และ 600 มก.แสดงในตารางข้างล่าง
                       
 ใช้t-test ทดสอบว่าค่าเฉลี่ยของ p24 ของคนไข้ที่ใช้ยาสองระดับนี้แตกตางกันหรือไม่
ให้ µx คือค่าเฉลี่ยของ p24 ของคนไข้ที่ได้รับยาที่ปริมาณ 300 มก. และµy คือค่าเฉลี่ยของ p24 ของคนไข้ที่ได้
รับยา
600 มก. โดยสมมติฐานที่ทดสอบคือ
H0: µx= µy ,    Ha: µx  µy
ในการใช้t-test เราต้องตรวจสอบก่อนว่าความแปรปรวนของประชากเท่ากันหรือไม่ และประชากรมีการแจกแจงแบบปกติหรือไม่
> x = c(284,279,289,292,287,295,285,279,306,298)
> y = c(298,307,297,279,291,335,299,300,306,291)
> plot(density(x))
> lines(density(y),lty=2)
จากกราฟจะเห็นได้ว่าประชากรทั้งสองมีการแจกแจงใกล้เคียงการแจกแจงแบบปกติ โดยมีการกระจายใกล้เคียว กัน
           
> t.test(x,y,var.equal=TRUE)
Two Sample t-test
data: x and y
t = -2.034, df = 18, p-value = 0.05696
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:

     
-22.1584072    0.3584072
sample estimates:
mean of x mean of y
289.4       300.3
            จากค่า
p-value 0.0569 จะเห็นได้ว่ามากกว่าระดับนัยสำคัญ 0.05 จึงสรุปได้ว่าไม่มีความแตกต่างระหว่างค่าเฉลี่ยของค่า p24 ในคนไข้ที่ใช้ยาทั้งสองระดับ
7.5 การทดสอบเปรียบเทียบค่าเฉลี่ยสองกลุ่มเมื่อตัวอย่างเป็นอิสระกัน
            ในบางกรณีตัวอย่างสองกลุ่มไม่เป็ นอิสระกัน เช่น ตัวอย่างจากการศึกษาเกี่ยวกับฝาแฝด หรือการทดสอบเปรียบเทียบ ผลสอบก่อนและหลังบทเรียน เป็ นต้น
ตัวอย่างที่
7.6
            ในการศึกษาว่าสื่อการสอนที่อาจารย์ท่านหนึ่งผลิตขึ้นมาเพื่อใช้ในการเรียนสถิตินั้นได้ผลดีหรือไม่ จึงได้มีการให้นักเรียนทำแบบทดสอบก่อนและหลังการใช้สื่อการสอน ผลการทดสอบแสดงในตารางข้างล่างนี้
การทดสอบ คะแนน
ก่อน     
77  56  64  60  57  53  72  62  65  66
หลัง     
88  74  83  68  58  50  67  64  74  60
สมมติฐานที่ทดสอบคือ 
H0: µ1 µ2 ,  Ha: µ1 < µ2
โดยจะสมมติว่าข้อมูลมีการแจกแจงแบบปกติ เราสามารถใช้ฟังก์ชันt.test( ) ในการทดสอบสมมติฐานนี้ได้ดังนี้
> pre = c(77,56,64,60,57,53,72,62,65,66)
> post = c(88,74,83,68,58,50,67,64,74,60)
> t.test(pre,post,paired=TRUE,alt="less")

           
Paired t-test
data: pre  and  post
t = -1.8904, df = 9, p-value = 0.04564
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:

-Inf -0.1635821
sample estimates:
mean of the differences

                       
-5.4
                       

ไม่มีความคิดเห็น:

แสดงความคิดเห็น