การโปรแกรม R: โปรแกรม R บทที่ 7

บทที่ 7

การทดสอบสมมติฐาน

7.1 การทดสอบสมมติฐานสำหรับสัดส่วนของประชากร
(Hypothesis Test for a Population Proportion)
            นักวิจัยอาจต้องการที่จะทราบว่าความนิยมในพรรคการเมืองพรรคหนึ่งน้อยลงหรือไม่ หรืออัตราการวางงานของคนไทยเพิ่มขึ้นหรือไม่ หรือสัดส่วนของคนที่ไม่รู้หนังสือเปลี่ยนแปลงไปจากเดิมหรือไม่ เราสามารถใช้การทดสอบสัดส่วนในการตอบคำถามเหล่ านี้ได้
            สมมติให้p0 ค่าสัดส่วนที่แท้จริงที่ สะท้อนถึงสิ่งที่ เกิดขึ้นในอดีตของตัวแปรๆหนึ่งที่ เราสนใจ นักวิจัยอาจต้องการที่จะทดสอบว่าค่าสัดส่วนของตัวแปรเดียวกันนี้ในปัจจุบันp มีค่าแตกต่างไปจากp0 หรือไม่ โดยมีสมมติฐานที่ทดสอบคือ
            H0: p= p0
เปรียบเทียบกับสมมติฐานทางเลือกที่ เป็ นไปได้สามแบบดังนี้
            Ha: p > p0 ,     Ha: p < p0 ,   Ha: p

p0
            หากในการทำการสำรวจได้มีการสุ่มตัวอย่างจากประชากรเป้ าหมาย แล้วจำนวนของสิ่งที่สนใจx จะมีการแจกแจง แบบทวินาม เมื่อ ˆp= x/nและˆpจะมีการแจกแจงประมาณได้ด้วยการแจกแจงแบบปกติ ถ้า nมีขนาดใหญ่พอ เราอาจจะใช้ ˆp เป็ นค่าสถิติทดสอบได้โดยตรง แต่วิธีที่นิยมใช้มากกว่าคือการแปลงค่า ˆpให้
เป็นค่ ามาตรฐาน   และค่าp-value จะมีค่าเปลี่ยนแปลงไปตามสมมติฐานทางเลือก ดังนี้

โดยที่ ในสองกรณีแรกเป็ นการทดสอบแบบทางเดียว และกรณีที่ สามเป็ นการทดสอบแบบสองทาง

การทดสอบสัดส่วนของประชากร
สมมติฐานที่ทดสอบคือ
H0: p= p0 , Ha: p < p0 , p > p0 , p

p0
ค่าสถิติทดสอบคือ

ถ้าˆpได้มาจากตัวอย่างสุ่มที่ มีขนาดใหญ่ มากพอ แล้ว Zจะมี การแจกแจงแบบปกติ มาตรฐานภายใต้สมมติฐาน
หลัก และหาค่า p-value ได้ตามที่กล่าวมาแล้ว ในR มีฟังก์ชันprop.test( ) ที่ สามารถนำมาใช้ในการทดสอบสมมติฐานนี้ได้

ตัวอย่างที่ 7.1
            ในสหรัฐอเมริกา จากการศึกษาพบอัตราความยากจนเพิ่มขึ้นจากเรื่อยๆในแต่ละปี หากการทำสำมะโน
ในปี 2000 พบว่ามีอัตราคนยากจน 11.3 เปอร์เซ็นต์ ของประชากรทั้งหมด นักวิจัยอยากทราบว่าอัตราคนยากจนในปี 2001 จะเพิ่มขึ้นจากในปี 2000 จริงหรือไม่ จึงได้สุ่มคนมาจำนวน 50,000 คน พบว่ามีอัตราคนยากจนอยู่ 11.7เปอร์เซ็นต์ เราต้องการทดสอบว่าจากตัวเลข 11.7 เปอร์เซ็นต์ จะบอกได้หรือไม่อัตราคนยากจนในสหรัฐอเมริการนั้นเพิ่มขึ้นในปี 2001
          สมมติฐานในการทดสอบคือ
H0: p= 0.113,   Ha: p >0.113
            จากข้อมูลเราทราบว่าในคน 50,000 คน ที่สุ่มมานั้นมีคนอยู่ 11.7 เปอร์เซ็นต์ ที่เป็นยากจน หรือคือ
จำนวน 5,850 คน นั่นเอง เราสามารถหาค่าp-value ของการทดสอบได้ดังนี้

> p0 = .113; n = 50000; sd = sqrt(p0*(1-p0)/n)
> pnorm(.117, mean=p0, sd = sd, lower.tail=FALSE)
[1] 0.002362807
จากค่าp-value = 0.0024 ซึ่งถือว่ามีนัยสำคัญอย่างยิ่ง ดังนั้นจึงสรุปได้ว่าอัตราคนยากจนในปี 2001 นั้นสูงกว่าในปี 2000 อย่างมีนัยสำคัญทางสถิติ

การใชprop.test( ) ในการหาค่าp-value
            จากตัวอย่าง 7.1 นั้นเราสามารถหาค่าp-value ของการทดสอบได้อีกวิธีหนึ่ง นั่นคือการใช้ฟังก์ชัน
prop.test( ) ซึ่ งเราเคยใช้ฟังก์ชันนี้ในการหาช่ วงความเชื่ อมั่นของสัดส่ วนของประชากรภายใต้เงื่ อนไขอย่ างเดียวกันมาแล้ว การใช้ฟังก์ชันprop.test( ) สำหรับทดสอบสมมติฐานเกี่ยวกับสัดส่วนของประชากร มีรูปแบบดังนี้
                        prop.test(x, n, p=..., alternative="two.sided")
            เมื่อx คือจำนวนของสองที่สนใจในตัวอย่าง,n คือขนาดตัวอย่าง,p คือค่าp0 ในสมมติฐานหลัก และ
alternative คือการกำหนดสมมติฐานทางเลือก ซึ่งมีค่าให้เลือกอยู่สามค่า คือ "less", "greater" หรือ "two.sided"
ชุดคำสั่งต่อไปนี้แสดงการใช้ฟังก์ชันpropo.test( ) ในการทดสอบสมมติฐานในตัวอย่างที่ 7.1
> prop.test(x=5850, n=50000, p=.113, alt="greater")
1-sample proportions test with continuity correction
data: 5850 out of 50000, null probability 0.113
X-squared = 7.9417, df = 1, p-value = 0.002415
alternative hypothesis: true p is greater than 0.113
95 percent confidence interval:
0.1146464 1.0000000
sample estimates:
p
0.117

7.2 การทดสอบค่าเฉลี่ย (t-test)
การทดสอบความมีนัยสำคัญของค่าเฉลี่ยของประชากร มีสมมติฐานที่ทดสอบ คือ
H0: µ= µ0 , Ha: µ < µ0 ,µ> µ0 , µ

µ0
และมีค่าสถิติทดสอบคือ

ในกรณีที่ประชากรมีการแจกแจงแบบปกติ ค่าสถิติทดสอบ T จะมีการแจกแจงแบบt ด้วยจำนวนองศา
อิสระเท่ากับ n−1 Rมีฟังก์ชันที่ สามารถนำมาใช้ในการทดสอบสมมติฐานเกี่ ยวกับค่าเฉลี่ ยของประชากรคือ
t.test(x, mu=..., alt="two.sided")
เมื่อx คือเวกเตอร์ของข้อมูลmu คือค่าµ0 ในสมมติฐานหลัก ส่วนalt คือสมมติฐานทางเลือก ซึ่งมีอยู่สามตัวเลือก คือ "less", "greater" หรือ "two.sided"

ตัวอย่างที่ 7.2
            กลุ่มผู้บริโภคกลุ่มหนึ่งต้องการทราบว่า อัตราการใช้น้ำมันของรถปิ กอัพรุ่นใหม่เป็ นไปตามที่บริษัทรถยี่ห้อนั้นโฆษณาคือ 17 ไมล์ต่อแกลลอน หรือไม่ โดยกลุ่มผู้บริโภคคิดว่าอัตราการใช้น้ำมันน่าจะน้อยกว่าที่โฆษณาไว้พวกเขาจึงได้ทำการทดสอบโดยเติมน้ำเต็มถังให้กับรถคันหนึ่ง และนำรถไปขับจนกว่าน้ำมันจะหมด จากนั้นบันทึกระยะทางที่รถวิ่งได้ และทำการทดลองซ้ำ 10 ครั้ง ได้ข้อมูลดัง stem-and-leaf ต่อไปนี้
The decimal point is at the |
11 | 4
12 |
13 | 1
14 | 77
15 | 0569
16 | 08
            จาก stem-and-leaf จะเห็นได้ว่าข้อมูลมีการแจกจแงใกล้เคียงกับการแจกแจงแบบปกติ ดังนั้นสมมติฐานทดสอบ คือ    H0: µ= 17,   Ha: µ <17
            สมมติฐานนี้เป็ นสมมติฐานทางเดียว ค่าp-value ของการทดสอบจะคำนวณได้จากการที่ค่าสถิติมีค่าน้อยกว่าค่าสถิติที่สังเกตได้จากข้อมู ลตัวอย่าง ดังนี้
> mpg = c(11.4,13.1,14.7,14.7,15.0,15.5,15.6,15.9,16.0,16.8)
> xbar = mean(mpg)
> s = sd(mpg)
> n = length(mpg)
> c(xbar,s,n)

[1] 14.870000 1.572012   10.000000
> SE = s / sqrt(n)
> (xbar - 17)/SE
[1] -4.284732
> pt(-4.2847, df=9, lower.tail=TRUE)
[1] 0.001017926
            จะเห็นได้ว่าp-value มีค่าน้อยมากๆ ซึ่ งหมายความว่าคำโฆษณาที่ ว่ารถรุ่นนี้มีอัตราการใช้น้ำมัน 17 ไมล์ต่อแกลลอน นั้นไม่จริง นอกจากการคำนวณหาค่าp-value ในข้างต้นแล้ว เราสามารถใช้ฟังก์ชันt.test( ) ได้ดังนี้
> t.test(mpg,mu=17,alt="less")
One Sample t-test
data: mpg
t = -4.2847, df = 9, p-value = 0.001018
alternative hypothesis true mean is less than 17 (สมมุติฐานทางเลือกเป็นจริงค่าเฉลี่ย น้อยกว่า 17)
95 percent confidence interval (95 เปอร์เซ็นต์ของช่วงความเชื่อมั่น)
            -Inf 15.78127
sample estimates: (การประมาณกล่มตัวอย่าง )
mean of x (ค่าเฉลี่ยของ x )
14.87

ตัวอย่างที่ 7.3
            ร้านจำหน่ายหนังสือแห่งหนึ่ งกล่าวว่า นักศึกษาในมหาวิทยาลัยจะจ่ายเงินในการซื้อหนังสือเรียน 101.75 เหรียญต่อวิชา แต่นักศึกษาเชื่อว่าพวกเขาจ่ายเงินมากกว่านี้ในการซื้อหนังสือเรียนในหนึ่งวิชา เพื่อทดสอบความเชื่อนี้ พวกเขาจึงได้สุ่มวิชาในมหาวิยาลัยมา 10 วิชา และบันทึกค่าหนังสือในแต่ละวิชาได้ข้อมูลดังนี้   140, 125, 150, 124, 143, 170, 125, 94, 127, 53
สมมติฐานที่ทดสอบคือ   H0: µ= 101.75, Ha: µ >101.75
ใช้ฟังก์ชันt.test( ) ทดสอบสมมติฐานนี้ได้ดังนี้
> x = c(140, 125, 150, 124, 143, 170, 125, 94, 127, 53)
> qqnorm(x)
> t.test(x, mu=101.75, alt="greater")
One Sample t-test
data: x
t = 2.291, df = 9, p-value = 0.02385
alternative hypothesis: true mean is greater than 101.75
95 percent confidence interval:
106.4169           Inf
sample estimates:
mean of x
            125.1
            จะเห็นได้ว่าp-value มีค่าน้อยมากหมายความนักศึกษาจ่ายเงินค่าหนังสือต่อรายวิชามากกว่า 101.75
หรียญ อย่างมีนัยสำคัญทางสถิติ

7.3 การทดสอบสัดส่วนสองประชากร
ในข้อนี้เราจะพิจารณาการเปรียบเทียบสัดส่วนของประชากรสองกลุ่ม เช่น การเปรียบเทียบผลการสำรวจ ณ เวลาที่ ต่างกัน หรือเปรียบเทียบผลการสำรวจการเป็ นที่ รู้จักของสินค้าก่อนและหลังการโฆษณา หรือการเปรียบเทียบความคิดเห็นของคนสองกลุ่ม เป็ นต้น

จากตัวอย่างที่ 7.1 แทนการเปรียบเทียบอัตราคนยากจนในปี 2001 ซึ่งมีการสุ่มตัวอย่าง และปี 2000 ซึ่งได้จากการสำมะโน เราอาจต้องการเปรียบเทียบอัตราคนยากจนในปี 2001 กับปี 2002 ซึ่งได้จากสุ่มตัวอย่างทั้งคู่ได้ โดยอยากทราบว่าอัตราคนยากจนในปี 2002 นั้นสูงกว่าในปี 2001 หรือไม่ โดยมีสมมติฐานที่ทดสอบคือ
H0: p1= p2, H0: p1 < p2
โดยใชˆp1และˆp2 เป็นค่าสถิติทดสอบ โดยมีค่าสถิติทดสอบมาตรฐานคือ

เมื่อ p=

ในR มีฟังก์ชันprop.test( ) ในการทดสอบสัดส่วนของประชากรสองกลุ่ม โดยมีรูปแบบดังนี้
prop.test(x, n, alt="two.sided")
เมื่อx คือเวกเตอร์ของจำนวนของสิ่งที่สนใจจากตัวอย่างสุ่มสองกลุ่ม และn คือเวกเตอร์ของขนาดตัวอย่างกลุ่มที่หนึ่ง และสอง

ตัวอย่างที่ 7.4
จากตัวอย่างที่ 7.1 ในปี 2001 นักวิจัยได้สุ่มตัวอย่างมา 50000 คน และมีอัตราคนยากจน 11.7% ส่วน
ในปี 2002 สุ่มตัวอย่างมาจำนวน 60000 คน มีอัตราคนยากจน 12.1% อยากทราบว่าจากข้อมูลตัวอย่างนี้ จะสรุปได้หรือไม่ว่าในปี 2002 มีอัตราคนยากจนมากกว่าในปี 2001 อย่างมีนัยสำคัญ

สมมติฐานที่ทดสอบคือ
H0: p1= p2, Ha: p1 < p2

เราสามารถใช้ฟังก์ชัน prop.test( ) ในการทดสอบสมมติฐานนี้ได้ดังนี้

> phat = c(.117,.121)
> n = c(50000,60000)
> x = n*phat
> x
[1] 5850 7260
> prop.test(x,n,alt="less")

2-sample test for equality of proportions with continuity correction

data: x out of n
X-squared = 4.1187, df = 1, p-value = 0.02121
alternative hypothesis: less
95 percent confidence interval:
-1.0000000000 -0.0007588993
sample estimates:
prop 1   prop 2
0.117    0.121
121
            จะเห็นได้ว่าp-value มีค่าน้อย ดังนั้นจึงสรุปได้ว่าอัตราคนยากจนนั้นสูงขึ้นอย่างมีนัยสำคัญทางสถิติ

7.4 การทดสอบเปรียบเทียบค่าเฉลี่ยสองกลุ่มที่ตัวอย่างเป็นอิสระกัน
หากตัวอย่างสุ่มสองชุดเป็ นอิสระกัน โดยที่ประชากรที่สุ่มตัวอย่างมานั้นมีการแจกแจงแบบปกติ โดยมี
X –

จะเป็นตัวประมาณที่ดีของ µX− µY ค่าสถิติทดสอบคือ

ถ้าความแปรปรวนของประชากรทั้งสองเท่ ากัน แล้ว

เมื่อ

โดยT จะมีการแจกแจงแบบ t ด้วย df= nx+ ny−2
ถ้าความแปรปรวนของประชากรทั้งสองไม่เท่ากันแล้ว

โดยT จะมีการแจกแจงแบบ t ด้วย

ในR มีฟังก์ชันt.test( ) ที่ สามารถทดสอบสมมติฐานนี้ได้ โดยมีรูปแบบดังนี้
t.test(x, y, alt="two.sided", var.equal=FALSE)
เมื่ อvar.equal=FALSE เป็ น default ของ argument นี้ ซึ่งเป็นการกำหนดว่าความแปรปรวนของประชากรไม่เท่ากัน

ตัวอย่างที่ 7.5
AZT เป็ นยาที่ ใช้ในการรักษาผู้ป่ วยที่ ได้รับเชื้อ HIV โดยปริมาณยาที่ ใช้คือ 30 มก. สองครั้งต่อวัน
หากใช้ยาในปริมาณมากกว่านี้จะทำให้เกิดผลข้างเคียงต่อผู้ป่ วย แต่การใช้ยาในปริมาณที่ มากขึ้นอาจมีประสิทธิภาพมากกว่าก็ได้ เพื่อศึกษาถึงข้อสงสัยนี้ จึงได้มีการศึกษาขึ้นในปี 1990 โดยเปรียบเทียบการใช้ยาในปริมาณ 300 มก., 600 มก.และ 1500 มก. ซึ่งจากการศึกษาพบว่าการใช้ยาในปริมาณมากจะเป็นพิษต่อผู้ป่วยมากขึ้น และที่สำคัญกว่านั้นคือการใช้ยาในปริมาณต่ำมีประสิทธิภาพดีเท่ากับการใช้ยาในปริมาณมาก โดยการวัดประสิทธิภาพของยานั้นวัดจากปริมาณของ p24 antigen ที่ถูกกระตุ้นให้สร้างขึ้นจากอิทธิพลของยา ค่าวัด p24 ของคนไข้ที่ใช้ยาที่ปริมาณ 300 และ 600 มก.แสดงในตารางข้างล่าง

ใช้t-test ทดสอบว่าค่าเฉลี่ยของ p24 ของคนไข้ที่ใช้ยาสองระดับนี้แตกต่างกันหรือไม่

ให้ µx คือค่าเฉลี่ยของ p24 ของคนไข้ที่ได้รับยาที่ปริมาณ 300 มก. และµy คือค่าเฉลี่ยของ p24 ของคนไข้ที่ได้
รับยา 600 มก. โดยสมมติฐานที่ทดสอบคือ
H0: µx= µy , Ha: µx

µy

ในการใช้t-test เราต้องตรวจสอบก่อนว่าความแปรปรวนของประชากเท่ากันหรือไม่ และประชากรมีการแจกแจงแบบปกติหรือไม่
> x = c(284,279,289,292,287,295,285,279,306,298)
> y = c(298,307,297,279,291,335,299,300,306,291)
> plot(density(x))
> lines(density(y),lty=2)

จากกราฟจะเห็นได้ว่าประชากรทั้งสองมีการแจกแจงใกล้เคียงการแจกแจงแบบปกติ โดยมีการกระจายใกล้เคียว กัน

> t.test(x,y,var.equal=TRUE)
Two Sample t-test
data: x and y
t = -2.034, df = 18, p-value = 0.05696
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
      -22.1584072   0.3584072
sample estimates:
mean of x mean of y
289.4       300.3
            จากค่าp-value 0.0569 จะเห็นได้ว่ามากกว่าระดับนัยสำคัญ 0.05 จึงสรุปได้ว่าไม่มีความแตกต่างระหว่างค่าเฉลี่ยของค่า p24 ในคนไข้ที่ใช้ยาทั้งสองระดับ

7.5 การทดสอบเปรียบเทียบค่าเฉลี่ยสองกลุ่มเมื่อตัวอย่างเป็นอิสระกัน
            ในบางกรณีตัวอย่างสองกลุ่มไม่เป็ นอิสระกัน เช่น ตัวอย่างจากการศึกษาเกี่ยวกับฝาแฝด หรือการทดสอบเปรียบเทียบ ผลสอบก่อนและหลังบทเรียน เป็ นต้น
ตัวอย่างที่ 7.6
            ในการศึกษาว่าสื่อการสอนที่อาจารย์ท่านหนึ่งผลิตขึ้นมาเพื่อใช้ในการเรียนสถิตินั้นได้ผลดีหรือไม่ จึงได้มีการให้นักเรียนทำแบบทดสอบก่อนและหลังการใช้สื่อการสอน ผลการทดสอบแสดงในตารางข้างล่างนี้
การทดสอบ คะแนน
ก่อน      77 56 64 60 57 53 72 62 65 66
หลัง      88 74 83 68 58 50 67 64 74 60
สมมติฐานที่ทดสอบคือ H0: µ1− µ2 , Ha: µ1 < µ2

โดยจะสมมติว่าข้อมูลมีการแจกแจงแบบปกติ เราสามารถใช้ฟังก์ชันt.test( ) ในการทดสอบสมมติฐานนี้ได้ดังนี้

> pre = c(77,56,64,60,57,53,72,62,65,66)
> post = c(88,74,83,68,58,50,67,64,74,60)
> t.test(pre,post,paired=TRUE,alt="less")
Paired t-test

data: pre and post
t = -1.8904, df = 9, p-value = 0.04564
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-Inf -0.1635821
sample estimates:
mean of the differences
-5.4

การโปรแกรม R

หน้าเว็บ

วันพฤหัสบดีที่ 20 กุมภาพันธ์ พ.ศ. 2563

โปรแกรม R บทที่ 7

ไม่มีความคิดเห็น:

แสดงความคิดเห็น

ลิงค์ฟังมิวสิควิดิโอ