สถิติ( statistics ) หมายถึง สถิติที่ใชัในการสรุปอ้างอิงข้อมูลที่ได้จากกลุ่มตัวอย่างไปยังข้อมูลของประชากร โดยใช้ทฤษฎีความน่าจะเป็น การประมาณค่าพารามิเตอร์การทดสอบสมมุติฐาน ดังนั้น เนื้อหาที่สำคัญในบทนี้จะนำเสนอในเรื่องที่เกี่ยวข้องกับสถิติอ้างอิงก่อนได้แก่ มโนทัศน์เบื้องต้นของการแจกแจงความน่าจะเป็นแบบต่างๆ Sampling Distribution ของสถิติทดสอบแบบต่างๆ การสุ่มตัวอย่างและขนาดของกลุ่มตัวอย่าง การประมาณค่าพารามิเตอร์ แล้วจึงนำเสนอสถิติอ้างอิงเบื้องต้นที่สำคัญ ได้แก่ การทดสอบสมมติฐาน การวิเคราะห์ความแปร ปรวน ส่วนความสัมพันธ์ระหว่างตัวแปรและการทำนายตัวแปร จะกล่าวในบทต่อไป
มโนทัศน์เบื้องต้นของการแจกแจงความน่าจะเป็นแบบต่างๆ
ตัวแปรสุ่ม หมายถึง สิ่งที่มีความผันแปรโดยมีโอกาสในการเกิดความผันแปรได้เท่าๆกัน หรือเป็นเซ็ตของค่าที่ผันแปรได้ เช่น ถ้าให้ X เป็นตัวแปรสุ่มของการทอดลูกเต๋า 1 ครั้ง ค่าของ X ที่อาจจะเกิดขึ้นได้ มีค่าตั้งแต่ 1 – 6 โดยมีค่าความน่าจะเป็นหรือโอกาสในการเกิดค่าต่างๆได้เท่ากัน คือ 1/6 ประเภทของตัวแปรสุ่มแบ่งได้ 2 ชนิด คือ ตัวแปรสุ่มแบบไม่ต่อเนื่อง ( Discrete random variable) และ ตัวแปรสุ่มแบบต่อเนื่อง ( Continuous random variable)
- ตัวแปรสุ่มแบบไม่ต่อเนื่อง ( Discrete random variable) ค่าของตัวแปรสุ่มแบบไม่ต่อเนื่อง จะมีได้เพียงบางค่าและเป็นจำนวนนับ ซึ่งอาจมีจำนวนที่จำกัด หรือเป็นค่าอนันต์ที่นับได้ เช่น การจับใบดำ-แดงในการเกณฑ์ทหาร การโยนเหรียญ การทอดลูกเต๋า การตรวจสอบคุณภาพของสินค้า ตัวอย่างค่าที่ได้จากการสุ่มสินค้าที่เสีย X = 0 , 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10
- ตัวแปรสุ่มแบบต่อเนื่อง ( Continuous random variable) ค่าของตัวแปรสุ่มแบบต่อ
เนื่อง จะมีค่าจริงในช่วงที่ต่อเนื่องกัน เช่น น้ำหนัก ส่วนสูง ระยะเวลา ตัวอย่างค่าของน้ำหนักของนักเรียนมัธยมศึกษา จะอยู่ในช่วง 40-90 กิโลกรัม เขียนได้ว่า 40 < X < 90 กิโลกรัม
การแจกแจงความน่าจะเป็นของตัวแปรแบบไม่ต่อเนื่อง( Discrete probability distribution)
กรณีที่ตัวแปรสุ่มเป็นตัวแปรแบบไม่ต่อเนื่อง ตัวแปรชนิดนี้จะมีค่าบางค่าและจะมีการแจกแจงความน่าจะเป็นแบบต่างๆกันขึ้นอยู่กับลักษณะของการทดลองสุ่ม ซึ่งการแจกแจงความน่าจะเป็นของตัวแปรแบบไม่ต่อเนื่องที่ควรทราบ มีดังนี้
- การแจกแจงแบบทวินาม ( Binomial distribution)
เป็นการแจกแจงของตัวแปรสุ่มที่ไม่ต่อเนื่อง(Discrete random variable) ที่ในการทดลองแต่ละครั้งจะเกิดผลลัพธ์เพียง 2 อย่าง คือ สำเร็จ (success)กับผิดหวัง(failure)
การแจกแจงแบบทวินาม เขียนแทนด้วย b( x, n, p )
โดยที่ n คือ การทดลองซ้ำๆกันในสภาวะเหมือนๆกัน อย่างเป็นอิสระ
x คือ จำนวนความสำเร็จที่ได้จากการทดลอง n ครั้ง
p คือ ความน่าจะเป็นที่พบความสำเร็จ
ตัวอย่างเหตุการณ์ที่มีการแจกแจงแบบทวินาม เช่น การโยนเหรียญ การมีบุตร การทำข้อสอบเลือกตอบ ดังแสดงในตาราง 3.1
ตาราง 3.1 ตัวอย่างของตัวแปรทวินาม
การทดลอง | สำเร็จ | ไม่สำเร็จ | p | n | x |
การโยนเหรียญ | หัว | ก้อย | 1/2 | จำนวนครั้งในการโยนเหรียญ | จำนวนครั้งที่ออกหัว |
การมีบุตร | หญิง | ชาย | 1/2 | จำนวนบุตร | จำนวนบุตรสาวในครอบครัว |
การทำข้อสอบเลือกตอบ 4 ตัวเลือก | ถูก | ผิด | 1/4 | จำนวนข้อสอบ | จำนวนข้อที่ตอบถูก |
การคำนวณค่าการแจกแจงความน่าจะเป็นแบบทวินาม
สมมติการสอบครั้งหนึ่ง เหลือเวลาอีก 3 วินาที แต่ยังมีข้อสอบ 4 ตัวเลือกอีก 3 ข้อที่ยังไม่ได้ทำ นิสิตจึงตัดสินใจทำข้อสอบทั้ง 3 ข้อโดยไม่อ่าน จงหาความน่าจะเป็นในการทำข้อสอบได้ถูกทั้ง 3 ข้อ ถูกเพียง 2 ข้อ ถูกเพียง 1 ข้อ และไม่ถูกเลย
ความน่าจะเป็นในการทำข้อสอบถูกในแต่ละข้อ = .25 ความน่าจะเป็นในการทำข้อสอบผิดในแต่ละข้อ = .75 (ข้อสอบมี 4 ตัวเลือก)
ความน่าจะเป็นที่จะทำข้อสอบถูก 3 ข้อ 2 ข้อ 1ข้อ 0 ข้อ สามารถหาได้ ดังนี้
p (ถูก 3 ข้อ) = p(TTT) = p3 = .25 3 = .02
p (ถูก 2 ข้อ) = p(TTF) หรือ ( TFT) หรือ(FTT)
= p(TTF) + p( TFT) + p(FTT)
= (.25´.25´.75) + (.25´.25´.75) +(.25´.25´.75)
= .046+.046+.046 = .14
p (ถูก 1 ข้อ) = p(TFF) หรือ ( FTF) หรือ(FFT)
= p(TFF) + p( FTF) + p(FFT)
= (.25´.75´.75) + (.75´.25´.75) +(.75´.75´.25)
= .14+.14+.14 = .42
p (ถูก 0 ข้อ) = p(FFF) = p3 = .75 3 = .42
เพื่อความสะดวกนักคณิตศาสตร์สถิติได้คิดสูตรสำเร็จเพื่อหาความน่าจะเป็นแบบทวินาม ดังนี้
สูตรที่ใช้หาค่าความน่าจะเป็นที่จะเกิดความสำเร็จ
b( x, n, p ) = n Cx px q n – x
= n ! px q n – x
x ! (n – x ) !
โดยที่ n = จำนวนครั้งในการทดลอง
x = ความสำเร็จที่เกิดขึ้น
p = ความน่าจะเป็นที่จะพบความสำเร็จ
q = ความน่าจะเป็นที่จะพบความผิดหวัง
ตัวอย่าง จากข้อมูลการส่งแบบสอบถามไปยังสถาบันการศึกษาทั่วประเทศ พบว่าจะได้รับกลับคืนมา 60% ถ้าสุ่มเลือกสถาบันการศึกษา 3 แห่ง แล้วส่งแบบสอบถามไปให้ จงหาความน่าจะเป็นที่จะได้รับแบบสอบถามกลับคืนมา
กรณีที่ 1 3 ฉบับ
กรณีที่ 2 2 ฉบับ
กรณีที่ 3 น้อยกว่า 2 ฉบับ
การแจกแจงแบบทวินาม เขียนแทนด้วย b( x, n, p )โดยที่
กรณีที่ 1 x = 3 n = 3 p = 0.60
b( x, n, p ) = n Cx px q n – x
= n ! px q n – x
x ! (n – x ) !
= 3 ! 0.63 0.4 0 = 0.22
3 ! (3 – 3 ) !
กรณีที่ 2 x = 2 n = 3 p = 0.60
b( x, n, p ) = n ! px q n – x
x ! (n – x ) !
= 3 ! 0.62 0.4 1 = 3´ 0.14 = 0.42
2 ! (3 – 2 ) !
กรณีที่ 3 x = 1และ 0 n = 3 p = 0.60
b( x, n, p ) = n ! px q n – x
x ! (n – x ) !
= 3 ! 0.61 0.4 2 = 3´0.096 = 0.29
1 ! (3 – 1 ) !
และ b( x, n, p )= 3 ! 0.60 0.4 3 = 0.06
0 ! (3 –0) !
= 0.29+.06 = 0.35
นอกจากการคำนวณความน่าจะเป็นแบบทวินามแล้ว นักสถิติได้สร้างตารางการแจกแจงความน่าจะเป็นทวินาม เมื่อต้องการหาความน่าจะเป็นแบบทวินามจากตารางจะต้องทราบค่า
n , p , x โดยใช้ตาราง ความน่าจะเป็นแบบทวินาม ในภาคผนวก
ค่าเฉลี่ยและความแปรปรวนแบบทวินาม
E(x) = S x. p(x) = np
Var (x) = E( X – m )2 = npq
ตัวอย่าง ในระยะ 5 ปีที่ผ่านมา สำนักทะเบียนพบว่าในแต่ละปีที่นิสิตลงทะเบียนเรียนวิชาเลือกเสรี ก.เมื่อต้นเทอม จะมีการถอนวิชานี้ถึง 20% ถ้าปีนี้มีนิสิตลงทะเบียนวิชานี้ 100 คน โดยเฉลี่ยจะมีนิสิตเรียนจบวิชานี้กี่คนและมีความแปรปรวนเท่ากับเท่าไร
การตัดสินใจของนิสิตคนหนึ่งก็คือการทดลอง1 ครั้ง นิสิต 100 คน ก็มีการทดลอง 100 ครั้ง
n = 100
การตัดสินใจที่เกิดขึ้น คือ ถอน กับไม่ถอน ความน่าจะเป็นที่จะเกิดขึ้นในการถอน(q) = .20
ความน่าจะเป็นที่จะเรียนจบวิชานี้ (p)= .80
โดยเฉลี่ยแล้วจะมีนิสิตเรียนจบวิชานี้ ใช้สูตร
E(x) = S x. p(x) = np
= 100´0.80
= 80 คน
โดยมีความแปรปรวน = npq
= 100 ´ 0.80 ´ 0.20
= 16
ตัวอย่าง บารมีเป็นนักกีฬาของสถาบัน ความน่าจะเป็นที่บารมีจะชู๊ตลูกบอลลงตาข่าย คือ0.5 ในการแข่งขันครั้งนี้ บารมีมีโอกาสชู๊ตลูกบอล 6 ครั้ง อยากทราบว่าบารมีน่าจะชู๊ตลูกบอลลงห่วงกี่ครั้ง และค่าส่วนเบี่ยงเบนมาตรฐานเท่ากับเท่าไร
จากโจทย์ n = 6 p = 0.5 q = 1 – 0.5 = 0.5
E(x) = np
= 6 ´ 0.5 = 3
บารมีน่าจะชู๊ตลูกบอลลงห่วง = 3 ครั้ง
Var (x) = E( X – m )2 = npq
= 6 ´ 0.5´ 0.5 = 1.5
ส่วนเบี่ยงเบนมาตรฐาน = 1.22