ทฤษฎีเบื้องต้น (Basic theory)
สถิติคืออะไร : ผู้เขียนเองจำไม่ได้ว่า เคยได้เจอคำจำกัดความนี้ที่ไหนหรือไม่เพราะเท่าที่ทราบ ก็ไม่เคยมีคำบัญญัติเกี่ยวกับความหมายของคำว่า สถิติ ไว้ตายตัว ท่านผู้อ่านคงเคยได้ยินคำว่า
” นักกรีฑาชาวสหรัฐทำลายสถิติ ในการวิ่งระยะ 100 เมตร “
” นักกีฬาว่ายน้ำชาวออสเตรเลีย เป็นเจ้าของสถิติว่ายผีเสื้อ 200 เมตร “
จากข้อความข้างบนนี้ คำว่า สถิติ นี้จะมาจากศัพท์ภาษาอังกฤษ คือ ” Record” ซึ่งหมายถึงค่าที่ดีที่สุด หรือ อะไรที่เป็น “ที่สุด” เพียงหนึ่งเดียว และนี่เองที่ทำให้เรารู้สึกสับสนกับคำว่า สถิติ อีกคำที่ตรงกับศัพท์ภาษาอังกฤษว่า ” Statistics”
ผู้เขียนก็เลยขอให้คำจำกัดความในแง่มุมมองของผู้เขียนเอง ดังนี้
สถิติ (Statistics) คือ การนำเอาข้อมูล ส่วนน้อย(จากตัวอย่าง) มาช่วยในการคาดการณ์(พยากรณ์) ส่วนมากที่ไม่อาจจะหาค่าที่ต้องการทราบได้หมด หรือ เอาข้อมูลในอดีต/ปัจจุบัน มาช่วยในการคาดการณ์(พยากรณ์) สิ่งที่จะเป็นในอนาคต ที่ไม่สามารถเห็นค่าที่ถูกต้องได้เพราะยังไม่ได้เกิดขึ้น ดังนั้นการใช้สถิติ ก็ไม่ต่างอะไรกับการเดา เหมือนกับบรรดานักทำนาย (หมอดู)ใช้ เมื่อต้องการทำนาย ดวง โชคชะตา ของคน นะซิ ก็มีส่วนถูกและผิด ที่ว่าถูกคือ การใช้สถิติ จะให้ผลถูกต้องไม่ 100 % และเป็นเพียงการคาดการณ์ สิ่งที่ยังมองไม่เห็น เช่นกัน ที่ว่าผิดก็คือการใช้สถิติอย่างถูกต้อง จะมีข้อกำหนดที่เป็นหลักวิทยาศาสตร์ ที่ผ่านการพิสูจน์แล้ว มีการใช้ข้อมูล การวิเคราะห์ด้วยคณิตศาสตร์ ซึ่งต่างจากที่หมอดูใช้ ที่จะเป็นศิลปศาสตร์ ที่ยังไม่สามารถพิสูจน์ความถูกต้องได้ เป็นเพียงศาสตร์ ที่สืบถอดกันมา ไม่มีทฤษฎีที่เป็นที่เปิดเผย ในวิชาสถิติ เราจะแบ่งลักษณะการนำไปประยุกต์ใช้งานได้เป็นสองลักษณะใหญ่ๆ และยังมีการแยกย่อยลักษณะของแต่ละกลุ่มได้อีกหลายลักษณะ ดังต่อไปนี้
1. สถิติเชิงพรรณนา (Descriptive Statistics) คือการใช้สถิติเพื่ออธิบายข้อมูลที่มีอยู่ โดยไม่ได้นำไปพยากรณ์ประชากร แต่อย่างใด โดยลักษณะที่จะพรรณนาข้อมูลนั้น มีอยู่สองลักษณะ
1.1 โดยใช้ตัวอักษร หรือ ตัวเลข ดังตัวอย่างต่อไปนี้ เป็นข้อมูลการเก็บตัวอย่างน้ำหนักของชิ้นงาน (กรัม) จำนวน 100 ตัวอย่าง
Variable N Mean Median TrMean StDev SE Mean
Weight 100 167.61 166.66 167.67 8.78 0.88
Minimum Maximum Q1 Q3
146.70 187.29 161.74 173.88
เราเพียงอธิบายถึงข้อมูลที่เราได้มาออกมาในรูปค่า หรือตัวเลขต่างๆ ตามที่เราสนใจ
1.2 โดยใช้แผนภาพ เพื่ออธิบาย ซึ่งมีข้อดีคือ เราสามารถมองเห็นรูป แล้วเข้าถึงข้อมูลได้ง่ายกว่า จากตัวอย่างข้างบน ถ้าอธิบายด้วยรูปกราฟแท่ง จะได้ดังนี้
จะเห็นว่าคุณครูท่านนี้ เอาข้อมูลที่ได้มาสาธยาย โดยภาพรวมให้เห็นว่า ผลการทดสอบครั้งนี้ได้ผลอย่างไรบ้าง ไม่ได้มีการนำไปคาดการณ์อะไรเลย เราจึงเรียกว่าเป็น สถิติเชิงบรรยาย(พรรณนา)
2. สถิติเชิงอนุมาน (Inferential Statistics) เป็นสถิติที่มีความสำคัญและถูกใช้มากกว่า ลักษณะที่สำคัญคือเป็นการศึกษาข้อมูลของกลุ่ม ตัวอย่าง แล้วนำผลสรุปไปประมาณหรือคาดการณ์ประชากร หรือเหตุการณ์ที่จะเกิดขึ้นในอนาคตทั้งนี้สามารถแยกย่อยลักษณะของ สถิติอนุมานได้สอง ลักษณะดังนี้
2.1 การประมาณค่าพารามิเตอร์ (Parameter Estimation) ค่าพารามิเตอร์คือค่าที่บ่งบอกคุณลักษณะเฉพาะของประชากร เช่น. ค่าเฉลี่ย ค่าเบี่ยงเบนมาตรฐาน ซึ่งวิธีประมาณค่าพารามิเตอร์นี้ก็ยังสามารถแบ่งได้สองวิธีคือ
จากตัวอย่าง เมื่อเราหาค่าเฉลี่ยของกลุ่มตัวอย่างได้เท่าไหร่ เราก็ใช้เป็นตัวประมาณค่ากลางของประชากรเลย
ตัวอย่าง การใช้ Point estimation : ครูวิชาภาษาอังกฤษ ชั้นมัธยมศึกษาปีที่ 4 (ม.4) โรงเรียนแห่งหนึ่ง อยากทราบว่า นักเรียนชั้น ม.4 เข้าใหม่ปีการศึกษานี้ซึ่งมีทั้งหมด 10 ห้องเรียน (จำนวนทั้งหมด 400 ) นั้น จะมีความรู้ภาษาอังกฤษอยู่ในระดับใด จึงได้จัดทำข้อสอบ เพื่อทำการทดสอบ แต่ครูท่านนี้เลือกใช้วิธีสุ่มตัวอย่างนักเรียนมาห้องละ 5 คน รวมแล้ว 50 คน แล้วให้ทำข้อสอบชุดเดียวกัน โดยมีคะแนนเต็ม 100 คะแนน ปรากฏผลว่า นักเรียนทั้งหมดที่เข้าสอบ ทำคะแนน ได้มากบ้างน้อยบ้าง เมื่อหาค่าเฉลี่ยแล้ว ได้คะแนน 55 คะแนน คุณครูท่านนี้ก็เลยสรุปว่า นักเรียน ชั้น ม4. ปีนี้มีความสามารถภาษาอังกฤษ อยู่ในระดับ ปานกลางเท่านั้น
– การประมาณค่าแบบบอกเป็นช่วง (Interval Estimation) เมื่อวิธีประมาณการแบบจุดมีโอกาสผิดพลาด ทั้งนี้ เพราะเมื่อเราไปเก็บตัวอย่างมาอีกกลุ่ม เมื่อหาค่าเฉลี่ยออกมาก็จะได้ไม่ตรงกับของกลุ่มตัวอย่างแรกหรอก และถ้าเราไปเก็บ ตัวอย่างมาหลายๆกลุ่ม ค่าเฉลี่ยของแต่ละกลุ่มก็เปลี่ยนไปทั้งได้มากกว่าและน้อยกว่า นั่นแปลว่าเมื่อเรานำไปประมาณค่า เฉลี่ยของประชากร แต่ละครั้งก็จะได้ค่าไม่ตรงอยู่ดี แต่ถ้าสังเกตดูจะเห็นว่า ค่าเฉลี่ยของกลุ่มตัวอย่างหลายๆกลุ่มนั้นจะตก อยู่ในย่านๆหนึ่งเสมอ เราเรียกว่า Interval ดังนั้นแทนที่เราจะบอกเป็นค่าเดียว เราก็เปลี่ยนมาบอกเป็นย่านที่ค่าพารามิเตอร์ จะตกอยู่แทน แล้วเราก็คาดการได้ว่า โอกาสที่ค่าพารามิเตอร์จะอยู่ภายใน Interval นี้ด้วยระดับความมั่นใจเท่าไหร่
Variable N Mean 95.0% CI
Weight 100 167.613 ( 165.871, 169.356)
จากตัวอย่างจะมีการบอกเป็นช่วงความเชื่อมั่นว่า มั่นใจว่าค่ากลางของประชากรจะอยู่ภายในย่านนี้ 95 เปอร์เซนต์ จะห็นว่า ช่วงความเชื่อมั่นนี้จะบอกค่าต่ำสุดและสูงสุดมาให้เรา ขอให้อ่านรายละเอียดในหัวข้อ Confidence Interval
ตัวอย่าง การใช้ Interval estimation : คุณครูท่านเดิมจากตัวอย่างที่ผ่านมา เปลี่ยนใจแทนที่จะสรุปว่า นักเรียนชั้น ม4. ที่เข้าใหม่ปีนี้มีความรู้ ภาษาอังกฤษ อยู่ในระดับ 55 คะแนน ซึ่งอยู่ระดับกลางๆ คุณครูได้วิเคราะห์ข้อมูลใหม่ โดยหาว่า 80% ของนักเรียนที่เข้าสอบ ทำคะแนนได้อยู่ในช่วงใด จึงนำคะแนนของทั้ง 50 นักเรียน มาเรียงอันดับ แล้วคัด คะแนนต่ำสุด 5 คน และสูงสุดอีก 5 คนออก ( รวมแล้ว 10 คน เป็น 20% ) เมื่อนำคะแนน ของ 40 นักเรียนที่เหลือมาดู พบว่า มีคะแนน ตั้งแต่ 42 คะแนน จนถึง 76 คะแนน คุณครูท่านนี้ก็ใช้ข้อมูลนี้สรุปว่า ประมาณ 80% ของนักเรียน ชั้น ม4. ที่เข้าใหม่ปีนี้มีความรู้ภาษาอังกฤษ อยู่ในช่วง 42 – 76 คะแนน (เต็ม 100 คะแนน )
2.2 . การทดสอบสมมุติฐาน (Hypothesis Testing) เมื่อเรามีความสงสัยในเรื่องใด สิ่งสำคัญที่สุดคือเราจะตั้งสมมุติฐานเกี่ยวกับปัญหานั้นเสียก่อน ซึ่งแท้จริงก็คือเราตั้งสมมุติฐานเกี่ยวกับประชากรแล้ว เราก็ทำการเก็บข้อมูลจากกลุ่มตัวอย่าง เพื่อหาข้อสรุปว่า สมมุติฐานที่เราตั้งนั้น เราจะยอมรับหรือปฏิเสธ โดยมีวิธีการและรายละเอียดแยกย่อยอีกมากมาย ขอให้อ่านราย ละเอียดในเรื่อง การทดสอบสมมุติฐาน
จะเห็นว่าข้อแตกต่างของ สถิติเชิงพรรณนา กับ อนุมาน คือสถิติเชิงอนุมานจะมีการนำผลที่ได้ไปกล่าวอ้าง (อนุมาน) ถึงประชากร จำนวนมาก ดังนั้น หากเมื่อใดก็ตามที่ผู้ใช้ วิเคราะห์ข้อมูลด้วยเครื่องมือทางสถิติแล้ว ไม่ได้นำไปกล่าวอ้าง เลย เราก็จะเรียกว่าเป็นการพรรณนา แม้ว่าจะมีการใช้เครื่องของ สถิติอนุมานก็ตาม เช่นเดียวกันหากมีการนำผลการวิเคราะห์ไปกล่าวอ้างถึงประชากรส่วนมาก เราก็จะเรียกว่าเป็นการใช้ สถิติอนุมาน แม้ว่าจะใช้ กราฟ หรือตัวเลข ก็ตาม ดังนั้นพรมแดนของสถิติ สองแบบ นี้จึงไม่ได้อยู่ที่ชนิดของเครื่องมือ แต่อยู่ที่วิธีการนำผลที่ได้ไปใช้ต่อ ต่างหาก ท่านลองอ่านสถิติหลังจบการแข่งขันของนักกีฬาเทนนิส 2 คน ต่อไปนี้ ( เป็นตัวเลขสมมติ เท่านั้น) Roger Federer Mark Philipousis
แล้วลองคิดดูว่า เป็นสถิติแบบ เชิงพรรณนา หรือ อนุมาน
แนวในการคิด คือ
1. หากเราดูข้อมูล(สถิติ) ตามตารางนี้แล้ว ไม่ต้องสงสัยเลยว่า ทำไม Federer ถึงชนะ ก็เพราะตัวบ่งชี้ถึงประสิทธิภาพ ทุกตัว เหนือกว่าอย่างเห็นได้ชัด หากผู้ใช้ข้อมูล ต้องการสาระแค่นี้ ข้อมูลนี้เป็น Descriptive statistics
2. หลังจากดูสถิติแล้ว เราคาดว่า Federer น่าจะเหนือกว่า Philipousis อีกครั้ง ถ้าเจอกันอีก จะเห็นว่าเราเริ่มมีการพยากรณ์เหตุการณ์ข้างหน้า โดยใช้ข้อมูลสถิติ ที่เพิ่งแข่งขันจบลงไป ลักษณะนี้ เราเรียกว่าเป็น Inferential statistics