การวิเคราะห์ข้อมูลเบื้องต้น-การแจกแจงความถี่ของข้อมูล
หลังจากที่กำหนดตัวแปรที่ต้องการศึกษา และมีการเก็บรวบรวมข้อมูลเกี่ยวกับตัวแปรที่ต้องการศึกษาแล้ว ข้อมูลที่เก็บได้เรียกว่า ข้อมูลดิบ (Raw Data) เช่น ต้องการศึกษาผลสัมฤทธิ์ทางการเรียนวิชาสถิติ ก็จะมีการสร้างแบบทดสอบวิชาสถิติขึ้นมา นาไปสอบกับกลุ่มนักเรียนที่ต้องการวัด แล้วตรวจคะแนน คะแนนที่ได้เรียกว่า ข้อมูลดิบ (Raw Data) หรือคะแนนดิบ ซึ่งข้อมูลดิบนี้ยังไม่มีความหมายอะไร วิธีเบื้องต้นที่จะทำให้ข้อมูลดิบนั้นมีความหมายคือการแจกแจงความถี่ ซึ่งจะสามารถทำให้ข้อมูลนั้นสามารถเอาไปใช้ได้ง่ายขึ้น และสังเกตการเปลี่ยนแปลงต่างๆได้ง่ายขึ้นด้วย
ความหมายของการแจกแจงความถี่คือการนำข้อมูลที่รวบรวมมาได้มาจัดใหม่ให้เป็นระเบียบ เป็นหมวดหมู่เรียงจากมากไปน้อยหรือเรียงจากน้อยไปมากเพื่อแสดงให้ทราบว่าข้อมูลแต่ละค่าหรือข้อมูลแต่ละกลุ่มเกดขึ้นซ้ำๆกันกี่ครั้งซึ่งเป็นการย่อข้อมูลเพื่อให้แปลความหมายได้มากขึ้นโดยต้องสร้างตาตารางแจกแจงความถี่ขึ้น
ตัวอย่างที่ 1 ถ้าคะแนนสอบวิชาคณิตศาสตร์ของนักเรียนห้องหนึ่งจานวน 50 คน เป็นดังนี้
70 51 80 63 84 64 85 53 62 74 42 62 73 76 52 51 64 88 65 78 77 48 81 42 65 77 54 65 56 68 64 58 61 74 43 44 66 55 59 78 60 47 63 48 68 73 50 69 54 89
ถ้านาคะแนนสอบวิชาคณิตศาสตร์มากาหนดเป็นช่วงๆ แล้วนับจานวนนักเรียนที่สอบได้ในแต่ละช่วงซึ่งเรียกว่า ความถี่ จะได้ตารางที่เรียกว่า ตารางแจกแจงความถี่ ดังนี้
ตารางแจกแจงความถี่
คะแนนสอบวิชาคณิตศาสตร์ | ความถี่ |
41 – 50 | 8 |
51 – 60 | 11 |
61 – 70 | 16 |
71 – 80 | 10 |
81 – 90 | 5 |
จากตารางแจกแจงความถี่ข้างต้น แสดงว่า
มีนักเรียนที่สอบได้วิชาคณิตศาสตร์ ตั้งแต่ 41 ถึง 50 จานวน 8 คน
มีนักเรียนที่สอบได้วิชาคณิตศาสตร์ ตั้งแต่ 51 ถึง 60 จานวน 11 คน
มีนักเรียนที่สอบได้วิชาคณิตศาสตร์ ตั้งแต่ 61 ถึง 70 จานวน 16 คน
มีนักเรียนที่สอบได้วิชาคณิตศาสตร์ ตั้งแต่ 71 ถึง 80 จานวน 10 คน
มีนักเรียนที่สอบได้วิชาคณิตศาสตร์ ตั้งแต่ 81 ถึง 90 จานวน 5 คน
ตารางแจกแจงความถี่ มีส่วนประกอบต่างๆ ดังนี้
1. อันตรภาคชั้น (Class Interval) หมายถึง ช่วงคะแนนที่แบ่งออกเป็นช่วงๆ ในแต่ละช่วงคือค่าที่
เป็นไปได้ของข้อมูล จากตะรางแจกแจงความถี่ข้างต้น แสดงว่า
ช่วงคะแนน 41 – 50 คือ อันตรภาคชั้นที่ 1
ช่วงคะแนน 51 – 60 คือ อันตรภาคชั้นที่ 2
ช่วงคะแนน 61 – 70 คือ อันตรภาคชั้นที่ 3
ช่วงคะแนน 71 – 80 คือ อันตรภาคชั้นที่ 4
ช่วงคะแนน 81 – 90 คือ อันตรภาคชั้นที่ 5
2. ขอบบน ขอบล่าง (Upper – Lower Boundary)
ขอบบน ของอันตรภาคชั้นใด หมายถึง ค่ากึ่งกลางระหว่างค่าที่เป็นไปได้สูงสุดของอันตรภาคชั้นนั้น กับค่าที่
เป็นไปได้ต่ำสุดของอันตรภาคชั้นติดกันถัดไป
เช่น ขอบบนของอันตรภาคชั้น 41 – 50 คือ 50+51 / 2 = 50.5
ขอบบนของอันตรภาคชั้น 51 – 60 คือ 60+61 / 2 = 60.5
เป็นต้น
ขอบล่าง ของอันตรภาคชั้นใด หมายถึง ค่ากึ่งกลางระหว่างค่าที่เป็นไปได้ต่าสุดของอันตรภาคชั้นนั้น กับค่าที่
เป็นไปได้สูงสุดของอันตรภาคชั้นที่อยู่ติดกันก่อนหน้านั้น
เช่น ขอบล่างของอันตรภาคชั้น 51 – 60 คือ 51+50 / 2 = 50.5
ขอบล่างของอันตรภาคชั้น 61 – 70 คือ 60+61 / 2 = 60.5 เป็นต้น
ข้อสังเกต
1. ขอบบนของแต่ละอันตรภาคชั้น เท่ากับ ขอบล่างของอันตรภาคชั้นที่สูงกว่า 1 ชั้น
2. การหาขอบล่างของแต่ละอันตรภาคชั้น ทำได้โดย
ลบค่าต่ำสุดของชั้นด้วย 0.5 เมื่ออันตรภาคชั้นเป็นจานวนเต็ม
ลบค่าต่ำสุดของชั้นด้วย 0.05 เมื่ออันตรภาคชั้นเป็นทศนิยม 1 ตาแหน่ง
ลบค่าต่ำสุดของชั้นด้วย 0.005 เมื่ออันตรภาคชั้นเป็นทศนิยม 2 ตาแหน่ง เป็นต้น
3. ในทานองเดี่ยวกัน การหาขอบบนของแต่ละอันตรภาคชั้น ทาได้โดย
บวกค่าต่ำสุดของชั้นด้วย 0.5 เมื่ออันตรภาคชั้นเป็นจานวนเต็ม
บวกค่าต่ำสุดของชั้นด้วย 0.05 เมื่ออันตรภาคชั้นเป็นทศนิยม 1 ตาแหน่ง
บวกค่าต่ำสุดของชั้นด้วย 0.005 เมื่ออันตรภาคชั้นเป็นทศนิยม 2 ตาแหน่ง เป็นต้น
จากตารางแจกแจงความถี่ขางต้น สามารถนำมาแสดงขอบบน ขอบล่างได้ดังนี้
อันตรภาคชั้น | ขอบบน | ขอบล่าง |
41 – 50 | 50.5 | 40.5 |
51 – 60 | 60.5 | 50.5 |
61 – 70 | 70.5 | 60.5 |
71 – 80 | 80.5 | 70.5 |
81 – 90 | 90.5 | 80.5 |
ตัวอย่างที่ 2 ตารางแจกแจงความถี่ที่อันตรภาคชั้นเป็นทศนิยม
อันตรภาคชั้น | ความถี่ |
10.5 – 11.7 | 6 |
11.8 – 13.0 | 12 |
13.1 – 14.3 | 7 |
14.4 – 15.6 | 11 |
15.7 – 15.9 | 4 |
จากตารางแจกแจงความถี่ข้างต้น สามารถนามาแสดงขอบบน ขอบล่าง ได้ดังนี้
อันตรภาคชั้น | ขอบบน | ขอบล่าง |
10.5 – 11.7 | 11.7 + 0.05 = 11.75 | 10.5 – 0.05 = 10.45 |
11.8 – 13.0 | 13.0 + 0.05 = 13.05 | 11.8 – 0.05 = 11.75 |
13.1 – 14.3 | 14.3 + 0.05 = 14.35 | 13.1 – 0.05 = 13.05 |
14.4 – 15.6 | 15.6 + 0.05 = 15.65 | 14.4 – 0.05 = 14.35 |
15.7 – 15.9 | 15.9 + 0.05 = 15.95 | 15.7 – 0.05 = 15.65 |
ข้อสังเกต ขอบล่างของแต่ละอันตรภาคชั้นเท่ากับขอบบนของอันตรภาคชั้นที่อยู่ติดกันเป็นช่วงคะแนนน้อยกว่า
3. ความกว้างของอันตรภาคชั้น (Class Interval) คือ ผลต่างของขอบบนและขอบล่างของอันตรภาคชั้นนั้น นิยมเขียนแทนด้วย I เช่น อันตรภาคชั้น 41 – 50 มีความกว้าง = 40.5 – 50.5 = 10
อันตรภาคชั้น 51 – 60 มีความกว้าง = 50.5 – 60.5 = 10 เป็นต้น
ข้อสังเกต
1. ความกว้างของอันตรภาคชั้นแต่ละชั้นไม่จาเป็นต้องเท่ากันทุกชั้น แต่ถ้าความกว้างเท่ากันทุกชั้นจะทาให้สะดวกในการวิเคราะห์
2. ในกรณีที่มีข้อมูลบางข้อมูลมีค่าน้อยกว่าข้อมูลอื่นๆมาก หรือมีค่ามากกว่าข้อมูลอื่นๆมาก หรือมีทั้งค่าน้อยกว่าและมากกว่าข้อมูลอื่นๆมากๆ จะใช้อันตรภาคชั้นที่เรียกว่า อันตรภาคชั้นเปิด (Open end class interval) วิธีหาความกว้างของอันตรภาคชั้นข้างต้นใช้ได้ โดยไม่จากัดว่าความกว้างของอันตรภาคชั้นจะเท่ากันหรือไม่
ตัวอย่างที่ 3 ตารางแจกแจงความถี่ที่ความกว้างของอันตรภาคชั้นไม่เท่ากัน
อันตรภาคชั้น | ความถี่ |
31 – 40 | 8 |
41 – 60 | 6 |
61 – 90 | 9 |
91 – 100 | 10 |
ตัวอย่างที่ 4 ตารางแจกแจงความถี่ที่มีอันตรภาคชั้นเป็นอันตรภาคชั้นเปิด
อันตรภาคชั้น | ความถี่ |
น้อยกว่า 30 | 40 |
30 – 39 | 18 |
40 – 49 | 22 |
50 – 59 | 13 |
มากกว่า 59 | 7 |
4. จุดกึ่งกลาง (Mid point)
จุดกึ่งกลางของอันตรภาคชั้นใด คือ ค่าเฉลี่ยของช่วงคะแนนในอันตรภาคชั้นนั้นๆ
จุดกึ่งกลางของอันตรภาคชั้นใด = (ขอบบน + ขอบล่าง) / 2 (ของอันตรภาคชั้นนั้นๆ)
5. ความถี่ (Frequency) ความถี่ของอันตรภาคชั้นใด หมายถึง จานวนข้อมูล (ค่าจากการสังเกต) ที่
ปรากฏอยู่ในช่วงคะแนนหรืออันตรภาคชั้นนี้
สรุปการแจกแจงความถี่ของข้อมูล
การแจกแจงความถี่(frequency distribution) เป็นวิธีการทางสถิติอย่างหนึ่งที่ใช้ในการจัดข้อมูลที่มีอยู่หรือเก็บรวบรวมมาได้ให้อยู่เป็นพวกๆเพื่อสะดวกในการวิเคราะห์ข้อมูลเหล่านั้น การแจกแจงความถี่มักจะทำเมื่อข้อมูลที่จะวิเคราะห์มีเป็นจำนวนมากหรือข้อมูลมีค่าซำ้กันอยู่มาก เพราะจะช่วยให้ประหยัดเวลาและสรุปผลได้อย่างชัดเจนและเหมาะสมที่จะนำไปใช้ประโยชน์ต่อไป
นิยามศัพท์ที่จำเป็นต้องรู้จักได้แก่
ตัวแปร(variable) หมายถึงลักษณะบางอย่างของประชากรที่ราสนใจศึกษา โดยลักษณะนั้นสามารถเปลี่ยนค่าดไ้ไม่ว่าจะเป็นเชิงปริมาณหรือเชิงคุณภาพ เช่น อายุของสมาชิกในครอบครัวเป็นตัวแปรเชิงปริมาณ เนื่องจากสามารถเปลี่ยนค่าเป็น 1,2,3 ,… เรื่อยๆได้ สถานภาพการสมรสเป็นตัวแปรเชิงคุณภาพ เนื่องจากสามารถเปลี่ยนค่าเป็นโสด สมรส หรือ หม้าย ตัวแปรที่จะนำมาวิเคราะห์ส่วนมากจะเป็นตัวแปรเชิงปริมาณ ซึ่งสามารถวัดออกมาเป็นเป็นจำนวนได้ เช่น อายุ น้ำหนัก ส่วนสูง จำนวนนักเรียนในห้องเรียน
ค่าจากการสังเกต คือค่าของข้อมูลแต่ละค่าที่ได้มาจากการเก็บรวบรวมข้อมูล
ความถี่ (frequency) คือจำนวนที่แสดงว่าค่าที่เป็นไปได้แต่ละค่าเกิดขึ้นกี่ครั้ง
ค่าที่เป็นไปได้ คือ ค่าข้อมูลอาจจะมีค่าเป็นไปได้ในขอบเขตของข้อมูลนั้นๆ
ตัวอย่าง จากการทดสอบก่อนเรียนเรื่องสถิติและข้อมูล มีคะแนนเต็ม 10 คะแนน และมีนักเรียนทำข้อสอบนี้ 8 คน โดยแต่ละคนทำได้คะแนน 1, 3 ,5 6, 7, 8, 8 และ 9 ตามลำดับคะแนนที่นักเรียนแต่ละคนทำได้ทั้ง 8 คน เรียกว่า ค่าจากการสังเกต และเรียกคะแนนที่อาจเป็นไปได้สำหรับการสอบ ซึ่งมี 11 คือ 0,1,2,3,4,5,6,7,8,9 และ 10 ว่า ค่าที่เป็นไปได้
จากคะแนนสอบก่อนเรียนข้างต้นของนักเรียนทั้ง 8 คน หากนำมาเขียนให้อยู่ในรูปตารางแจกแจงความถี่สำหรับทุกค่าที่เป็นไปได้ทั้ง 11 ค่า จะเป็นดังนี้
คะแนน | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
ความถี่ | 0 | 1 | 0 | 1 | 0 | 1 | 1 | 1 | 2 | 1 | 0 |
จากตารางจะเห็นว่ามีนักเรียนที่สอบได้ 8 คะแนนมี 2 คน เรียกจำนวน 2 ว่า ความถี่ ของคะแนน 8 ในทำนองเดียวกัน ความถี่ของคะแนน 1, 3 , 5 ,6,7 และ 9 เป็น 1 ส่วนคะแนน 0,2,4,10 มีความถี่เป็น 0
สรุปได้ว่า จำนวนที่แสดงว่าที่เป็นไปได้แต่ละค่าเกิดขึ้นกี่ครั้ง เรียกว่า ความถี่ การหาค่าความถี่ที่เป็นไปได้เช่นนี้ เรียกว่า การแจกแจงความถี่