การแจกแจงความถี่
การแจกแจงความถี่เป็นวิธีการจัดเตรียมข้อมูลดิบให้เป็นหมวดหมู่เพื่อความสะดวกในการนำไปวิเคราะห์ ซึ่งสิ่งที่ควรคำนึงถึงในการแจกแจงความถี่ คือ
1) ถ้าข้อมูลดิบมีจำนวนน้อย ให้เรียงข้อมูลจากมากไปน้อย หรือเรียงลำดับจากน้อยไปหามาก ซึ่งข้อมูลที่เรียงลำดับแล้วเรียกว่า Ungrouped Data การวิเคราะห์ข้อมูลชนิดนี้จะได้ ค่าสูงสุด ค่าต่ำสุด และการกระจายของข้อมูล
2) ถ้าข้อมูลดิบมีจำนวนมาก (ข้อมูลตั้งแต่ 30 จำนวนขึ้นไป) ให้ทำการแจกแจงความถี่โดยตาราง ซึ่งเรียกว่า Grouped Data
2.1 การสร้างตารางการแจกแจงความถี่
การแจกแจงความถี่ทำได้ 2 ดังนี้
1) การแจกแจงความถี่ของลักษณะที่สนใจที่เป็นไปได้ทั้งหมด
2) การแจกแจงความถี่สำหลับค่าในแต่ละช่วงของลักษณะที่สนใจ
การแจกแจงความถี่ของลักษณะที่สนใจที่เป็นไปได้ทั้งหมด
การแจงแจกความถี่แบบนี้จะใช้กับข้อมูลที่จำนวนลักษณะที่เป็นไปได้ทั้งหมดมีไม่มากนัก เช่น จำแนกตามเพศ คือ เพศหญิง ชาย จำแนกตามความคิดเห็น เห็นด้วย ไม่เห็นด้วย ตัวอย่างที่ 2.1 จากการสำรวจคนไข้ที่เข้ามารับการรักษาที่โรงพยาบาลแห่งหนึ่งในเดือนมกราคม 2549 โดยแจกแจงความถี่ (จำนวนคนไข้)ตามเพศ ได้ดังนี้
เพศ |
จำนวนคนไข้ |
ชาย |
389 |
หญิง |
311 |
รวม |
700 |
การแจกแจงความถี่สำหรับค่าในแต่ละช่วงของลักษณะที่สนใจ
ในกรณีที่ค่าของข้อมูลที่เป็นไปได้ทั้งหมดของลักษณะที่สนใจมีจำนวนมากตัวอย่าง 2.2 ถ้าเลือกชายมา 100 คนสอบถามความสูงแล้วจัดทำเป็นช่วงๆได้5ช่วงหรือ 5 ช่วง ดังนี้
ความสูงของนักศึกษาชาย (เซนติเมตร) |
จำนวนคนไข้ |
135-144 |
5 |
145-154 |
21 |
155-164 |
39 |
165-174 |
24 |
175-184 |
11 |
รวม |
100 |
ช่วงจำนวนของแต่ละชั้น เช่น 135-144,145-154,…,175-184 เรียกว่าขีดจำกัดชั้น
ค่าต่ำสุดของแต่ละชั้น เช่น 135-145,…,175 เรียกว่าขีดจำกัดล่าง
และค่าสูงสุดของแต่ละชั้น เช่น 144,154,…,184 เรียกว่าขีดจำกัดบน
โดยทั่วไปจะกำหมดค่าสูงสุดและค่าต่ำสุดของแต่ละชั้นให้มีทศนิยมมากกว่าของข้อมูลดังนี้ตัวอย่าง 2.2. ถ้านักศึกษาชายคนหนึ่งสูง 144.5 เซนติเมตร ก็ไม่สามารถจัดให้นักศึกษาอยู่ในชั้นใดได้ นอกจากนั้นการกำหมดให้มีจำนวนหลังจุดทศนิยมมากกว่าค่าของของข้อมูลทำให้ข้อมูลทั้งหมดต่อเนื่องกัน และเรียกช่วงในแต่ละชั้นว่า ขอบเขตจำกัดดังนั้นจากตัวอย่างที่ 2.2 ขอบเขตจำกัดชั้นสามารถกำหมดได้ ดังนี้
ขอบเขตจำกัดชั้นสูงนักศึกษาชาย (เซนติเมตร) |
จำนวนคน |
134.5-144.5 |
5 |
144.5-154.5 |
21 |
154.5-164.5 |
39 |
164.5-174.5 |
24 |
174.5-184.5 |
11 |
รวม |
100 |
ค่าต่ำสุดของแต่ละชั้นคือ 134.5,144.5,…,174.5 เรียกว่าขอบเขตจำกัดล่างและค่าสูงสุดของแต่ชั้นคือ 144.5,154.5,….,1184.5 ว่าขอบเขยจำกัดบนและความกว้างของชั้นคือ 144.5-134.5=10
ตารางแจกแจงความถี่เป็นตารางที่อ่านเข้าง่าย แต่ก็มีการเสียรายละเอียดบางอย่างเกี่ยวข้อมูล เช่นมีนักศึกษาที่มีความสูงในช่วง 144.5- 154.5 เซนติเมตร อยู่ 18คน แต่จะไม่ทราบว่านักศึกษา 18 คน คนนี้มีส่วนสูงจริงๆ เท่าไหร่อาจจะเท่ากันหมดคือ 145 เซนติเมตรก็ได้ ปัญหานี้อาจแก้ไขด้ายโดยลดความกว้างของชั้นให้แคบลง ผูสร้างตารางแจกแจงความถี่จะต้องคำนึงถึงความเหมาสมในการกำหมดความกว้างของชั้นด้วย
2.2 ขั้นตอนการสร้างตารางแจกแจงความถี่
ขั้นตอนการสร้างตารางแจกแจงความถี่
การสร้างตารางแจกแจงความถี่มีขั้นตอน ดังนี้
1). หาค่าพิสัยของข้อมูลโดยที่ค่าพิสัย(Range)คือผลต่างระหว่างข้อมูลที่มีค่ามากที่สุดกับข้อมูลที่มีค่าน้อยที่สุดดังนั้น
พิสัย = ค่าสูงสุด – ค่าต่ำสุด |
ถ้ามีข้อมูล N ค่า คือ X1 ,X2,…XNและให้ Xmax = ค่าสูงสุดของข้อมูล = max(X1 ,X2,…XN)
Xmin = ค่าต่ำสุดของข้อมูล = min (X1 ,X2,…XN)
ดังนั้น พิสัย = R = Xmax – Xmin
2)กำหมดจำนวนชั้น (k)
โดยกำหนดจำนวนชั้นเป็น 5-20 ชั้น ถ้าข้อมูลมีการกระจายมากและมีจำนวนข้อมูลไม่มากควรให้มีจำนวนชั้นน้อยๆ เพื่อป้องกันไม่ให้มีชั้นที่มีชั้นที่มีค่าความถี่เป็นศูนย์ เนื่องจากไม่มีข้อมูลค่าใดที่ตกอยู่ในชั้นๆเลยในกรณีนี้ที่สร้างไม่ทราบว่าควรกำหมดให้ตารางแจกแจงความถี่มีกี่ชั้นส่ามารถใช้สูตรในการคำนวณชั้นได้ ด้งนี้
K = 1+ 3.3 log N |
3).คำนวณหาความกว้างของชั้นหรืออันตรภาคชั้น (Class Interval: I)
I = ความกว้างของชั้น (อันตรภาคชั้น) = พิสัย จำนวนชั้น =R/k |
ถ้าค่า I เป็นเลขไม่ลงตัว จะปัดให้เป็นจำนวนเต็ม(ไม่ว่าเศษจะมีค่าต่ำกว่าหรือมากกว่า 0.5)โดยทั่วไปมักกำหมดให้ความกว้างของแต่ละชั้นเท่ากันหมด แต่ละในทางปฏิบัติบางครั้งอาจจะให้ความกว้างของแต่ละชั้นไม่เท่ากัน หรืออาจกำหมดให้เป็นชั้นเปิดก็ได้หรืออาจจะกำหมดให้ความกว้างของชั้นเป็นค่าที่ทำให้ค่ากึ่งกลางชั้น มีค่าเท่ากับจริงของข้อมูล
ค่ากึ่งกลางชั้น = (ขอบเขตกำจัดบน + ขอบเขตจำกัดล่าง )/2 = (ขีดจำกัดบน + ขีดจำกัดล่าง )/2 |
4).คำนวณหาขีดจำกัดชั้น
โดยจะกำหมดให้ขีดจำกัดล่างของชั้นแรก (ชั้นที่มีค่าต่ำสุด) ครอบคลุมข้อมูลที่มีค่าต่ำสุดและให้ขีดจำกัดบนของชั้นสุดท้าย (ชั้นที่มีค่าสูงสุด)ครอบคลุมข้อมูลที่มีค่าสูงสุด หรืออาจใช้สูตรต่อไปนี้
ขีดจำกัดล่างของชั้นแรก = ค่าต่ำ – (Ik – R)/2 |
แล้วปัดให้มีลักษณะเหมือนข้อมูลจริง เช่น ข้อมูลมีจำนวนหลักหลังจุดทศนิยมสองหลักจะปิดเศษให้ขีดจำกัดชั้นเป็นเลขที่มีจำนวนจุดทศนิยมสอง 2 เช่นกัน
5).คำนวณหาขอบเขตจำกัดชั้น (Class Boundaries)
การหาขอบเขตชั้นนั้นจะกำหนดให้ขอบเขตชั้นมีจำนวนหลักหลังจุดทศนิยมมากกว่าของข้อมูลจริงอยู่ 1 หลักเสมอ เช่น ถ้าข้อมูลจริงเป็นเลขจำนวนเต็ม ขอบเขตจำกัดชั้นจะมีจำนวนจุดทศนิยม 1 หลัก ในทางปฏิบัติ เราสามารถหาค่าขอบเขตชั้นได้ ดังนี้
ขอบเขตจำกัดชั้น = (ขีดจำกัดบนของชั้น + ขีดจำกัดล่างของชั้นถัดไป)/2 |
6). นับจำนวนค่าของข้อมูล (ความถี่) ในแต่ละชั้น
หลังจากสร้างขอบเขตจำกัดชั้นแล้ว จึงตรวจสอบว่าข้อมูลค่าใดอยู่ในชั้นได้บ้าง แล้วนับจำนวนข้อมูลในแต่ละชั้นเรียกว่า ความถี่ของชั้น
2.3 ฮิสโตแกรม (Histogram)
ฮิสโตแกรม (Histogram)
กราฟแท่งแบบเฉพาะ โดยแกนตั้งจะเป็นตัวเลขแสดง “ ความถี่ ” และมีแกนนอนเป็นข้อมูลของคุณสมบัติของสิ่งที่เราสนใจ โดยเรียงลำดับจากน้อย ที่ใช้ดูความแปรปรวนของกระบวนการ โดยการสังเกตรูปร่างของฮิสโตแกรมที่สร้างขึ้นจากข้อมูลที่ได้มาโดยการสุ่มตัวอย่างมีประโยชน์ในการที่จะทำให้ทราบถึงการแจกแจงของสิ่งที่เราต้องการวิเคราะห์ ประโยชน์ประการสำคัญของการใช้ฮีสโตแกรม คือการใช้เพื่อวิเคราะห์ความถี่ของข้อมูลแล้วตัดสินใจว่า การแจกแจงหรือการกระจายข้อมูลแบบใด เพื่อใช้ตรวจสอบคุณสมบัติของข้อมูล ตลอดจนการประมาณการลักษณะคุณภาพที่ได้จากการผลิตแผนภูมิฮิสโตแกรม แผนภูมินี้จะชี้ให้เห็นถึงความเบี่ยงเบนของข้อมูลว่ามีลักษณะการกระจายตัวของข้อมูลเป็นแบบระฆังคว่ำ (Normal Distribution) หรือไม่ หรือมีความเบี่ยงเบนไปทางบวกหรือลบ หรือมีลักษณะรูปแบบแบบฟันเลื่อย หรือแบบหน้าผา เป็นต้น ทำให้มองเห็นว่าความเบี่ยงเบนที่เกิดขึ้นจาก Normal Distribution ควรจะแก้ไขอย่างไร
เมื่อไรจึงจะใช้แผนภาพฮิสโตแกรม
• เมื่อต้องการตรวจสอบความผิดปกติ โดยดูการกระจายของกระบวนการทำงาน
• เมื่อต้องการเปรียบเทียบข้อมูลกับเกณฑ์ที่กำหนด หรือค่าสูงสุด-ต่ำสุด
• เมื่อต้องการตรวจสอบสมรรถนะของกระบวนการทำงาน (Process Capability)
• เมื่อต้องการวิเคราะห์หาสาเหตุรากเหง้าของปัญหา (Root Cause)
• เมื่อต้องการติดตามการเปลี่ยนแปลงของกระบวนการในระยะยาว
• เมื่อข้อมูลมีจำนวนมากๆ
วิธีการเขียนฮิสโตแกรม (Histogram)
• เก็บรวบรวมข้อมูล (ควรรวบรวมประมาณ 100 ข้อมูล)
• หาค่าสูงสุด (L) และค่าต่ำสุด (S) ของข้อมูลทั้งหมด
• หาค่าพิสัยของข้อมูล (R-Range)
สูตร R = L – S
• หาค่าจำนวนชั้น (K)
สูตร K = Square root of (n) โดย n คือ จำนวนข้อมูลทั้งหมด
• หาค่าความกว้างช่วงชั้น (H-Class interval)
สูตร H = R/K หรือ พิสัย / จำนวนชั้น
• หาขอบเขตของชั้น (Boundary Value)
ขีดจำกัดล่างของชั้นแรก = S – หน่วยของการวัด / 2
ขีดจำกัดบนของชั้นแรก = ขีดจำกัดล่างชั้นแรก + H
• หาขีดจำกัดล่างและขีดจำกัดบนของชั้นถัดไป
• หาค่ากึ่งกลางของแต่ละชั้น (Median of class interval)
ค่ากึ่งกลางชั้นแรก = ผลรวมค่าขีดจำกัดชั้นแรก / 2
ค่ากึ่งกลางชั้นสอง = ผลรวมค่าขีดจำกัดชั้นสอง / 2
• บันทึกข้อมูลในรูปตารางแสดงความถี่
• สร้างกราฟฮิสโตแกรม