การวิเคราะห์ข้อมูลเบื้องต้น
การวิเคราะห์ข้อมูลเบื้องต้นการแจกแจงความถี่เป็นวิธีการจัดเตรียมข้อมูลดิบให้เป็นหมวดหมู่เพื่อความสะดวกในการนำไปวิเคราะห์ ซึ่งสิ่งที่ควรคำนึงถึงในการแจกแจงความถี่การแจกแจงความถี่ทำได้ 2 ดังนี้1) การแจกแจงความถี่ของลักษณะที่สนใจที่เป็นไปได้ทั้งหมด 2) การแจกแจงความถี่สำหลับค่าในแต่ละช่วงของลักษณะที่สนใจการแจกแจงความถี่ของลักษณะที่สนใจที่เป็นไปได้ทั้งหมด การแจงแจกความถี่แบบนี้จะใช้กับข้อมูลที่จำนวนลักษณะที่เป็นไปได้ทั้งหมดมีไม่มากนัก เช่น จำแนกตามเพศ คือ เพศหญิง ชาย จำแนกตามความคิดเห็น เห็นด้วย ไม่เห็นด้วย ตัวอย่างที่ 2.1 จากการสำรวจคนไข้ที่เข้ามารับการรักษาที่โรงพยาบาลแห่งหนึ่งในเดือนมกราคม 2549 โดยแจกแจงความถี่ (จำนวนคนไข้)ตามเพศ ได้ดังนี้
เพศ | จำนวนคนไข้ |
ชาย | 389 |
หญิง | 311 |
รวม | 700 |
การแจกแจงความถี่สำหรับค่าในแต่ละช่วงของลักษณะที่สนใจ
ในกรณีที่ค่าของข้อมูลที่เป็นไปได้ทั้งหมดของลักษณะที่สนใจมีจำนวนมากตัวอย่าง 2.2 ถ้าเลือกชายมา 100 คนสอบถามความสูงแล้วจัดทำเป็นช่วงๆได้5ช่วงหรือ 5 ช่วง ดังนี้
ความสูงของนักศึกษาชาย
(เซนติเมตร) |
จำนวนคนไข้ |
135-144 | 5 |
145-154 | 21 |
155-164 | 39 |
165-174 | 24 |
175-184 | 11 |
รวม | 100 |
ช่วงจำนวนของแต่ละชั้น เช่น 135-144,145-154,…,175-184 เรียกว่าขีดจำกัดชั้นค่าต่ำสุดของแต่ละชั้น เช่น 135-145,…,175 เรียกว่าขีดจำกัดล่างและค่าสูงสุดของแต่ละชั้น เช่น 144,154,…,184 เรียกว่าขีดจำกัดบน โดยทั่วไปจะกำหมดค่าสูงสุดและค่าต่ำสุดของแต่ละชั้นให้มีทศนิยมมากกว่าของข้อมูลดังนี้ตัวอย่าง 2.2. ถ้านักศึกษาชายคนหนึ่งสูง 144.5 เซนติเมตร ก็ไม่สามารถจัดให้นักศึกษาอยู่ในชั้นใดได้ นอกจากนั้นการกำหมดให้มีจำนวนหลังจุดทศนิยมมากกว่าค่าของของข้อมูลทำให้ข้อมูลทั้งหมดต่อเนื่องกัน และเรียกช่วงในแต่ละชั้นว่า ขอบเขตจำกัดดังนั้นจากตัวอย่างที่ 2.2 ขอบเขตจำกัดชั้นสามารถกำหมดได้ ดังนี้
ขอบเขตจำกัดชั้นสูงนักศึกษาชาย
(เซนติเมตร) |
จำนวนคน |
134.5-144.5 | 5 |
144.5-154.5 | 21 |
154.5-164.5 | 39 |
164.5-174.5 | 24 |
174.5-184.5 | 11 |
รวม | 100 |
ค่าต่ำสุดของแต่ละชั้นคือ 134.5,144.5,…,174.5 เรียกว่าขอบเขตจำกัดล่างและค่าสูงสุดของแต่ชั้นคือ 144.5,154.5,….,1184.5 ว่าขอบเขยจำกัดบนและความกว้างของชั้นคือ 144.5-134.5=10 ตารางแจกแจงความถี่เป็นตารางที่อ่านเข้าง่าย แต่ก็มีการเสียรายละเอียดบางอย่างเกี่ยวข้อมูล เช่นมีนักศึกษาที่มีความสูงในช่วง 144.5- 154.5 เซนติเมตร อยู่ 18คน แต่จะไม่ทราบว่านักศึกษา 18 คน คนนี้มีส่วนสูงจริงๆ เท่าไหร่อาจจะเท่ากันหมดคือ 145 เซนติเมตรก็ได้ ปัญหานี้อาจแก้ไขด้ายโดยลดความกว้างของชั้นให้แคบลง ผูสร้างตารางแจกแจงความถี่จะต้องคำนึงถึงความเหมาสมในการกำหมดความกว้างของชั้นด้วย 1). หาค่าพิสัยของข้อมูลโดยที่ค่าพิสัย(Range)คือผลต่างระหว่างข้อมูลที่มีค่ามากที่สุดกับข้อมูลที่มีค่าน้อยที่สุดดังนั้น
พิสัย = ค่าสูงสุด – ค่าต่ำสุด |
ถ้ามีข้อมูล N ค่า คือ X1 ,X2,…XNและให้ Xmax = ค่าสูงสุดของข้อมูล = max(X1 ,X2,…XN) Xmin = ค่าต่ำสุดของข้อมูล = min (X1 ,X2,…XN)ดังนั้น พิสัย = R = Xmax – Xmin 2)กำหมดจำนวนชั้น (k) โดยกำหนดจำนวนชั้นเป็น 5-20 ชั้น ถ้าข้อมูลมีการกระจายมากและมีจำนวนข้อมูลไม่มากควรให้มีจำนวนชั้นน้อยๆ เพื่อป้องกันไม่ให้มีชั้นที่มีชั้นที่มีค่าความถี่เป็นศูนย์ เนื่องจากไม่มีข้อมูลค่าใดที่ตกอยู่ในชั้นๆเลยในกรณีนี้ที่สร้างไม่ทราบว่าควรกำหมดให้ตารางแจกแจงความถี่มีกี่ชั้นส่ามารถใช้สูตรในการคำนวณชั้นได้ ด้งนี้
K = 1+ 3.3 log N |
I = ความกว้างของชั้น (อันตรภาคชั้น) = พิสัย
จำนวนชั้น =R/k |
ถ้าค่า I เป็นเลขไม่ลงตัว จะปัดให้เป็นจำนวนเต็ม(ไม่ว่าเศษจะมีค่าต่ำกว่าหรือมากกว่า 0.5)โดยทั่วไปมักกำหมดให้ความกว้างของแต่ละชั้นเท่ากันหมด แต่ละในทางปฏิบัติบางครั้งอาจจะให้ความกว้างของแต่ละชั้นไม่เท่ากัน หรืออาจกำหมดให้เป็นชั้นเปิดก็ได้หรืออาจจะกำหมดให้ความกว้างของชั้นเป็นค่าที่ทำให้ค่ากึ่งกลางชั้น มีค่าเท่ากับจริงของข้อมูล
ค่ากึ่งกลางชั้น = (ขอบเขตกำจัดบน + ขอบเขตจำกัดล่าง )/2 = (ขีดจำกัดบน + ขีดจำกัดล่าง )/2 |
โดยจะกำหมดให้ขีดจำกัดล่างของชั้นแรก (ชั้นที่มีค่าต่ำสุด) ครอบคลุมข้อมูลที่มีค่าต่ำสุดและให้ขีดจำกัดบนของชั้นสุดท้าย (ชั้นที่มีค่าสูงสุด)ครอบคลุมข้อมูลที่มีค่าสูงสุด หรืออาจใช้สูตรต่อไปนี้
ขีดจำกัดล่างของชั้นแรก = ค่าต่ำ – (Ik – R)/2 |
5).คำนวณหาขอบเขตจำกัดชั้น (Class Boundaries) การหาขอบเขตชั้นนั้นจะกำหนดให้ขอบเขตชั้นมีจำนวนหลักหลังจุดทศนิยมมากกว่าของข้อมูลจริงอยู่ 1 หลักเสมอ เช่น ถ้าข้อมูลจริงเป็นเลขจำนวนเต็ม ขอบเขตจำกัดชั้นจะมีจำนวนจุดทศนิยม 1 หลัก ในทางปฏิบัติ เราสามารถหาค่าขอบเขตชั้นได้ ดังนี้
ขอบเขตจำกัดชั้น = (ขีดจำกัดบนของชั้น + ขีดจำกัดล่างของชั้นถัดไป)/2 |
6). นับจำนวนค่าของข้อมูล (ความถี่) ในแต่ละชั้น หลังจากสร้างขอบเขตจำกัดชั้นแล้ว จึงตรวจสอบว่าข้อมูลค่าใดอยู่ในชั้นได้บ้าง แล้วนับจำนวนข้อมูลในแต่ละชั้นเรียกว่า ความถี่ของชั้น • เมื่อต้องการตรวจสอบความผิดปกติ โดยดูการกระจายของกระบวนการทำงาน • เมื่อต้องการเปรียบเทียบข้อมูลกับเกณฑ์ที่กำหนด หรือค่าสูงสุด-ต่ำสุด • เมื่อต้องการตรวจสอบสมรรถนะของกระบวนการทำงาน (Process Capability) • เมื่อต้องการวิเคราะห์หาสาเหตุรากเหง้าของปัญหา (Root Cause) • เมื่อต้องการติดตามการเปลี่ยนแปลงของกระบวนการในระยะยาว • เมื่อข้อมูลมีจำนวนมากๆ • เก็บรวบรวมข้อมูล (ควรรวบรวมประมาณ 100 ข้อมูล) • หาค่าสูงสุด (L) และค่าต่ำสุด (S) ของข้อมูลทั้งหมด • หาค่าพิสัยของข้อมูล (R-Range) • สร้างกราฟฮิสโตแกรม • แบบปกติ (Normal Distribution)
โพลีกอนหรือความถี่โพลีกอน (Frequency Polygon) เป็นการนำเสนอข้อมูลให้เห็นเด่นชัดยิ่งขึ้น ซึ่งแสดงผลโดยลากเส้นตรงเชื่อมต่อระหว่างค่ากึ่งกลางชั้นของฮีสโตแกรม แต่จะต้องเพิ่มในฮีสโตแกรมอีกสองชั้น คือ ชั้นต่ำสุด และชั้นสูงสุด โดยชั้นที่เพิ่มอีก 2 ชั้นมีค่าความถี่เป็นศูนย์
จากตารางแจกแจงความถี่ จะได้ความถี่สัมพัทธ์ของชั้นใดชั้นหนึ่งหมายถึงความถี่ของชั้นนั้นหารด้วยความถี่ทั้งหมด ส่วนมากนิยมเสนอด้วยเปอร์เซนต์โดยการนำผลหารขเางต้นคูณด้วย 100 และผลบวกของความถี่สัมพัทธ์ของทุกชั้นจะเท่ากับ 1
อันตรภาคชั้น | ความถี่ | ความถี่สัมพัทธ์ | ร้อยละความถี่สัมพัทธ์ |
10 – 14 | 3 | 3/30=0.1000 | 3/30×100=10.00 |
15 – 19 | 5 | 5/30=0.1667 | 5/30×100=16.67 |
20 – 24 | 12 | 12/30=0 4000 | 12/30×100= 40.00 |
25 – 29 | 10 | 10/30=0 3333 | 10/30×100=33.33 |
รวม | 30 | 1.0000 | 100 |
อันตรภาคชั้น | ความถี่ | ความถี่สะสม |
50 – 54 | 3 | 3 |
55 – 59 | 5 | 8 |
60 – 64 | 12 | 20 |
65 – 69 | 10 | 30 |
70 – 74 | 6 | 36 |
75 – 80 | 4 | 40 |
145 158 157 160 160 143 161 163 147 139 1. เลือกเอาตัวเลขหลักที่ซ้ำมาทำเป็น “ต้น” ในตัวอย่างนี้จะได้สองหลักซ้ายมือ 2. นำเลขที่เหลือ ของข้อมูลแต่ละตัว มาเขียนลงไปในช่อง “ใบ” (เช่น 150 ก็แยก 15 เป็น “ต้น” และ 0 เป็น “ใบ”) 3. ควรเรียงลำดับจากน้อยไปมาก เพื่อให้สะดวกต่อการวิเคราะห์ สมมติเราต้องการจะเปรียบเทียบชุดข้อมูล 2 กลุ่ม ก็สามารถทำ ได้ ตัวอย่างเช่น ความสูงของนักเรียนห้องป.6/1 และ ป.6/2 เป็นดังนี้ 150 131 166 136 136 134 144 145 149 140 145 158 157 160 160 143 161 163 147 139ป. 6/2 162 163 163 172 157 156 154 165 161 172 160 148 144 160 175 190 169 155 157 176 1) นักเรียนชั้นป.6/1 ส่วนใหญ่มีความสูงอยู่ในช่วง 150-159 ซม. ในขณะที่นักเรียนชั้นป.6/2 ส่วนใหญ่มีความสูงอยู่ระหว่าง 140-149 ซม. 2) นักเรียนคนที่เตี้ยที่สุดอยู่ชั้นป.6/2 สูง 131 ซม.ส่วนนักเรียนที่สูงที่สุดอยู่ชั้นป.6/1 สูง 190 ซม. 3) ชั้นป.6/1 มีนักเรียนที่สูงผิดปกติ 1 คน 4) ความสูงเฉลี่ยชั้นป.6/1 น่าจะมากกว่าชั้นป.6/2 การวัดแนวโน้มเข้าสู่ส่วนกลางเป็นระเบียบวิธีทางสถิติในการหาค่าเพียงค่าเดียวที่จะใช้เป็นตัวแทนของข้อมูลทั้งชุด ค่าที่หาได้นี้จะทำให้สามารถทราบถึงลักษณะของข้อมูลทั้งหมดที่เก็บรวบรวมมาได้ ค่าที่หาได้นี้จะเป็นค่ากลาง ๆ เรียกว่า ค่ากลาง ประเภทของการวัดแนวโน้มเข้าสู่ส่วนกลาง การวัดแนวโน้มเข้าสู่ส่วนกลางมีอยู่หลายวิธีด้วยกัน
เมื่อ (เอ็กซ์บาร์) คือ ค่าเฉลี่ยเลขคณิต คือ ผลบวกของข้อมูลทุกค่า คือ จำนวนข้อมูลทั้งหมด การหารค่ามัธยฐาน สามารถหาได้ 2 วิธี 1. การหามัธยฐานของข้อมูลที่ไม่แจกแจงความถี่ ซึ่งมีวิธีหาได้ดังนี้ 1.1 เรียงข้อมูลจากน้อิยไปมาก หรือจากมากไปน้อย 1.2 หาตำแหน่งของมัธยฐาน จาก
เมื่อ = จำนวนข้อมูลทั้งหมด คำนวณได้่จากสูตร
i = ความกว้างของอันตรภาคชั้น = ความถี่สะสมชั้นที่อยู่ก่อนชั้นที่มีมัธยฐานไปหาคะแนนน้อย = ความถี่ของคะแนนในชั้นที่มีมัธยฐาน คือตำแหน่งมัธยฐาน การหารค่าฐานนิยม สามารถหาได้ 2 วิธี พิจารณาค่าของข้อมูลที่ซ้ำกันมากที่สุด คือฐานนิยม คำนวณได้จากสูตร
เมื่อ Mo = ฐานนิยม (Mode) L = ขีดจำกัดล่างของคะแนนในชั้นที่มีความถี่สูงสุด i = ความกว้างอันตรภาคชั้น = ผลต่างของความถี่มากที่สุดกับความถี่ของชั้นก่อนหน้า = ผลต่างของความถี่มากที่สุดกับความถี่ของชั้นที่ถัดไปทางคะแนนมาก 2.2 ขั้นตอนการสร้างตารางแจกแจงความถี่ขั้นตอนการสร้างตารางแจกแจงความถี่การสร้างตารางแจกแจงความถี่มีขั้นตอน ดังนี้ 3).คำนวณหาความกว้างของชั้นหรืออันตรภาคชั้น (Class Interval: I) 4).คำนวณหาขีดจำกัดชั้นแล้วปัดให้มีลักษณะเหมือนข้อมูลจริง เช่น ข้อมูลมีจำนวนหลักหลังจุดทศนิยมสองหลักจะปิดเศษให้ขีดจำกัดชั้นเป็นเลขที่มีจำนวนจุดทศนิยมสอง 2 เช่นกัน
2.3 ฮิสโตแกรม (Histogram)ฮิสโตแกรม (Histogram) กราฟแท่งแบบเฉพาะ โดยแกนตั้งจะเป็นตัวเลขแสดง “ ความถี่ ” และมีแกนนอนเป็นข้อมูลของคุณสมบัติของสิ่งที่เราสนใจ โดยเรียงลำดับจากน้อย ที่ใช้ดูความแปรปรวนของกระบวนการ โดยการสังเกตรูปร่างของฮิสโตแกรมที่สร้างขึ้นจากข้อมูลที่ได้มาโดยการสุ่มตัวอย่างมีประโยชน์ในการที่จะทำให้ทราบถึงการแจกแจงของสิ่งที่เราต้องการวิเคราะห์ ประโยชน์ประการสำคัญของการใช้ฮีสโตแกรม คือการใช้เพื่อวิเคราะห์ความถี่ของข้อมูลแล้วตัดสินใจว่า การแจกแจงหรือการกระจายข้อมูลแบบใด เพื่อใช้ตรวจสอบคุณสมบัติของข้อมูล ตลอดจนการประมาณการลักษณะคุณภาพที่ได้จากการผลิตแผนภูมิฮิสโตแกรม แผนภูมินี้จะชี้ให้เห็นถึงความเบี่ยงเบนของข้อมูลว่ามีลักษณะการกระจายตัวของข้อมูลเป็นแบบระฆังคว่ำ (Normal Distribution) หรือไม่ หรือมีความเบี่ยงเบนไปทางบวกหรือลบ หรือมีลักษณะรูปแบบแบบฟันเลื่อย หรือแบบหน้าผา เป็นต้น ทำให้มองเห็นว่าความเบี่ยงเบนที่เกิดขึ้นจาก Normal Distribution ควรจะแก้ไขอย่างไรเมื่อไรจึงจะใช้แผนภาพฮิสโตแกรมวิธีการเขียนฮิสโตแกรม (Histogram) สูตร R = L – S • หาค่าจำนวนชั้น (K) สูตร K = Square root of (n) โดย n คือ จำนวนข้อมูลทั้งหมด • หาค่าความกว้างช่วงชั้น (H-Class interval) สูตร H = R/K หรือ พิสัย / จำนวนชั้น • หาขอบเขตของชั้น (Boundary Value) ขีดจำกัดล่างของชั้นแรก = S – หน่วยของการวัด / 2 ขีดจำกัดบนของชั้นแรก = ขีดจำกัดล่างชั้นแรก + H • หาขีดจำกัดล่างและขีดจำกัดบนของชั้นถัดไป • หาค่ากึ่งกลางของแต่ละชั้น (Median of class interval) ค่ากึ่งกลางชั้นแรก = ผลรวมค่าขีดจำกัดชั้นแรก / 2 ค่ากึ่งกลางชั้นสอง = ผลรวมค่าขีดจำกัดชั้นสอง / 2 • บันทึกข้อมูลในรูปตารางแสดงความถี่ลักษณะต่างๆ ของฮิสโตแกรม
การกระจายของการผลิตเป็นไปตามปกติ ค่าเฉลี่ยส่วนใหญ่จะอยู่ตรงกลาง• แบบแยกเป็นเกาะ (Detached Island Type) พบเมื่อกระบวนการผลิตขาดการปรับปรุง/หรือการผลิตไม่ได้ผล• แบบระฆังคู่ (Double Hump Type) พบเมื่อนำผลิตภัณฑ์ของเครื่องจักร 2 เครื่อง / 2 แบบมารวมกัน• แบบฟันปลา (Serrated Type) พบเมื่อเครื่องมือวัดมีคุณภาพต่ำ หรือการอ่านค่ามีความแตกต่างกันไป• แบบหน้าผา (Cliff Type) พบเมื่อมีการตรวจสอบแบบ Total Inspection เพื่อคัดของเสียออกไป2.4. โพลิกอนโพลีกอน (Polygon)2.5 การแจกแจงความถี่สัมพัทธ์ (Relative Frequency Distribution)การแจกแจงความถี่สัมพัทธ์ (Relative Frequency Distribution)ความถี่สัมพัทธ์ที่ได้นิยมเขียนให้อยู่ในรูปทศนิยม หรือ ร้อยละตัวอย่างที่ 8 จากตารางแจกแจงความถี่ที่กาหนดให้ หาค่าความถี่สัมพัทธ์ได้ดังนี้ความหมายจากตาราง ความถี่สัมพัทธ์ของอันตรภาคชั้นใด เป็นการบอกให้ทราบว่าอันตรภาคชั้นนั้น มีจำนวนมากน้อยเพียงใดเมื่อเทียบกับผลรวมของความถี่ทั้งหมด แต่เพื่อความเข้าใจได้ง่ายๆ จึงนิยมเขียนเป็นร้อยละ เรียกว่า “ร้อยละของความถี่สัมพัทธ์”เช่น อันตรภาคชั้น 10 – 14 มีร้อยละของความถี่สัมพัทธ์เท่ากับ 10.00 แสดงว่า อันตรภาคชั้น 10 -14 มีจานวนคิดเป็นร้อยละ 10.00 ของจานวนข้อมูลทั้งหมดอันตรภาคชั้น 20 – 24 เป็นอันตรภาคชั้นที่มีข้อมูลอยู่ในช่วงนี้มากที่สุด คิดเป็นร้อยละ 40.00 ส่วนอันตรภาคชั้น 10 – 14 เป็นอันตรภาคชั้นที่มีข้อมูลอยู่ในช่วงนี้น้อยที่สุด คิดเป็นร้อยละ 10.00หมายเหตุ 1. การปัดเศษในวิชาสถิติ แตกต่างกับการปัดเศษโดยทั่วๆไป กล่าวคือ ถ้าตัวที่จะปัดเป็น 5 โดยทั่วไปจะปัดขึ้นแต่สำหรับวิชาสถิติ ต้องดูตัวเลขที่อยู่ข้างหน้า ถ้าเป็นเลขคู่ คือ 0, 2, 4, 6, 8 จะปัด 5 ทิ้ง แต่ถ้าตัวเลขที่อยู่ข้างหน้าเป็นเลขคี่ คือ 1, 3, 5, 7, 9 จะปัดขึ้นเป็นหนึ่ง เช่น12345/100,000=0.12345 ถ้าต้องการทศนิยม 4 ตาแหน่งจะได้ 0.123412375/100,000=0.12375 ถ้าต้องการทศนิยม 4 ตาแหน่งจะได้ 0.1238 2. ผลรวมของความถี่สัมพัทธ์ มีค่าเท่ากับ 1 เสมอ ส่วนผลรวมของร้อยละของความถี่สัมพัทธ์เท่ากับ 100 เสมอ 2.6 การแจกแจงความถี่สะสมการแจกแจงความถี่สะสม ความถี่สะสม (Cumulative Frequency) ของอันตรภาคชั้นใด คือ ผลรวมความถี่ตั้งแต่อันตรภาคชั้นช่วงคะแนนต่าสุดถึงอันตรภาคชั้นนั้นตัวอย่าง จากตารางแจกแจงความถี่ต่อไปนี้ จงหาความถี่สะสมจากตารางแจกแจงความถี่ข้างต้น อันตรภาคชั้นที่ 3 มีความถี่สะสม 20 แสดงว่าข้อมูลที่มีค่าน้อยกว่า 64.5 มีอยู่ 20 จำนวนอันตรภาคชั้นที่ 4 มีความถี่สะสม 30 แสดงว่าข้อมูลที่มีค่าน้อยกว่า 69.5 มีอยู่ 30 จำนวนอันตรภาคชั้นที่ 5 มีความถี่สะสม 36 แสดงว่าข้อมูลที่มีค่าน้อยกว่า 74.5 มีอยู่ 36 จำนวนอันตรภาคชั้นที่ 6 มีความถี่สะสม 40 แสดงว่าข้อมูลที่มีค่าน้อยกว่า80.5 มีอยู่ 40 จำนวนข้อสังเกต1. ค่าความถี่สะสมหาได้จากการบอกความถี่จากอันตรภาคชั้นที่คะแนนมีค่าน้อยไปสู่ชั้นที่มีค่ามาก2. ความถี่สะสมของอันตรภาคชั้นสุดท้าย คือ จานวนข้อมูลทั้งหมดนั่นเอง3. ค่าความถี่สะสมของอันตรภาคชั้นใดบอกให้ทราบว่า มีจานวนข้อมูลเท่าใดที่มีค่าน้อยกว่าขอบบนของชั้นนั้น4. ค่าความถี่ของอันตรภาคชั้นใด บอกให้ทราบว่า มีจานวนข้อมูลเท่าใดที่มีค่าอยู่ในอันตรภาคชั้นนั้น แผนภาพต้น-ใบ (Stem-and-Leaf Diagram) ใช้เพื่อจัดข้อมูลเป็นกลุ่มๆ และข้อมูลทุกตัวจะถูกแสดงในแผนภาพ ไม่เพียงแค่นับรวมว่าเป็นความถี่ในอันตรภาคชั้นเดียวกันเหมือนกับฮิสโตแกรม สมมติเรามีข้อมูลส่วนสูง(ซม.)ของนักเรียนชั้นป.6 จำนวน 20 คน ดังนี้ 150 131 166 136 136 134 144 145 149 140 จะสามารถนำมาทำแผนภาพต้น-ใบ ได้ดังนี้ จากแผนภาพต้น-ใบนี้ จะบอกได้คร่าวๆว่าข้อมูลที่มีค่าต่ำที่สุดคือ 131 และสูงสุดคือ 166 ช่วงที่มีความถี่สูงสุดคือ 140 – 149ป. 6/1 เขียนเป็นแผนภาพต้น-ใบได้ดังนี้ซึ่งเราจะสามารถวิเคราะห์ข้อมูลทั้ง 2 กลุ่มอย่างคร่าวๆ ได้ว่ารวัดแนวโน้มเข้าสู่ส่วนกลาง (measures of central tendency) ค่าเฉลียเลขคณิตของข้อมูลที่ไม่ได้แจกแจงความถี่ สามารถคำนวณได้จากสูตรมัธยฐาน (Median) มัธยฐาน หมายถึง ค่ากึ่งกลางของข้อมูลชุดนั้น หรือค่าที่อยู่ในตำแหน่งกึ่งกลางของข้อมูลชุดนั้น เมื่อได้จัดเรียงค่าของข้อมูลจากน้อยที่สุด ไปหามากที่สุดหรือจาหมากที่สุกไปหาน้อยที่สุด ค่ากึ่งกลางจะเป็นตัวแทนที่แสดงว่ามีข้อมูลที่มากกว่าและน้อนกว่านี้อยู่ 50 %2. การหามัธยฐานของข้อมูลที่แจกแจงความถี่ เมื่อ Mdn = มัธยฐาน ( Median ) L = ขีดจำกัดล่างที่แท้จริงของชั้นที่มีมัธยฐานอยู่ฐานนิยม(Mode) ฐานนิยมหมายถึง ค่าของคะแนนที่ซ้ำกันมากที่สุดหรือ ค่าคะแนนที่มีความถี่สูงที่สุดในข้อมูลชุดนั้น 1. ฐานนิยมของข้อมูลที่ไม่แจกแจงความถี่ 2. ฐานนิยมของข้อมูลที่แจกแจงความถี่Box Plot ใช้แสดงสาระที่สำคัญของข้อมูลคือ ค่ากลาง ค่าการกระจาย สัดส่วนข้อมูลที่มากหรือน้อยกว่าค่ากลาง ( Symmetry ) รวมทั้งข้อมูลที่อยู่ห่างจากกลุ่มมากๆ (Outlier)รูปที่ 2.4.2 โครงสร้างของ Box plotBox plot จะแสดงข้อมูลทั้งหมดออกมา 3 Quartiles โดยมีการจัดเรียงอันดับของข้อมูลแล้ว ข้อมูลที่ตกอยู่ภายใต้ Q1 (Quartile 1) คือข้อมูล 25% แรกจากค่าต่ำขึ้นมา จะแสดงในรูปเส้นตรง หนึ่งเส้น (Whisker) ข้อมูลที่ตกอยู่ภายใต้ Q2 คือข้อมูลตัวที่มากกว่า 25% จนถึงตัวที่ 75% โดยแสดงออกมาในรูป สี่เหลี่ยมผืนผ้า ภายใน Q3 นี้ จะมีค่าที่ 50% ของข้อมูลอยู่ เขียนแทนด้วยเส้นตรงอยู่ภายในรูปสี่เหลี่ยมผืนผ้า ค่านี้คือค่าค่ากลางของข้อมูลทั้งหมด (Median) และตรงค่า เฉลี่ย (Mean) จะแทนด้วย เครื่องหมายบวก โดยที่ค่าอาจจะเท่าหรือต่างกับค่า Median ก็ได้ ส่วนค่าที่ตกอยู่ภายใต้ Q3 คือตัวที่มากกว่า 75% ขึ้นไป จะเขียนแทนด้วยเส้นตรง เช่นเดียวกับ Q1 วิธีหาจุดเริ่มต้นของ Q1 และจุดสุดท้ายของ Q3 จะหามาจากสมการตามที่ปรากฏ อยู่ในรูป ดังนั้น ค่าที่ต่ำกว่า ค่าเริ่มต้นของ Q1 และค่าสุดท้ายของ Q3 จะเรียกว่า Outlier เขียนสัญญลักญ์แทนด้วย * ถ้าสังเกตดูเราจะพบว่า เส้นค่ากลางจะแบ่งจำนวนขอ้มูลใน Q2 ออกเป็นสองส่วนเท่าๆกัน ดังนั้นถ้า ค่ากลางนี้ไม่ได้อยู่ตรงกลางรูปสี่เหลี่ยมผืนผ้า นั่นหมายถึงรูปกราฟจะเบ้ ไป หรือความหนาแน่นของข้อมูลจะไม่เท่ากัน แต่โดยทั่วไปโปรแกรมทางสถิติจะมีคำสั่งให้ทำ Box plot ให้ใช้