กระบวนการวิทยาการข้อมูล (DATA SCIENCE PROCESS)
(ask an interesting question)
ตั้งคำถามที่ตนเองสนใจ ? อะไร(What) ที่ไหน(Where) เมื่อไร(When) ทำไม(Why) ใคร(Who) อย่างไร(How) เป็นต้น
(get the data)
ต้องคำนึงถึงว่าจะเก็บข้อมูลเรื่องอะไร จากที่ไหน จำนวนเท่าใด และความน่าเชื่อถือของแหล่งข้อมูล ข้อมูลที่เก็บรวบรวมได้จะต้องทำการตรวจสอบ ขจัดข้อมูลที่ผิด หรือข้อมูลที่ไม่สมบูรณ์ เพื่อให้ได้ข้อมูลนำเข้าที่ดี ไปสู่ผลลัพธ์ที่ดี เหมือนกับประโยคที่ว่า “garbage in garbage out”
ขั้นตอนที่ 3 การสำรวจ
(explore the data)
เป็นการทำความเข้าใจรูปแบบ และค่าของข้อมูล ในขั้นตอนนี้เราจะต้องรวบรวมข้อมูล แล้วนำข้อมูลที่รวบรวมมาพล็อต (plot) ทำให้เป็นภาพ (visualizations) หรือแผนภูมิ (charts) เพื่อให้มองเห็นความหมายที่ซ่อนเร้นอยู่ของข้อมูลผ่านกราฟ ซึ่งอาจพบความผิดปกติของข้อมูลได้
ขั้นตอนที่ 4 การวิเคราะห์ข้อมูล (analyze the data)
การวิเคราะห์ข้อมูล เป็นการดำเนินการกับข้อมูล เพื่อให้เกิดความเข้าใจข้อมูลเชิงลึกในสิ่งที่สนใจศึกษา โดยผลลัพธ์ของการวิเคราะห์ข้อมูลสามารถนำไปประกอบการตัดสินใจเพื่อให้เกิดประโยชน์สูงสุดต่อการดำเนินการของบุคคลหรือองค์กร
ขั้นตอนที่ 5 การสื่อสารและการทำผลลัพธ์ให้เป็นภาพ
(communicate and visualize the results)
เป็นการสื่อสารผลลัพธ์ของข้อมูล โดยการถ่ายทอดเป็นเรื่องราว หรือเป็นภาพให้ผู้อื่นเข้าใจว่าเราได้เรียนรู้อะไรจากข้อมูล
1. กระบวนการวิทยาการข้อมูล มีศัพท์ภาษาอังกฤษว่าอย่างไร
2. กระบวนการวิทยาการข้อมูล มีขั้นตอนที่สำคัญอยู่กี่ขั้นตอน อะไรบ้าง
3. “เป็นการทำความเข้าใจรูปแบบ และค่าของข้อมูล” ข้อความนี้อยู่ขั้นตอนใดของกระบวนการวิทยาการข้อมูล
4. เมื่อเราทำการสำรวจข้อมูลเรียบร้อยแล้ว ขั้นตอนต่อไปเป็นขั้นตอนใดของกระบวนการวิทยาการข้อมูล
5. “เพื่อให้เกิดความเข้าใจข้อมูลเชิงลึกในสิ่งที่สนใจศึกษา” ข้อความนี้อยู่ขั้นตอนใดของกระบวนการวิทยาการข้อมูล
“โรงเรียนแห่งหนึ่งต้องการศึกษาพฤติกรรมของนักเรียนในแต่ละวัน โดยเก็บข้อมูลการทำกิจกรรมต่าง ๆ ได้แก่จำนวนข้อความที่ส่งหาเพื่อน เวลาที่ใช้ในการทำกิจกรรมกับเพื่อน เวลาการทำการบ้าน จำนวนข้อความที่ได้รับจากเพื่อน เป็นเวลา 1 สัปดาห์” จากสถานการณ์นี้ให้ตอบคำถามข้อที่ 6 – 9
ตารางการใช้เวลาของนักเรียน
6. นักเรียนสามารถตั้งคำถามหรือสมมติฐานอะไรได้บ้าง จากข้อมูลที่มีอยู่ (เช่น เวลาที่ใช้ในการทำกิจกรรมกับเพื่อนในแต่ละวัน ทำให้จำนวนข้อความที่ส่งหาเพื่อนเพิ่มขึ้นหรือลดลงหรือไม่)
7. จากตารางการใช้เวลาของนักเรียน นักเรียนพบสิ่งที่ผิดปกติในชุดข้อมูลดังกล่าวหรือไม่ อย่างไร
8. นักเรียนคิดว่าเวลาที่ใช้ในการทำการบ้านของนักเรียนสัมพันธ์กับข้อมูลใด อย่างไร
9. เพื่อตรวจสอบความสัมพันธ์ของข้อมูลทั้ง 2 ชุดในข้อ 8 ให้นักเรียนพล็อตจุด (x,y) ลงในตารางกราฟ โดยใช้แกน y แทนเวลาที่ใช้ในการทำการบ้าน และแกน x แทนข้อมูลที่นักเรียนเลือกในข้อ 8
10. ข้อใด ไม่ใช่ ประเด็นที่ใช้พิจารณาเพื่อออกแบบการเก็บรวบรวมข้อมูลในการตัดสินใจให้มีประสิทธิภาพ
- แห่งข้อมูลมหัต (Big Data)
ยุคแห่งการใช้ข้อมูลที่มีขนาดใหญ่ทุกชนิดที่อยู่ในองค์กรของเราไม่ว่าจะเป็น ข้อมูลบริษัท ข้อมูลลูกค้า พฤติกรรมผู้บริโภค การเข้าออกของธุรกรรมการเงิน ไฟล์เอกสารต่าง ๆ ที่เกี่ยวข้องทั้งหมด รวมไปจนถึง รูปภาพ URLs ลิงก์ต่าง ๆ ที่เก็บไว้ ฯลฯ ที่มีปริมาณมากจนกระทั่งซอฟต์แวร์ปกติทั่วไปไม่สามารถรองรับการเก็บข้อมูลหรือประมวลผลได้อย่างเต็มประสิทธิภาพ ข้อมูลขนาดใหญ่นี้มีความรวดเร็ว และซับซ้อนจนยากหรือที่จะประมวลผลโดยใช้วิธีการแบบเดิม การเข้าถึงและจัดเก็บข้อมูลจำนวนมากเพื่อทำการวิเคราะห์มีมานานแล้ว แต่แนวคิดเกี่ยวกับข้อมูลขนาดใหญ่เป็นที่แพร่หลายในช่วงต้นปีค.ศ. 2000 เมื่อดั๊ก ลานีย์ นักวิเคราะห์อุตสาหกรรมได้ให้คำจำกัดความที่เป็นที่เข้าใจกันในขณะนี้ว่า ข้อมูลขนาดใหญ่ประกอบด้วย 3V ได้แก่ ปริมาณ(Volume) ความเร็ว (Velocity) และความหลากหลาย (Variety)
ข้อมูลมหัตถูกนำมาประมวลผล จับสาระ วิเคราะห์ถึงความต้องการของผู้บริโภคเพื่อสร้างสินค้าและบริการที่สามารถตอบสนองโจทย์ของลูกค้าได้ ทุกองค์กรต่างเห็นความสำคัญของการนำข้อมูลมหัตมาใช้ให้เกิดประโยชน์สูงสุด แต่การนำข้อมูลมหัตมาตอบสนองอย่างเรียลไทม์นั้น จำเป็นต้องมีระบบคลาวด์ มาช่วยอำนวยความสะดวก จัดเก็บข้อมูล เลือกทรัพยากรตามการใช้งาน และทำให้เราสามารถเข้าถึงข้อมูลบนคลาวด์จากที่ใดก็ได้ ผู้ใช้ทุกคนสามารถเข้าถึงระบบ ข้อมูลต่าง ๆ ผ่านอินเทอร์เน็ต สามารถจัดการ บริหารข้อมูล และแบ่งปันข้อมูลกับผู้อื่น ลดต้นทุนและลดความยุ่งยากเพื่อโฟกัสกับงานหลัก เพิ่มความเร็วในการบริการและการทำธุรกิจได้มากขึ้น อีกทั้งข้อมูลมหัตสามารถนำมาต่อยอดโดยการคิดค้น เลือกหา และประยุกต์ใช้ข้อมูลนั้น พัฒนาเป็นแอปพลิเคชัน (Application) ที่ให้ความสะดวกสบายแก่ผู้บริโภคผ่านทางสมาร์9โฟนและแท็บเลต
The Data Science Lifecycle
1.การสร้างข้อมูล ในการเริ่มต้นของวงจรชีวิตข้อมูลหรือ The Data Science Lifecycle เป็นขั้นตอนแรกที่ต้องการสร้างข้อมูลเพื่อต่อยอดภายในอนาคต โดยข้อมูลส่วนใหญ่ก็มาจาก การสำรวจการใช้อินเทอร์เน็ตและอุปกรณ์ต่าง ๆ ของเรา, ข้อมูล Big Data จากหลาย ๆ องค์กร เป็นต้น
2.การจัดเก็บข้อมูล หลังจากที่มีการสร้างข้อมูลเกิดขึ้น ขั้นตอนถัดไปของวงจรชีวิตข้อมูลหรือ The Data Science Lifecycle ก็คือการจัดเก็บข้อมูลเพื่อให้ง่ายต่อการใช้งาน และไม่สูญหายหรือถูกทำลาย ซึ่งผู้ใช้งานสามารถประมวลผลข้อมูลต่าง ๆ ได้ตามความต้องการได้อย่างรวดเร็ว
3.การใช้ข้อมูล ในวงจรชีวิตข้อมูลหรือ The Data Science Lifecycle เป็นการนำข้อมูลที่จัดเก็บมาประมวลผล เช่น การถ่ายโอนข้อมูล การเปลี่ยนรูปแบบการจัดเก็บข้อมูล การวิเคราะห์ข้อมูล การจัดทำรายงาน เป็นต้น เพื่อนำข้อมูลเหล่านั้นมาใช้งานให้เกิดประโยชน์ตามวัตถุประสงค์และสนับสนุนกิจกรรมขององค์กร
4.การวิเคราะห์ข้อมูล ขั้นตอนต่อไปของวงจรชีวิตข้อมูลหรือ The Data Science Lifecycle คือการคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคตด้วยความมั่นใจในระดับสูง ซึ่งจะต้องใช้เทคนิคการเพิ่มประสิทธิภาพเพื่อตรวจจับโซลูชันที่ดีที่สุดเพื่อจัดการกับแนวโน้มที่เปิดเผยโดยการวิเคราะห์
5.เผยแพร่ข้อมูล ขั้นตอนเผยแพร่ข้อมูลในวงจรชีวิตข้อมูลหรือ The Data Science Lifecycle นี้ จะเป็นการแชร์ข้อมูล การกระจายข้อมูล การควบคุมการเข้าถึง การแลกเปลี่ยนข้อมูลระหว่างหน่วยงานและการกำหนดเงื่อนไขในการนำข้อมูลไปใช้เพื่อที่ข้อมูลเหล่านี้จะถูกเปลี่ยนไปเป็นกิจกรรมและการตัดสินใจขององค์กร ซึ่งจะเป็นการเพิ่มคุณค่าสูงสุดให้กับข้อมูลนั้น ๆ
แหล่งที่มา
สำนักงานราชบัณฑิตยสภา. (10 มิถุนายน 2563). ยุคสารสนเทศ. สืบค้นเมื่อ 10 มิถุนายน 2563, จาก http://www.royin.go.th/?knowledges=ยุคสารสนเทศ-๖-พฤศจิกายน.