แหล่งข้อมูลมหัต (Big Data)
ยุคแห่งการใช้ข้อมูลที่มีขนาดใหญ่ทุกชนิดที่อยู่ในองค์กรของเราไม่ว่าจะเป็น ข้อมูลบริษัท ข้อมูลลูกค้า พฤติกรรมผู้บริโภค การเข้าออกของธุรกรรมการเงิน ไฟล์เอกสารต่าง ๆ ที่เกี่ยวข้องทั้งหมด รวมไปจนถึง รูปภาพ URLs ลิงก์ต่าง ๆ ที่เก็บไว้ ฯลฯ ที่มีปริมาณมากจนกระทั่งซอฟต์แวร์ปกติทั่วไปไม่สามารถรองรับการเก็บข้อมูลหรือประมวลผลได้อย่างเต็มประสิทธิภาพ ข้อมูลขนาดใหญ่นี้มีความรวดเร็ว และซับซ้อนจนยากหรือที่จะประมวลผลโดยใช้วิธีการแบบเดิม การเข้าถึงและจัดเก็บข้อมูลจำนวนมากเพื่อทำการวิเคราะห์มีมานานแล้ว แต่แนวคิดเกี่ยวกับข้อมูลขนาดใหญ่เป็นที่แพร่หลายในช่วงต้นปีค.ศ. 2000 เมื่อดั๊ก ลานีย์ นักวิเคราะห์อุตสาหกรรมได้ให้คำจำกัดความที่เป็นที่เข้าใจกันในขณะนี้ว่า ข้อมูลขนาดใหญ่ประกอบด้วย 3V ได้แก่ ปริมาณ(Volume) ความเร็ว (Velocity) และความหลากหลาย (Variety)
Big Data คือ การเก็บรวบรวมข้อมูลที่มีทั้งหมดภายในองค์กรไม่ว่าจะเป็น
- ข้อมูลของบริษัท
- ข้อมูลติดต่อของลูกค้า
- ข้อมูลติดต่อของผู้ร่วมธุรกิจ
- ลักษณะของผู้บริโภค
- การทำรายการธุรกิจต่างๆ ในแต่ละวัน
- ตัวอักษร ไฟล์เอกสาร รูปภาพ
- รวมถึงข้อมูลอื่นๆ แทบทุกประเภทที่อยู่บนโลกออนไลน์
เมื่อข้อมูลมีปริมาณมากจึงต้องอาศัยระบบประมวลผลที่มีประสิทธิภาพ สามารถรองรับปริมาณข้อมูลที่มีอยู่อย่างมหาศาล
เบื้องต้นการเก็บข้อมูลแบบ Big Data นี้ สามารถนำไปวิเคราะห์ข้อมูลในด้านต่างๆ เพื่อนำไปวางแผน และตัดสินใจ ในการดำเนินธุรกิจ หรือช่วยเพิ่มโอกาสในการทำธุรกิจให้ก้าวหน้ามากขึ้น
Big Data เกิดขึ้นได้อย่างไร?
Big Data เป็นคำศัพท์ใหม่ที่เพิ่งเริ่มใช้ในช่วงปี 1990 โดยมี John Mashey ผู้ที่ทำให้คำนี้เป็นที่รู้จักขึ้นมา ซึ่งปกติแล้ว Big Data จะเป็นข้อมูลที่มีปริมาณที่ใหญ่มากโดยที่ซอฟท์แวร์รุ่นเก่าไม่สามารถประมวลผลได้ หรือสามารถประมวลผลได้แต่ใช้เวลานาน โดย Big Data จะมีทั้งข้อมูลที่มีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้าง ขนาดของ Big Data ก็จะมีการเพิ่มขนาดของข้อมูลขึ้นไปเรื่อยๆ จากปัจจุบันที่มีขนาดข้อมูลหลายพัน Terabytes ก็จะมีการเพิ่มขนาดเป็น Zettabytes
การทำงานของ Big Data ต้องอาศัยเทคนิคและเทคโนโลยีสมัยใหม่ที่สามารถรองรับข้อมูลที่มีขนาดใหญ่ ซับซ้อน และหลากหลายได้ โดยในปี 2018 ได้มีการนิยาม Big Data ใหม่ว่า “Big Data คือ เครื่องมือที่ใช้ในการจัดการกับข้อมูล”
ความเป็นมาของข้อมูลขนาดใหญ่
คำว่า “ข้อมูลขนาดใหญ่” หมายถึงข้อมูลที่มีขนาดใหญ่ เร็ว หรือซับซ้อนจนยากหรือเป็นไปไม่ได้ที่จะประมวลผลโดยใช้วิธีการแบบเดิม การเข้าถึงและจัดเก็บข้อมูลจำนวนมากเพื่อทำการวิเคราะห์มีมานานแล้ว แต่แนวคิดเกี่ยวกับข้อมูลขนาดใหญ่เป็นที่แพร่หลายในช่วงต้นปีค.ศ. 2000 เมื่อดั๊ก ลานีย์ นักวิเคราะห์อุตสาหกรรมได้ให้คำจำกัดความที่เป็นที่เข้าใจกันในขณะนี้ว่า ข้อมูลขนาดใหญ่ประกอบด้วยสาม V:
Volume (ปริมาณ) : องค์กรต่างๆ รวบรวมข้อมูลจากหลากหลายแหล่ง ซึ่งรวมถึงธุรกรรมของธุรกิจ อุปกรณ์อัจฉริยะ (IoT) อุปกรณ์อุตสาหกรรม วิดีโอ โซเชียลมีเดีย และอื่นๆ ในอดีต การจัดเก็บข้อมูลถือเป็นปัญหาใหญ่ – แต่เมื่อค่าใช้จ่ายในการจัดเก็บบนแพลตฟอร์มต่างๆ เช่น พื้นที่จัดเก็บข้อมูลส่วนกลาง (Data Lake) และ Hadoop ลดลง ภาระนี้จึงบรรเทาลง
Velocity (ความเร็ว) : ด้วยการเติบโตของ Internet of Things ข้อมูลจะถูกส่งไปยังธุรกิจต่างๆ ด้วยความเร็วที่ไม่เคยมีมาก่อนและต้องได้รับการจัดการในเวลาที่เหมาะสม แท็ก RFID, เซ็นเซอร์ และสมาร์ทมิเตอร์ช่วยผลักดันความต้องการในการจัดการกับกระแสข้อมูลเหล่านี้ในแบบเรียลไทม์
Variety (ความหลากหลาย) : ข้อมูลมีในทุกรูปแบบ นับตั้งแต่ข้อมูลที่มีโครงสร้าง ตัวเลขในฐานข้อมูลแบบดั้งเดิม ไปจนถึงเอกสารข้อความ อีเมล วิดีโอ เสียง ข้อมูลหุ้น และธุรกรรมทางการเงิน
ที่ SAS เราคำนึงสองมิติเพิ่มเติมเมื่อกล่าวถึงBig Data ได้แก่
ความผันแปร:
นอกเหนือจากความเร็วที่เพิ่มขึ้นและความหลากหลายของข้อมูลแล้ว การไหลของข้อมูลยังไม่สามารถคาดการณ์ได้ – มีการเปลี่ยนแปลงบ่อยครั้งและแตกต่างกันอย่างมาก ซึ่งเป็นความท้าทายอย่างยิ่ง แต่ธุรกิจก็จำเป็นต้องทราบเมื่อมีเรื่องที่กำลังเป็นที่กล่าวขานในโซเชียลมีเดีย และรวมถึงวิธีจัดการข้อมูลประจำวัน ตามฤดูกาล และเมื่อเกิดเหตุการณ์ที่ทำให้มีกระแสข้อมูลในระดับสูงสุด
ความถูกต้อง:
ความถูกต้องหมายถึงคุณภาพของข้อมูล เนื่องจากข้อมูลมาจากแหล่งที่แตกต่างกัน จึงเป็นการยากที่จะเชื่อมโยง จับคู่ คัดกรอง และแปลงข้อมูลให้เข้ากับหลายระบบ ธุรกิจจำเป็นต้องเชื่อมต่อและเชื่อมโยงความสัมพันธ์ จัดลำดับชั้น และเชื่อมโยงข้อมูลที่หลากหลาย มิฉะนั้นข้อมูลของพวกเขาจะไม่สามารถควบคุมได้อย่างรวดเร็ว
ลักษณะสำคัญของ Big Data
Big Data จะต้องมีลักษณะสำคัญ 4V ดังต่อไปนี้ จึงจะเรียกได้ว่าเป็น Big Data
1. ปริมาณ (Volume)
คือ ปริมาณข้อมูลที่สามารถผลิตและจัดเก็บไว้ได้จะต้องขนาดที่ใหญ่มากเพียงพอ ซึ่งปริมาณของข้อมูลจะเป็นข้อบ่งบอกได้ถึงคุณภาพและประสิทธิภาพของข้อมูลภายในนั้น และสามารถนำไปพิจารณาต่อได้ว่าข้อมูลที่มีอยู่เหล่านั้น ถือเป็น Big Data หรือไม่
2. ความหลากหลาย (Variety)
คือ ความหลากหลายของประเภทของข้อมูล โดยสามารถเพิ่มประสิทธิภาพในการนำข้อมูลไปวิเคราะห์ต่อยอดได้ ไม่ว่าจะเป็นข้อมูลที่เป็นตัวหนังสือ, รูปภาพ, ข้อมูลเสียงที่ถูกบันทึกไว้, วีดีโอหรือไฟล์ประเภทอื่นจากหลากหลายแหล่งที่มา ก็สามารถเป็นส่วนหนึ่งในการเพิ่มประสิทธิภาพการทำงานของ Big Data ได้
ซึ่งจะเป็นข้อมูลจากทุกฝ่ายไม่ว่าจะเป็นการเงิน ฝ่ายขาย การตลาด ลูกค้าสัมพันธ์ บัญชี รวมถึงตัวหนังสือที่อาจเป็นบทสนทนาระหว่างแผนก หรือระหว่างบริษัท ซึ่งอาจเป็นข้อความจาก Social Media รวมถึง URLs ที่มีข้อมูลเข้ามาอยู่ในทุกวัน
3. ความเร็ว (Velocity)
คือ ความเร็วในการประมวลผลและผลิตข้อมูลขึ้นมาเพื่อให้ทันกับความต้องการของผู้ใช้งาน ซึ่ง Big Data คือข้อมูลที่ได้มาแบบ Real-Time และประมวลผลอยู่ตลอดเวลา แตกต่างจาก Small Data ที่ไม่สามารถทำได้
Big Data จะมีความถี่ในการประมวลผลที่มากกว่า การบันทึกข้อมูลที่มากกว่า และเผยแพร่ข้อมูลที่มากกว่า ข้อมูลของ Big Data ที่มีอัตราการเพิ่มขึ้นของข้อมูลที่มีการเพิ่มขึ้นได้อย่างรวดเร็ว โดยไม่ว่าจะเป็น
- ข้อมูลตัวอักษรการสนทนา
- ข้อมูลการบันทึกเสียง
- ข้อมูลการถ่ายภาพวีดีโอ
- ข้อมูลอัตราการสั่งซื้อสินค้า
- ข้อมูลโปรโมชั่นต่างๆ
ซึ่งหากมานั่งดูแล้วจะถือว่าเป็นข้อมูลที่มีอยู่มาก และมีการอัปเดทเคลื่อนไหวอยู่ตลอดเวลา
4. คุณภาพของข้อมูล (Veracity)
คือ คุณภาพของข้อมูลที่สามารถนำไปวิเคราะห์ข้อมูลต่อไปได้อีก เป็นข้อมูลที่ยังไม่ผ่านการประมวลผลอยู่ในรูปแบบของข้อมูลดิบซึ่งสามารถนำไปประมวลผลต่อไปได้ และเป็นข้อมูลที่มาจากหลากหลายแหล่งไม่ว่าจะเป็น Facebook, Youtube, Twitter ซึ่งข้อมูลจากแหล่งเหล่านี้ยากที่จะสามารถควบคุมคุณภาพรวมถึงการคัดกรองข้อมูล และความน่าเชื่อถือของข้อมูล จึงต้องนำข้อมูลเหล่านี้เข้าสู่กระบวนการทำ Data Cleansing
นอกจาก 4V ที่เป็นลักษณะสำคัญของ Big Data นี้แล้วก็ยังมีลักษณะข้ออื่นๆ ที่สามารถบ่งบอกได้ว่าเป็น Big Data เช่นเดียวกัน ได้แก่
- Scalability คือ ขนาดของข้อมูลทั้งหมดที่มีที่ต้องสามารถขยายขนาดได้อย่างรวดเร็ว
- Relational คือ ความเกี่ยวข้องกันของข้อมูล ข้อมูลที่มีความเกี่ยวข้องกันอยู่จะสามารถทำให้การประมวลผลสามารถทำได้ดีมากยิ่งขึ้น
ชอบคุณข้อมูล https://1stcraft.com/ และ https://www.scimath.org/