ขั้นตอนใดเป็นขั้นตอนแรกของการ Clean ข้อมูล

ทั้งนี้ในการทำความสะอาดข้อมูล เกิดขึ้นเนื่องจาก มีความไม่สอดคล้องของข้อมูล ซึ่งอาจเกิดจากข้อผิดพลาดของการบันทึกข้อมูล การส่งข้อมูล หรือการให้ความหมายของข้อมูลที่จัดเก็บแตกต่างกัน อาทิเช่น พิมพ์ผิด มีการเว้นว่างไม่กรอกข้อมูล กรอกข้อมูลที่ไม่สามารถอ้างอิงในระบบได้ หรือ เป็นตัวเลขที่ไม่มีทางเป็นไปได้ในความเป็นจริง ดังนั้นจึงต้องมีการบูรณาการกับฐานข้อมูลอื่น ๆ ไม่ว่าจะเป็น คลังข้อมูล หรือหลายฐานข้อมูล ซึ่งจะมีโอกาสสูงที่จะเกิด ข้อมูลที่ไม่สะอาด ขึ้นได้

ข้อควรระวังใน การทำความสะอาดข้อมูล

  1. การพิมพ์ผิด เมื่อมีการลงรายการใด ๆ ก็ตามในฐานข้อมลู ควรจะมีการตรวจสอบอย่างละเอียด รอบคอบและถี่ถ้วน และถี่ถ้วน
  2. การลงรายการที่ไม่ครบถ้วน ขาดรายการในบางเขตข้อมูล โดยเฉพาะเขตข้อมูลที่จำเป็น
  3. การไม่สม่ำเสมอในการลงรายการของข้อมูล ด้วยคำ ๆ เดียวกัน แต่มีการใช้ไม่เหมือนกัน แล้วแต่ความสะดวก ไม่มีมาตรฐานในการลงรายการ
  4. การตรวจสอบไม่ละเอียด ทำให้เกิดรายการซ้ำขึ้นได้ และทำให้เกิดการประมวลผลผิดพลาด
  5. การไม่ปรับปรุงรายการหลักฐานให้ทันสมัยอยู่เสมอ

ดังนั้นการทำความสะอาดข้อมูล ไม่เพียงแต่เป็นการจัดการข้อมูลที่ดี และไม่ใช่การเน้นเฉพาะการป้องกันข้อมูลที่ไม่ถูกต้องเท่านั้น แต่จะต้องอัปเดตฐานข้อมูล เพื่อแก้ไขข้อมูลที่ล้าสมัย ตลอดจนข้อผิดพลาดต่าง ๆ ที่ส่งผลต่อการจัดเก็บข้อมูลด้วย

          กรณีที่ต้องการใช้ข้อมูลของกลุ่มตัวอย่างที่มีการเผยแพร่จากหลายแหล่ง หรือมีหลายไฟล์ข้อมูล ต้องทำการเชื่อมโยงข้อมูลจากหลายแหล่งเข้าด้วยกัน โดยใช้คุณลักษณะหรือแอตทริบิวต์ ที่มีอยู่รวมกันของหลายแหล่งข้อมูล เป็นตัวเชื่อมโยง

คุณรู้หรือไม่ว่า Data Scientist ที่ทำงานจริงส่วนใหญ่ใช้เวลากว่า 80% ในการ Clean ข้อมูล และใช้อีก 20% ที่เหลือในการสร้างโมเดล การ Clean ข้อมูลนี้ เปรียบเหมือนการทำอาหาร เมื่อเรามีวัตถุดิบ นอกจากการคัดสรรวัตถุดิบอย่างพิถีพิถันแล้ว เรายังต้องนำวัตถุดิบนั้นมาทำความสะอาด ปลอกเปลือก ตัดแต่งส่วนที่เน่าเสียออก หั่นให้เป็นรูปร่างที่พร้อมปรุง และอีกหลากหลายขั้นตอน เพื่อให้อาหารจานนั้นถูกปรุงออกมาอย่างดีที่สุด

เหตุผลที่ข้อมูลไม่สะอาดนั้น มีที่มาได้จากหลากหลายสาเหตุ ตั้งแต่การพิมพ์ผิด พิมพ์ตก เครื่องมือเกิด Error หรือ ข้อมูลตัวเลขที่มีความเป็นไปได้น้อยมาก เช่น คนอายุ 120 ปี หรือ ส่วนสูง 230 ซม. เป็นต้น ซึ่งในทางเทคนิคจะเรียกว่าข้อมูลที่อยู่นอกกลุ่มว่า "Outlier" ดังนั้น Data Scientist ที่ดีนั้นจำเป็นต้องแสดงให้เจ้าของข้อมูลนั้นเข้าใจว่า การ Clean Data นั้นเป็นขั้นตอนที่ยาก สำคัญ และใช้เวลานาน เพราะนอกจากการหาคำจำกัดความของ “ความไม่สะอาด” ของข้อมูลแล้ว เรายังต้องหาวิธีจัดการกับข้อมูลที่ตกหล่นหายไป หรือที่เราเรียกว่า "Missing value" อีกด้วย ทั้งหมดนี้ Data Scientist จำเป็นต้องใช้กลไกทางความคิดเพื่อออกแบบเป็นโมเดลสำหรับการ Clean Data โดยเฉพาะ เนื่องจากเรากำลังพูดถึงข้อมูลขนาดใหญ่ หรือ Big Data ที่ตาเปล่าและสองมือไม่สามารถจัดการได้ไหว

 

ขั้นตอนเบื้องต้นในการ Clean ข้อมูล 4 ขั้นตอน ได้แก่

1. Parsing คือ การแจกแจงข้อมูล หรือการใช้หัวข้อของชุดข้อมูล

เช่น ชื่อ: สมศรี, จังหวัด: กรุงเทพ, น้ำหนัก: 75, ส่วนสูง: 160, อายุ: 60, เพศ: หญิง

ความสำคัญของขั้นตอนนี้ไม่ใช่แค่การใช้ Head ของข้อมูล แต่เป็นการทำความเข้าใจว่าคำจำกัดความของชุดข้อมูลนั้นๆ คืออะไร รวมไปถึงเข้าใจค่า และความหมายของมัน เช่น มีค่าสูงสุด หรือ ต่ำสุดเท่าไหร่ เป็นต้น

2. Correcting คือ การแก้ไขข้อมูลที่ผิดพลาด เช่น ในช่องเพศ มีการใส่ตัวเลข หรือแม้กระทั่งตัวเลขที่ผิดปกติไปเนื่องจากมี 0 เกินมา ก็เป็นได้

วิธีการ Correct data นี้ต้องใช้กลยุทธ์ทางสถิติกันหน่อย ไม่ว่าจะเป็นการหาค่าเฉลี่ย ค่าเบี่ยงเบียนมาตรฐาน หรือ standard deviation หรือแม้กระทั่งการใช้ Clustering algorithm ก็ช่วยได้ หลังจากนั้นก็ต้องมาพิจารณากันต่อว่า ในช่องที่มีข้อมูลผิดพลาดนั้น เราจะมีการลบทิ้งทั้งแถวไปเลย หรือจะแก้ไขข้อมูลที่ผิดนั้นด้วยการแทนที่ด้วยตัวใดตัวหนึ่ง ถ้านึกอะไรไม่ออกก็ให้นึกถึง หลักการสิถิติเข้าไว้ก่อน ดังกราฟนี้

3. Standardizing คือ การทำข้อมูลให้เป็นรูปแบบเดียวกัน ตัวอย่างเช่น จังหวัด กรุงเทพฯ ที่มีรูปแบบ กทม. กรุงเทพฯ และ กรุงเทพมหานคร ซึ่งคอมพิวเตอร์ไม่สามารถทราบได้เองว่ามันคือจังหวัดเดียวกัน ส่วนข้อมูลที่เป็นตัวเลขนั้น ในกรณีที่ต้องการแก้ปัญหาเรื่องหน่วย หรือความกว้างของข้อมูลที่ไม่เหมือนกัน สามารถวิธี Standard Normal Distribution ได้ ซึ่งวิธีนี้เป็นการจัดเรียงข้อมูลให้อยู่ในรูป Normalization หรือ ระฆังคว่ำที่เราคุ้นเคยกันดี สูตรการทำ Standardization คือ

4. Duplicate Elimination คือ การลบชุดข้อความซ้ำซ้อนทิ้ง ซึ่งอาจต้องใช้การเขียน Algorithm เพื่อระบุชุดข้อมูลที่ซ้ำซ้อน

ด้วยความยาก และใช้เวลานานกว่าจะได้ข้อมูลที่พร้อมนำไปสร้าง Model ตอนนี้หลายๆ องค์กรที่มีโครงการทำ Big Data System จึงให้ Data Scientist เป็นผู้ออกแบบวิธีการเก็บข้อมูล ควบคู่ไปกับ Data Engineer ด้วย ซึ่งจะเห็นได้ว่า การ Clean Data นั้น ต้องอาศัยความรู้ด้านสถิติ และความคิดสร้างสรรค์ในการออกแบบ Algorithm หรือการเขียนโปรแกรมมาประกอบกัน การเป็น Data Scientist ที่ดี ควรให้ความสำคัญกับการ Clean ข้อมูลไม่แพ้การสร้าง Model เพราะหากเมื่อวัตถุดิบที่มีไม่สะอาดสมบูรณ์ ก็ยากนักที่จะได้ผลลัพธ์ออกมาสวยงามแบบได้ตามที่ต้องการ

Toplist

โพสต์ล่าสุด

แท็ก

ไทยแปลอังกฤษ แปลภาษาไทย ห่อหมกฮวกไปฝากป้าmv โปรแกรม-แปล-ภาษา-อังกฤษ พร้อม-คำ-อ่าน แปลภาษาอาหรับ-ไทย Terjemahan ข้อสอบคณิตศาสตร์ พร้อมเฉลย แปลภาษาอังกฤษเป็นไทย pantip ศัพท์ทางทหาร military words แอพแปลภาษาอาหรับเป็นไทย การ์ดแคปเตอร์ซากุระ ภาค 4 พจนานุกรมศัพท์ทหาร ศัพท์ทหาร ภาษาอังกฤษ pdf ห่อหมกฮวกไปฝากป้า หนังเต็มเรื่อง ไทยแปลอังกฤษ ประโยค lmyour แปลภาษา การ์ดแคปเตอร์ซากุระ ภาค 3 ประปาไม่ไหล วันนี้ ฝยก. ย่อมาจาก หยน ห่อหมกฮวก แปลว่า เมอร์ซี่ อาร์สยาม ล่าสุด แปลภาษาจีน ่้แปลภาษา onet ม3 การ์ดแคปเตอร์ซากุระ ภาค 1 ข้อสอบโอเน็ต ม.3 ออกเรื่องอะไรบ้าง ตตตตลก บบบย ห่อหมกฮวกไปฝากป้า คาราโอเกะ เขียน อาหรับ แปลไทย เนื้อเพลง ห่อหมกฮวก แปลไทย asus zenfone 2e กรมส่งเสริมการปกครองท้องถิ่น การประปานครหลวง ก่อนจะนิ่งก็ต้องกลิ้งมาก่อน เนื้อเพลง ข้อสอบภาษาอังกฤษ ม.ปลาย พร้อมเฉลย คะแนน o-net โรงเรียน ชขภใ ชื่อเต็ม ร.9 คําอ่าน ตัวอย่าง flowchart ขั้นตอนการทํางาน นยน. ย่อมาจาก ทหาร บทที่ 1 ที่มาและความสําคัญของปัญหา ฝสธ. ย่อมาจาก มัดหัวใจเจ้าชายเย็นชา 2 ซับไทย มัดหัวใจเจ้าชายเย็นชา 2 เต็มเรื่อง ยศทหารบก เรียงลําดับ ระเบียบกระทรวงการคลังว่าด้วยการจัดซื้อจัดจ้างและการบริหารพัสดุภาครัฐ พ.ศ. 2560 รัชกาลที่ 10 ห่อหมกฮวกไปฝากป้า คอร์ด