ที่มาและความสำคัญที่มีการกล่าวถึงสถิติ ตัวอย่าง

ที่ถูกเลือกมาเป็นตัวแทนของประชากร โดยทั่วไปมีวัตถุประสงค์เพื่อใช้ตัวอย่างในการสรุปผลเกี่ยวกับลักษณะของประชากรที่สนใจ

สารบัญ Show

ประเภทของข้อมูล
ประเภทของการวิเคราะห์ข้อมูล
การวิเคราะห์ข้อมูลและนำเสนอข้อมูลเชิงคุณภาพ
ความถี่ (frequency)
ฐานนิยม (mode)
การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยตารางความถี่
ตารางความถี่จำแนกทางเดียว
ความถี่สัมพัทธ์
ตารางความถี่จำแนกสองทาง
การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
แผนภูมิรูปภาพ
แผนภูมิรูปวงกลม
แผนภูมิแท่ง
การวิเคราะห์และนำเสนอข้อมูลเชิงปริมาณด้วยตารางความถี่
การวิเคราะห์และนำเสนอข้อมูลเชิงปริมาณด้วยแผนภาพ
ฮิสโทแกรม (histogram)
แผนภาพจุด (dot plot)
แผนภาพลำต้นและใบ (stem and leaf plot)
แผนภาพกล่อง (box plot)
แผนภาพกล่องกับการกระจายข้อมูล
แผนภาพการกระจาย (scatter plot)
ค่าวัดทางสถิติ
ค่ากลางของข้อมูล
การกระจายของข้อมูล
ค่่าวัดการกระจาย
การวัดตำแหน่งของข้อมูล
ดูคลิปติวเรื่อง สถิติ

ตัวแปร (variable)

ลักษณะบางประการของประชากรหรือตัวอย่างที่สนใจศึกษา

ข้อมูล (data)

ข้อความที่เกี่ยวกับเรื่องใดเรื่องหนึ่งที่สามารถใช้ในการสรุปผลในเรื่องที่สนใจศึกษา อาจเป็นได้ทั้งตัวเลขหรือไม่ใช่ตัวเลข หรืออาจหมายถึงค่าของตัวแปรที่สนใจศึกษา

พารามิเตอร์ (parameter)

ค่าวัดที่แสดงลักษณะของประชากร ซึ่งเป็นค่าคงตัวที่คำนวณหรือประมวลจากข้อมูลทั้งหมดของประชากร

ค่าสถิติ (statistic)

ค่าคงตัวที่พิจารณาจากข้อมูลของตัวอย่าง โดยมีวัตถุประสงค์เพื่ออธิบายลักษณะของตัวอย่างนั้น หรือเพื่อประมาณค่าของพารามิเตอร์แล้วนำไปใช้ในการอธิบายลักษณะของประชากร

ประเภทของข้อมูล

1. การแบ่งประเภทของข้อมูลตามแหล่งที่มาของข้อมูล

ข้อมูลปฐมภูมิ (primary data) คือ ข้อมูลที่ผู้ใช้ดำเนินการเก็บรวบรวมจากเจ้าของข้อมูลหรือต้นกำเนิดของข้อมูลโดยตรง

ข้อมูลทุติยภูมิ (secondary data) คือ ข้อมูลที่ผู้ใช้ไม่ได้ดำเนินการเก็บรวบรวมจากเจ้าของข้อมูลหรือต้นกำเนิดของข้อมูลโดยตรง แต่ใช้ข้อมูลจากบุคคลหรือหน่วยงานอื่น

2. การแบ่งประเภทของข้อมูลตามระยะเวลาที่จัดเก็บ

ข้อมูลอนุกรมเวลา (time series data) คือ ชุดข้อมูลที่เกิดขึ้นและจัดเก็บตามลำดับเวลาต่อเนื่องกันไปตลอดช่วงๆ หนึ่ง

ข้อมูลตัดขวาง (cross-sectional data) คือ ข้อมูลที่บอกสถานะหรือสภาพของสิ่งที่สนใจ ณ จุดหนึ่งของเวลา

3. การแบ่งประเภทของข้อมูลตามลักษณะของข้อมูล

ข้อมูลเชิงปริมาณ (quantitative data) คือ ข้อมูลที่ได้จากการวัดหรือการนับค่า โดยแสดงเป็นตัวเลขหรือปริมาณที่สามารถนำไปบวก ลบ คูณ หรือหาร และเปรียบเทียบกันได้

ข้อมูลเชิงคุณภาพ (qualitative data) คือ ข้อมูลที่แสดงลักษณะ ประเภท สมบัติ ในเชิงคุณภาพ และอื่นๆ ที่ไม่สามารถ วัดค่าเป็นตัวเลขที่นำมาบวก ลบ คูณ หรือหารกันได้

ประเภทของการวิเคราะห์ข้อมูล

สถิติศาสตร์เชิงพรรณนา (descriptive statistics) คือ การวิเคราะห์ข้อมูลที่สรุปสาระสำคัญของข้อมูลชุดหนึ่ง ซึ่งเป็นข้อมูลเชิงคุณภาพหรือข้อมูลเชิงปริมาณ เพื่ออธิบายลักษณะหรือสภาพของข้อมูลชุดนั้นว่าเป็นอย่างไร

สถิติศาสตร์เชิงอนุมาน (inferential statistics) คือ การวิเคราะห์ข้อมูลที่ใช้ทฤษฎีที่เกี่ยวกับความน่าจะเป็นในการหาข้อสรุปเกี่ยวกับลักษณะของประชากรโดยใช้ข้อมูลจากตัวอย่างที่ได้มาจากประชากรนั้น

การวิเคราะห์ข้อมูลและนำเสนอข้อมูลเชิงคุณภาพ

ในหัวข้อนี้ เราจะวิเคราะห์ข้อมูลเชิงคุณภาพโดยพิจารณาจากความถี่และฐานนิยม

ความถี่ (frequency)

คือ จำนวนครั้งของการเกิดข้อมูลข้อมูลหนึ่งและค่าของตัวแปรค่าหนึ่ง

ฐานนิยม (mode)

คือ ข้อมูลที่มีจำนวนครั้งของการเกิดซ้ำกันมากที่สุดหรือข้อมูลที่มีความถี่สูงสุดที่มากกว่า 1

ตามหนังสือสสวท. กล่าวไว้ว่า ข้อมูลบางชุดอาจไม่มีฐานนิยม เช่น ในกรณีที่ข้อมูลมีความถี่เป็น 1 เท่ากันหมด นอกจากนี้ ข้อมูลบางชุดอาจมีฐานนิยมมากกว่า 1 ค่า อย่างไรก็ตาม ในที่นี้จะพิจารณาเฉพาะชุดข้อมูลที่มีฐานนิยมเพียงค่าเดียว

การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยตารางความถี่

การนำเสนอข้อมูลเชิงคุณภาพในรูปตารางความถี่ (frequency table) จะมีด้วยกัน 2 รูปแบบคือ ตารางความถี่จำแนกทางเดียว (one-way frequency table) และ ตารางความถี่จำแนกสองทาง (two-way frequency table)

ตารางความถี่จำแนกทางเดียว

เป็นการนําเสนอข้อมูลในรูปตารางของตัวแปรหนึ่งตัว เช่น

การสำรวจสีเสื้อของเด็กๆ ทั้ง 10 คน สามารถเขียนตารางความถี่ได้ดังนี้

สีเสื้อ แดง ดำ ขาว รวม

ความถี่

สีเสื้อ ความถี่

แดง

ดำ

ขาว

รวม

นอกจากนี้เราอาจเปรียบเทียบข้อมูลในตารางโดยใช้ความถี่สัมพัทธ์ได้เช่นกัน

ความถี่สัมพัทธ์

คือ สัดส่วนของความถี่เทียบกับความถี่ทั้งหมด ซึ่งอาจเขียนได้ 2 รูปแบบ คือ แบบสัดส่วน และ แบบร้อยละ

ตัวอย่างที่ 1 จากข้อมูลตารางความถี่ของการสำรวจสีเสื้อของเด็กๆ ทั้ง 10 คน ที่กำหนดให้

จงเขียนแสดงความถี่สัมพัทธ์ของแต่ละข้อมูล

ตารางความถี่จำแนกสองทาง

เป็นการนําเสนอข้อมูลในรูปตารางซึ่งมีตัวแปรที่สนใจศึกษา 2 ตัว เรียกความถี่ของข้อมูลที่มีลักษณะร่วมกันจากทั้งสองตัวแปรว่า ความถี่ร่วม เช่น

จากการสำรวจการเล่นกีฬาฟุตบอลกับกีฬาแบดมินตันของพนักงาน SMP โดยแบ่งตามเพศสามารถเขียนตารางความถี่ได้ดังนี้

เพศ กีฬาฟุตบอล กีฬาแบดมินตัน รวม

ชาย

หญิง

รวม

การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ

ในหัวข้อนี้จะเป็นการทบทวนแผนภูมิต่างๆ ที่เจอกันมาแล้วในช่วงมัธยมศึกษาตอนต้น

แผนภูมิรูปภาพ

เป็นการนําเสนอข้อมูลโดยใช้รูปภาพหรือสัญลักษณ์แสดงความถี่ของแต่ละข้อมูล เช่น การสำรวจเกรดวิชาคณิตศาสตร์ของนักเรียนชั้นมัธยมศึกษาปีที่ 6 สามารถเขียนแผนภูมิรูปภาพได้ดังนี้

แผนภูมิรูปวงกลม

เป็นการนําเสนอข้อมูลโดยใช้พื้นที่ภายในของรูปวงกลมแทนความถี่ โดยสัดส่วนของความถี่ของแต่ละข้อมูลเท่ากับสัดส่วนของขนาดของมุมที่จุดศูนย์กลางของรูปวงกลม เช่น

การสำรวจคนชอบกีฬาชนิดต่างๆ ของ พนักงานในโรงงานแห่งหนึ่ง สามารถเขียนแผนภูมิรูปวงกลมได้ดังนี้

แผนภูมิแท่ง

เป็นการนําเสนอข้อมูลด้วยแท่งรูปสี่เหลี่ยมมุมฉาก โดยใช้ความยาวของแท่งแสดงความถี่ของข้อมูลมี 3 แบบ คือ แผนภูมิแท่งเชิงเดี่ยว แผนภูมิแท่งพหุคูณ และ แผนภูมิแท่งส่วนประกอบ

แผนภูมิแท่งเชิงเดี่ยว เป็นแผนภูมิแท่งซึ่งมีตัวแปรเพียงหนึ่งตัว เช่น การสำรวจคนใช้แอปพลิเคชันต่างๆ สามารถเขียนแผนภูมิแท่งเชิงเดี่ยวได้ดังนี้

แผนภูมิแท่งพหุคูณ เป็นแผนภูมิแท่งซึ่งมีตัวแปรที่สนใจศึกษาตั้งแต่ 2 ตัวขึ้นไป เช่น การสำรวจจำนวนผู้ใช้สถานีเติมน้ำมันต่างๆ ในแต่ละเดือนสามารถเขียนแผนภูมิแท่งพหุคูณได้ดังนี้

แผนภูมิแท่งส่วนประกอบ เป็นแผนภูมิแท่งที่แสดงจำนวนรวมและส่วนประกอบของจำนวนรวมนั้น โดยการแบ่งเป็นส่วนย่อยๆ เช่น การสำรวจผู้เข้าร่วมกิจกรรมขึ้นดอยมีจำนวนผู้เข้าร่วมแต่ละเพศที่เข้ากลุ่มซึ่งแบ่งเป็น 2 กลุ่ม กลุ่มละ 100 คน สามารถเขียนแผนภูมิแท่งส่วนประกอบได้ดังนี้

การวิเคราะห์และนำเสนอข้อมูลเชิงปริมาณด้วยตารางความถี่

จำได้รึเปล่าเอ่ยว่าข้อมูลเชิงคุณภาพที่แสดงด้วยตารางความถี่สามารถนำมาใช้ในการวิเคราะห์ต่างๆ ได้ ในส่วนของข้อมูลเชิงปริมาณก็สามารถทำได้เช่นกัน

ซึ่งจะใช้ตารางความถี่ 2 แบบหลัก ได้แก่ ตารางความถี่แบบไม่ได้แบ่งข้อมูลเป็นช่วง และตารางความถี่แบบแบ่งข้อมูลเป็นช่วงนั่นเอง

ตารางความถี่แบบไม่ได้แบ่งข้อมูลเป็นช่วง จะเหมาะสำหรับค่าความเป็นไปได้ของข้อมูลที่มีจำนวนน้อย เช่น

จำนวนวัน Work from home ของพนักงานในบริษัท SMP

เวลา (วัน) 1 2 3 4 5

จำนวนคน

ตารางความถี่แบบแบ่งเป็นช่วง จะเหมาะสำหรับค่าที่เป็นไปได้ของข้อมูลมีจำนวนมาก

การเขียนตารางความถี่ทำได้โดยการหาความกว้างของอันตรภาคชั้นจาก

(ค่าสุดท้าย – ค่าเริ่มต้น) / จำนวนอันตรภาคชั้นที่ต้องการ

จำไว้ว่าหากค่าที่คำนวณได้ไม่เป็นจำนวนเต็มจะต้องปัดขึ้นเท่านั้นนะ !!!

ตัวอย่างตารางความถี่แบบแบ่งเป็นช่วง เช่น

จำนวนชั่วโมงของนักเรียนที่เรียนกับ SMP ใช้ในการอ่านทบทวนบทเรียนในหนึ่งสัปดาห์

เวลา (ชั่วโมง) 0-3 4-7 8-11 12-15 16-19

จำนวนคน

100

120

ติวคณิต 1 แบบจัดเต็ม ไม่มีพื้นฐานก็เรียนได้ !

เตรียมตัวสอบ A-Level คณิต 1 แบบ 2 in 1 ในคอร์สเดียวทั้งปูพื้นฐานและตะลุยโจทย์ พื้นฐานไม่ดีหรือยังเรียนเนื้อหาคณิต ม.6 ไม่จบ ก็เข้าใจได้สบาย ใครอยากติวคณิต 1 แบบจัดเต็มห้ามพลาดคอร์สนี้เลย

สมัครคอร์ส คลิกเลย

การวิเคราะห์และนำเสนอข้อมูลเชิงปริมาณด้วยแผนภาพ

การใช้ตารางความถี่ในการวิเคราะห์และนำเสนอข้อมูลอาจจะไม่ทำให้เห็นการแจกแจงของข้อมูลมากพอ ดังนั้นเราจึงใช้แผนภาพมาช่วยวิเคราะห์และนำเสนอข้อมูลเชิงปริมาณให้ดีขึ้น มีดังต่อไปนี้

ฮิสโทแกรม (histogram)

เป็นการนำเสนอข้อมูลโดยใช้แท่งสี่เหลี่ยมมุมฉากที่เรียงติดกันบนแกนนอน เมื่อแกนนอนแทนค่าของข้อมูล และความสูงของแท่งแทนความถี่ของข้อมูล คล้ายๆ กับแผนภูมิแท่ง เช่น

ฝ่ายทรัพยากรบุคคลของบริษัท SMP ได้เก็บข้อมูลจำนวนชั่วโมงที่พนักงานในบริษัทนอนหลับในหนึ่งวันของพนักงานทั้งหมด 40 คน ได้ดังนี้

แผนภาพจุด (dot plot)

เป็นการนำเสนอข้อมูลโดยใช้จุดแทนข้อมูลแต่ละตัว เรียงกันในแนวตั้งตรงกับตำแหน่งที่แสดงค่าของข้อมูลแต่ละตัว

เช่น คะแนนสอบปลายภาคเรียนวิชาคณิตศาสตร์ของนักเรียนชั้น ม.2 ห้องหนึ่งเป็นดังนี้

21 25 15 25 16 16 17 22 19

เขียนแผนภาพจุดได้ดังนี้

แผนภาพลำต้นและใบ (stem and leaf plot)

เป็นการนำเสนอข้อมูลโดยใช้แผนภาพ โดยเรียงข้อมูลจากน้อยไปมาก และมีอยู่ด้วยกัน 2 ส่วน คือส่วนลำต้น แทนข้อมูลส่วนที่ไม่ใช่หลักหน่วย และส่วนใบ แทนข้อมูลที่เป็นหลักหน่วย เช่น

อายุของคนที่เข้ามาดูข้อมูลชุด A และข้อมูลชุด B บนเว็บไซต์ www.smartmathpro.com เป็นดังนี้

แผนภาพกล่อง (box plot)

เป็นการนำเสนอข้อมูลที่น้องได้เรียนมาแล้วในสถิติม. 3 จำได้กันไหมเอ่ย แต่ที่เพิ่มเติมมาจากเนื้อหาในม.ต้น คือ ค่านอกเกณฑ์นั่นเอง ค่านอกเกณฑ์ก็คือค่าที่เกิดขึ้นตามธรรมชาติหรืออาจจะเป็นค่าความคาดเคลื่อนจากการเก็บข้อมูล โดยหาได้จาก

ค่าที่น้อยกว่า Q_{1}-1.5(Q_{3}-Q_{1}) หรือ
ค่าที่มากกว่า Q_{3}+1.5(Q_{3}-Q_{1}) นั่นเอง

แผนภาพกล่องกับการกระจายข้อมูล

นอกจากที่เราเรียนรู้มาแล้ว ความเจ๋งของแผนภาพกล่องอีกอย่าง คือเราสามารถใช้แผนภาพกล่องในการวิเคราะห์ การกระจายของข้อมูลได้อีกด้วย

ตัวอย่างที่ 2

จากข้อมูลที่กำหนดให้ จงตอบคำถามต่อไปนี้

1. ในวิชาภาษาญี่ปุ่น มีนักเรียนชั้นม. 5 ห้องศิลป์ภาษาทั้งหมดกี่เปอร์เซ็นต์ที่ได้คะแนนมากกว่า 15 คะแนน

วิธีทำ

จากแผนภาพจะเห็นว่าที่ 15 คะแนนเป็นตำแหน่ง Q_{2} ในแผนภาพกล่อง ของทั้งสองวิชา ซึ่ง Q_{2} คือตำแหน่งกึ่งกลางของข้อมูลทั้งหมด

ดังนั้น จะได้ว่า ในวิชาภาษาญี่ปุ่น มีนักเรียนชั้นม. 5 ห้องศิลป์ภาษาทั้งหมด 50% ที่ได้คะแนนมากกว่า 15 คะแนน

2. จากแผนภาพ คะแนนช่วงไหนของวิชาภาษาญี่ปุ่นและวิชาภาษาฝรั่งเศสมีการกระจายตัวมากที่สุด

วิธีทำ

ข้อมูลในแต่ละช่วงของแผนภาพกล่องจะมีจำนวน 25% ของจำนวนข้อมูลทั้งหมด ดังนั้นในการพิจารณาการกระจายของข้อมูลเราจะดูจากความกว้างของแต่ละช่วง หากช่วงไหนมีความกว้างมากก็จะได้ว่ามีการกระจายตัวมากนั่นเอง

วิชาภาษาญี่ปุ่น จะเห็นว่าช่วง Q_{1} ถึง Q_{2} มีความกว้างของช่วงมากที่สุด

ดังนั้น ในวิชาภาษาญี่ปุ่น คะแนนระหว่าง 9 ถึง 15 มีการกระจายตัวมากที่สุด

วิชาภาษาฝรั่งเศส จะเห็นว่าช่วง ค่าต่ำสุด ถึง Q_{1} มีความกว้างของช่วงมากที่สุด

ดังนั้น ในวิชาภาษาฝรั่งเศส คะแนนระหว่าง 6 ถึง 12 มีการกระจายตัวมากที่สุด

จากแผนภาพที่ผ่านมาเป็นการนำเสนอข้อมูลที่มีตัวแปรเพียงหนึ่งตัวเท่านั้น ถ้าหากเรามีข้อมูลที่ไม่ได้มีเพียงตัวแปรเดียว หรือไม่รู้ว่าตัวแปรไหนเป็นตัวแปรต้นหรือตัวแปรตาม เราก็จะใช้แผนภาพต่อไปนี้

แผนภาพการกระจาย (scatter plot)

คือ การนำเสนอข้อมูลที่มีสองตัวแปรในรูปแบบการกระจายของจุด ซึ่งจะแสดงให้เห็นถึงความสัมพันธ์ของสองตัวแปรนั้น

ค่าวัดทางสถิติ

ค่ากลางของข้อมูล

น้องๆ ได้ศึกษาเรื่องค่าเฉลี่ยเลขคณิต มัธยฐาน และฐานนิยมกันมาแล้วในสถิติระดับ ม.ต้น ซึ่งค่าทั้งสามนี้เรียกว่า

ค่ากลางของข้อมูล แต่ละค่าก็จะมีข้อดี ข้อเสีย และความเหมาะสมในการนำไปใช้ที่แตกต่างกัน

ค่าเฉลี่ยเลขคณิต (arithmetic mean) เป็นค่าที่หาได้จากการหารผลรวมของข้อมูลทั้งหมดด้วยจำนวนข้อมูลที่มี

ซึ่งสูตรในการหาค่าเฉลี่ยเลขคณิตจะมี 2 สูตรนะ คือสูตรที่ใช้สำหรับประชากรและตัวอย่าง น้องๆ อย่าลืมอ่านโจทย์ให้ดีก่อนเลือกใช้สูตรนะ

ค่าเฉลี่ยเลขคณิตถ่วงน้ำหนัก

ค่าเฉลี่ยเลขคณิตถ่วงน้ำหนัก (weighted arithmetic mean) เหมาะสำหรับใช้กรณีที่แต่ละค่ามีความสำคัญไม่เท่ากัน

เช่น การคำนวณเกรดเฉลี่ย (GPA) ซึ่งแต่ละวิชามีหน่วยกิตไม่เท่ากัน โดยหาได้จากสูตร

ค่าเฉลี่ยเลขคณิตถ่วงน้ำหนัก \=\frac{w_1x_1+w_2x_2+w_3x_3+\cdots +w_Nx_N}{w_1+w_2+w_3+\cdots +w_N}

เมื่อ x_1, x_2, x_3, …, x_N แทนข้อมูล

N แทนขนาดประชากร และ w_1, w_2, w_3, …, w_N แทนน้ำหนักของข้อมูล x_1, x_2, x_3, …, x_N ตามลำดับ

ตัวอย่างที่ 3

ส้มลงทะเบียนเรียน 4 วิชา ซึ่งแต่ละวิชามีหน่วยกิตไม่เท่ากัน และส้มได้เกรดแต่ละวิชาดังนี้

วิชา คณิต ไทย สังคม อังกฤษ

เกรด

4.0

2.5

3.5

หน่วยกิต

จงหาเกรดเฉลี่ยของส้ม

วิธีทำ

จาก ค่าเฉลี่ยเลขคณิตถ่วงน้ำหนัก \=\frac{w_1x_1+w_2x_2+w_3x_3+\cdots +w_Nx_N}{w_1+w_2+w_3+\cdots +w_N}

จะได้ เกรดเฉลี่ยของส้ม

\=\frac{(2)(4.0)+(1)(4.0)+(1)(2.5)+(1)(3.5)}{2+1+1+1}

\=\frac{18}{5}

\=3.60

มัธยฐาน

มัธยฐาน คือ ข้อมูลที่อยู่ในตำแหน่งกึ่งกลาง แต่ระวังว่าก่อนน้องๆ จะหาว่าข้อมูลไหนอยู่ตำแหน่งกึ่งกลาง จะต้องเรียงข้อมูลจากน้อยไปมาก หรือมากไปน้อยด้วยนะ

ถ้าข้อมูลมีจำนวนมากๆ เราคงไม่สะดวกใช้วิธีการมองหาข้อมูลในตำแหน่งกึ่งกลางตรงๆ น้องสามารถใช้สูตรนี้ได้นะ

ถ้าข้อมูลมี n ตัว และเรียงข้อมูลจากน้อยไปมากหรือมากไปน้อยแล้ว

จะได้ว่ามัธยฐานอยู่ในตำแหน่ง \frac{n+1}{2}

ระวังนิดนึงน้า น้องๆ บางคนแทนค่า n หา \frac{n+1}{2} แล้วเอาไปตอบเลยจะผิดนะ เพราะค่าที่ได้เป็นตำแหน่งของมัธยฐาน ไม่ใช่ค่าของข้อมูลที่เป็นมัธยฐานนะ

ฐานนิยม

ฐานนิยม คือ ข้อมูลที่มีจำนวนครั้งของการเกิดซ้ำมากที่สุด ซึ่งน้องๆ ที่อ่านมาถึงตรงนี้อาจจะคุ้นๆ ว่า เราสามารถหาฐานนิยมในข้อมูลเชิงคุณภาพได้ และถูกต้องแล้วน้าา เราสามารถหาฐานนิยมในข้อมูลเชิงปริมาณได้เหมือนกันนะ

การกระจายของข้อมูล

รูปร่างความสัมพันธ์ระหว่างการกระจายข้อมูลและค่ากลางของข้อมูลแบ่งได้เป็น 3 แบบ คือ การแจกแจงแบบสมมาตร การแจกแจงเบ้ขวา และการแจกแจงเบ้ซ้าย ตามภาพด้านล่างนี้เลยนะ

การแจกแจงแบบสมมาตร : โค้งโด่งตรงกลาง แปลว่าข้อมูลหนาแน่นตรงกลาง
การแจกแจงเบ้ขวา : โค้งโด่งทางซ้าย ข้อมูลทางซ้ายหนาแน่น แปลว่าข้อมูลเบ้ขวา
การแจกแจงเบ้ซ้าย : โค้งโด่งทางขวา ข้อมูลทางขวาหนาแน่น แปลว่าข้อมูลเบ้ซ้าย

ค่่าวัดการกระจาย

โดยทั่วไป การวัดการกระจายแบ่งได้ 2 วิธี คือ การกระจายสัมบูรณ์ (absolute variation) และ การกระจายสัมพัทธ์ (relative variation)

การกระจายสัมบูรณ์ ในระดับชั้นนี้จะศึกษาการวัดการกระจายสัมบูรณ์ 4 ชนิด คือ

1.พิสัย

พิสัยสัย (range) คือ ค่าที่ใช้วัดการกระจายของข้อมูลชุดหนึ่ง โดยหาได้จากผลต่างระหว่างค่าสูงสุดและค่าต่ำสุดของข้อมูลชุดนั้น

กำหนดให้ข้อมูลหนึ่งมี x_{max} และ x_{min} เป็นค่าสูงสุดและค่าต่ำสุด ตามลำดับ

พิสัย \= x_{max}-x_{min}

2. พิสัยระหว่างควอร์ไทล์

พิสัยระหว่างควอร์ไทล์ (interquartile range) คือ ค่าที่ใช้วัดการกระจายของข้อมูลโดยใช้ผลต่างระหว่าง ควอร์ไทล์ที่สาม และควอร์ไทล์ที่หนึ่ง เขียนแทนพิสัยระหว่างควอร์ไทล์ด้วย IQR

ให้ Q_1 และ Q_3 เป็นควอร์ไทล์ที่หนึ่งและควอร์ไทล์ที่สาม ของข้อมูลชุดหนึ่ง จะได้

IQR=Q_3-Q_1

น้องๆ ที่อ่านมาถึงตรงนี้น่าจะเคยเห็นสัญลักษณ์ IQR มาแล้วจากการหาค่านอกเกณฑ์ในเรื่องแผนภาพกล่อง ใช่แล้ววว IQR ที่หมายถึงพิสัยระหว่างควอร์ไทล์ในเรื่องนี้ กับ IQR ในสูตรการหาค่านอกเกณฑ์เป็นอันเดียวกันเลย

3. ส่วนเบี่ยงเบนมาตรฐาน

ส่วนเบี่ยงเบนมาตรฐาน (standard deviation) คือ ค่าที่ใช้ในการวัดการกระจายของข้อมูล โดยที่บอกให้เราทราบว่าข้อมูลแต่ละตัวอยู่ห่างจากค่าเฉลี่ยเลขคณิตอยู่ประมาณเท่าไร

4. ความแปรปรวน

ความแปรปรวน (variance) คือ ค่าที่ใช้วัดการกระจายของข้อมูล โดยหาจากกำลังสองของส่วนเบี่ยงเบนมาตรฐาน จะได้สูตรการหาความแปรปรวนเป็นดังนี้

การกระจายสัมพัทธ์

หากน้องๆ มีข้อมูล 2 ชุด เช่น ถ้าข้อมูลของเรามีค่าน้อยๆ สัก 0 – 10 สมมติว่าคำนวณค่าของส่วนเบี่ยงเบนมาตรฐานได้ 2 และข้อมูลอีกชุดหนึ่งมีค่าอยู่ในช่วง 500 – 1,000 มีส่วนเบี่ยงเบนมาตรฐานเป็น 80 เราไม่สามารถสรุปได้ว่าการกระจายของข้อมูลชุดที่สองนั้นมากกว่าชุดแรก เพราะค่าของข้อมูลต่างกันมาก

พี่จะแนะนำให้น้องๆ ใช้สัมประสิทธิ์การแปรผัน (coefficient of variation) มาเปรียบเทียบการกระจายของข้อมูลแต่ชุดมากกว่าการใช้ส่วนเบี่ยงเบนมาตรฐานหรือการกระจายสัมบูรณ์นะ

โดยหาได้จากสูตรต่อไปนี้

สัมประสิทธิ์การแปรผันของประชากร สัมประสิทธิ์การแปรผันของตัวอย่าง

เมื่อ

การวัดตำแหน่งของข้อมูล

น้องๆ มีพื้นฐานการวัดตำแหน่งของข้อมูลกันมาแล้วนะ นั่นก็คือ ควอร์ไทล์ แต่จะมีการวัดตำแหน่งของข้อมูลอีกอันหนึ่ง ที่เพิ่มขึ้นมา นั่นก็คือ เปอร์เซ็นไทล์

ควอร์ไทล์

ควอร์ไทล์ (Quartile) จะแบ่งข้อมูลออกเป็น 4 ส่วนเท่าๆ กัน ให้น้องเรียงข้อมูลจากน้อยไปมาก ซึ่งหากพิจารณาข้อมูลทั้งหมดเป็น 100% แต่ละส่วนนั้นจะมีจำนวนข้อมูลประมาณ 25% ของข้อมูลทั้งหมด

พี่ๆ แนะนำให้ทุกคนหาควอร์ไทล์โดยใช้สูตร ซึ่งสะดวกกว่าการใช้วิธีการหามัธยฐานไปเรื่อยๆ ในสมัยที่น้องเรียน ม.3 น้า

วิธีการหาควอร์ไทล์

เรียงข้อมูลจากน้อยไปมาก
หาตำแหน่งของควอร์ไทล์ที่ i โดยตำแหน่งของ Q_i คือ \frac{i(n+1)}{4} เมื่อ n คือจำนวนของข้อมูล
นำตำแหน่งไปพิจารณาหาค่าของ Q_i

เปอร์เซ็นไทล์

การหา เปอร์เซ็นไทล์ (Percentile) ทำได้ในทำนองเดียวกันกับการหาควอร์ไทล์ แตกต่างกันเพียงสูตรการหาตำแหน่ง

โดยตำแหน่งของเปอร์เซ็นไทล์ที่ i นั่นคือ ตำแหน่งของ P_i คือ \frac{i(n+1)}{100}

ดูคลิปติวเรื่อง สถิติ

เป็นยังไงบ้างงง สำหรับสรุปเนื้อหาเรื่องสถิติและข้อมูล ม.6 ไม่ยากเลยใช่ไหมล้า เพราะแต่ละคนก็คงจะมีพื้นฐานของเรื่องสถิติ ม.3 กันมาอยู่แล้วไม่มากก็น้อย สำหรับสถิติ ม.ปลาย นี้ก็เหมือนเป็นการต่อยอดเนื้อหาให้ลึกขึ้นจากม.ต้นนั่นเอง

แต่ถ้าใครไม่เข้าใจหรือลืมเนื้อหาเก่าๆ ไปหมดแล้ว ก็สามารถกลับไปดูบทความเรื่องสถิติของ ม.ต้น หรือลองทำแบบฝึกหัดเพิ่มเติมใน moremath ก็ได้นะมีทั้งที่โจทย์ที่พี่ๆ แต่งขึ้นใหม่และข้อสอบเก่าย้อนหลังอีกเพียบ รับรองว่าไม่ยากอย่างที่ทุกคนคิดแน่นอน !