[Fundamental Data Analytics & Data Scientist EP.17] พื้นฐานสถิติที่ต้องรู้ ก่อนจะเริ่ม Data Science Part 3
อย่างที่เราสัญญากันไว้ว่าในตอนที่ 3 ของพื้นฐานสถิติ เราจะมาทำความรู้จักกับการแจกแจง (Distribution) ซึ่งเป็นเนื้อหาที่ต้องใช้ความรู้ทางด้านสถิติและความน่าจะเป็นพื้นฐานจากสองตอนก่อนหน้า ดังนั้นถ้าหากใครยังไม่ได้อ่านตอนที่แล้วก็แนะนำให้กลับไปอ่านเพื่อทบทวนกันก่อนนะครับ
การแจกแจง (Distribution)
ในทางสถิติแล้ว การแจกแจงหมายถึงข้อมูลที่จำนวนมากถูกนำมารวมกันและสามารถแสดงถึงแนวโน้มของข้อมูลได้ (นั่นแปลว่าการจะแสดงค่าของการแจกแจงจะต้องมีข้อมูล)
ตัวอย่างที่จะเห็นบ่อยในตอนเรียนก็คือเรื่อง คะแนนสอบอิงกลุ่ม ซึ่งความหมายของการคิดคะแนนแบบอิงกลุ่มก็คือ การนำคะแนนของทุกคนมารวมกัน แล้วค่อยตัดสินว่านักเรียนคนไหนจะได้เกรดเท่าไหร่ ขึ้นอยู่กับคะแนนของนักเรียนคนอื่น
ดังนั้น ตัวอย่างต่อไปนี้ก็จะเกี่ยวข้องกับ คะแนนสอบอิงกลุ่ม เช่น การสอบวิชา A ของโรงเรียนแห่งหนึ่ง ที่มีนักเรียนวิชานี้จำนวน 200 คน โดยใช้วิธีการตัดเกรดจากการอิงค่าเฉลี่ยและค่าส่วนเบี่ยงเบนมาตรฐาน
โดยแต่ละคนก็ได้คะแนนสอบที่แตกต่างกันและสร้างเป็นกราฟแสดงการแจกแจงของข้อมูลได้ตามรูปด้านล่าง
จากกราฟการแจกแจงด้านบน เราก็จะสรุปได้ว่า นักเรียนส่วนใหญ่จะได้คะแนนอยู่ที่ช่วง (54.41, 59.41] และ (59.41, 64.41]จำนวน 49+49=98 คน นักเรียนที่ได้คะแนนเยอะที่สุดมีเพียงคนเดียวที่คะแนนในช่วง (89.41, 94.41] และมีค่าเฉลี่ยของคะแนนสอบเท่ากับ 58.46305 และส่วนเบี่ยงเบนมาตรฐานเท่ากับ 8.153601
หากอาจารย์สอนวิชา A ต้องการจะตัดเกรดตามการแจกแจงด้านบน แปลว่านักเรียนจะได้เกรดจากคะแนนดังนี้
- A (พื้นที่สีขาวด้านขวา): 58.46 + (3*8.15) ≈ 82.91 ขึ้นไป
- B+ (พื้นที่สีน้ำเงินด้านขวา): 58.46 + (2*8.15) ≈ 74.76 ถึง 82.9
- B (พื้นที่สีเขียวด้านขวา): 58.46 + (1*8.15) ≈ 66.61 ถึง 74.75
…
Probability Distribution
ตัวอย่างของคะแนนสอบนั้นแสดงให้เห็นถึงการแจกแจงค่าความถี่ (Frequency Distribution) แต่จริงๆแล้วมีการแจกแจงอีกวิธีนึง ซึ่งต่อยอดมาจากเนื้อหาตอนที่แล้วและเป็นการแจกแจงที่นิยมใช้กันเป็นอย่างมากนั่นคือการแจกแจงค่าความน่าจะเป็น (Probability Distribution) มันก็คือการแสดงแนวโน้มของความน่าจะเป็นที่เกิดขึ้น
โดยสิ่งที่เปลี่ยนไปจาก Frequency Distribution ก็คือตัวเลขในแกนตั้งซึ่งจะใช้ค่าความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นแทนค่าความถี่ครับ ยิ่งกราฟมีความสูงนั่นหมายความว่าเหตุการณ์นั้นมีความน่าจะเป็นที่เกิดขึ้นมากนั่นเอง
Probability Distribution จะมีรูปแบบของการกระจายตัวหลายแบบขึ้นอยู่กับสถานการณ์ที่พบ โดยทั่วไปแล้ว(จากตัวอย่างด้านบน) เราจะเรียกมันว่าการแจกแจงแบบปกติ (Normal Distribution/Gaussian Distribution) เป็นกราฟเส้นโค้งทรงระฆังคว่ำที่สมมาตรกัน โดยจะมีพื้นที่ใต้กราฟจะมีค่าเท่ากับ 1 เสมอ (เนื่องจากความน่าจะเป็นไม่มีทางมากกว่า 100%) โดยเส้นตรงกลางกราฟจะมีค่าเท่ากับค่ากลางของข้อมูล (Measures of Central Tendency) ทั้ง 3 แบบคือ ค่าเฉลี่ย, มัธยฐาน และฐานนิยม
สิ่งที่จะต้องรู้เกี่ยวกับการแจกแจงแบบปกตินั้นก็คือ Empirical Rule หรือ กฏ 3 Sigma ซึ่งหมายความว่า
- ระยะห่างของช่วง 1 σ คือข้อมูลประมาณร้อยละ 68.2 ของทั้งหมด
- ระยะห่างของช่วง 2 σ คือข้อมูลประมาณร้อยละ 95.4 ของทั้งหมด
- ระยะห่างของช่วง 3 σ คือข้อมูลประมาณร้อยละ 99.7 ของทั้งหมด
tip✔️: จริงๆแล้วยังมีการแจกแจงแบบอื่นนอกเหนือจากการแจกแจงแบบปกติอีกมากมาย เช่น Uniform Distribution, Binary Distribution, Poisson Distribution, Student’s-t เป็นต้น แต่เนื่องจากใน Part นี้จะเป็นเนื้อหาพื้นฐาน จึงยังไม่ขอลงลึกเกี่ยวกับการแจกแจงแบบอื่นนะครับ แต่ถ้าหากสนใจก็สามารถเริ่มต้นศึกษาจาก ลิงค์นี้ ได้เลยครับ
Normal Distribution Example
ส่วนถัดไปจะเป็นภาคการปฏิบัติแล้วครับ โดยผมจะเข้าไปที่เว็บไซต์ของการสร้างกราฟการแจกแจงแบบปกติอัตโนมัติ โดยโปรแกรมจะให้เราสร้างกราฟจากการใส่ค่าเฉลี่ย (μ), ค่าส่วนเบี่ยงเบนมาตรฐาน (σ) และค่าของหาง (ในตอนนี้ ให้ใส่เป็นค่าสูงสุด-ต่ำสุดก่อน) ผมจะใช้ตัวเลขจากตัวอย่างด้านบนของกรณีการสอบวิชา A โปรแกรมก็จะสร้างกราฟการแจกแจงแบบปกติให้เราตามรูปด้านล่าง
เราสามารถอ่านกราฟนี้ได้จากการแทนค่า X ไป 1 ค่า เช่น หากเราแทน X ที่ 60 หมายถึง โอกาสที่เราจะได้คะแนน 60 คะแนน ประมาณร้อยละ 4.8 เป็นต้น
tip✔️: ที่จริงแล้วเราสามารถหาค่าความน่าจะเป็นที่แม่นยำกว่านี้ได้ด้วยการแทนค่า X ใน Probability Density Function Calculator (ตรงนี้แนะนำว่าให้ใช้โปรแกรมคำนวณดีกว่า เพราะสูตรจะยาวมาก)
เช่นในกรณีดังกล่าว PDF ≈ 0.1205/(√2√π) เท่ากับ ร้อยละ 4.80725
กราฟการกระจายนี้สามารถนำไปใช้ประโยชน์ในการทดสอบสมมติฐาน (Hypothesis Testing) เพื่อหาข้อสรุปจากข้อมูลได้ โดยรายละเอียดเพิ่มเติมจะอยู่ใน Part ถัดไปนั่นเอง
ถ้าชอบหรือต้องการสอบถามหรือพูดคุยเพิ่มเติม กดไปที่เพจ ดาต้าไส้แห้ง หรือ LinkedIn ข้างล่างเลยจ้า แล้วเรื่องถัดไปจะเป็นเรื่องอะไรก็ขอให้กดติดตามกันไว้ด้วยนะคร้าบ😍