[Fundamental Data Analytics & Data Scientist EP.16] พื้นฐานสถิติที่ต้องรู้ ก่อนจะเริ่ม Data Science Part 2
สวัสดีครับ ในวันนี้เรามาต่อกันกับเรื่องพื้นฐานสถิติสำหรับ Data Science นะครับโดยวันนี้จะเน้นในเรื่อง ความน่าจะเป็น (Probability) ครับ เพราะว่าสถิติกับความน่าจะเป็น ยังไงมันก็เป็นของคู่กันอยู่แล้วนะ😁
สิ่งที่จะต้องเตรียมตัวก่อนอ่านบทความนี้: ผมแนะนำว่าให้ไปอ่าน Part แรกก่อนนะครับ จะได้ทำความเข้าใจและตัวเนื้อหาเองผมก็ตั้งใจทำมาเพื่อต่อยอดมาใน Part นี้ครับ
ความน่าจะเป็น (Probability)
ความน่าจะเป็น ก็คือ “โอกาสที่เหตุการณ์ที่เราสนใจจะเกิดขึ้น” เช่น
หากเราสนใจว่าการทอยลูกเต๋า 1 ครั้งจะเป็นเลข 4 มีโอกาสเท่าไหร่?
สูตรในการหาค่าความน่าจะเป็นก็คือ
โดย P(A) คือความน่าจะเป็นของเหตุการณ์ A เท่ากับ Events ก็คือเหตุการณ์ที่เราสนใจ หารด้วย จำนวน Outcomes (Sample Space) ก็คือผลลัพธ์ที่สามารถเกิดขึ้นทั้งหมด
เมื่อวิเคราะห์ดูแล้วเราก็จะพบว่า Events ในที่นี่คือเราต้องการทอยลูกเต๋าให้ได้หน้าเลข 4 ซึ่งเกิดขึ้นได้เพียง 1 ครั้งในการทอยลูกเต๋า 1 ครั้ง และ Sample Space ของการทอยลูกเต๋า 1 ครั้งคือตัวเลข 6 ตัว
เพราะฉนั้นการทอยลูกเต๋าให้ได้เลข 4 นั้นมีโอกาสคือ 1 ใน 6 หรือ 1/6 ≈ ร้อยละ 0.167 หมายความว่าโดยเฉลี่ย(ไม่จำเป็นจะต้องเกิดขึ้นทุกครั้ง!!!)แล้วการทอยเต๋า 6 ครั้ง อาจจะทอยได้เลข 4 จำนวนหนึ่งครั้งนั้นเอง
แต่ว่าในชีวิตจริง เราอาจจะเกิดความน่าจะเป็นที่ซับซ้อนกว่านี้ เหตุการณ์แรกอาจมีความสัมพันธ์กับเหตุการณ์ถัดๆไป ดังนั้นสิ่งต่อไปที่เราจะต้องทราบนั่นก็คือ Conditional Probability ด้วยครับ
Conditional Probability
ความหมายของมันก็คือ ความน่าจะเป็นที่เกิดขึ้นเมื่อเกิด Events ก่อนหน้า ดังนั้นหมายความว่าทั้งสองเหตุการณ์นั้นจะต้องมีความสัมพันธ์กัน เช่น
ความน่าจะเป็นเมื่อหยิบลูกบอลครั้งแรกได้สีแดงแล้วครั้งที่สองเป็นสีเขียว (แบบหยิบแล้วไม่ใส่คืน)
สูตรของ Conditional Probability คือ
สัญลักษณ์ของ Conditional Probability คือ P(B|A)
หมายถึง ความน่าจะเป็นที่จะเกิดเหตุการณ์ B เมื่อเกิดเหตุการณ์ A ขึ้น จะเท่ากับ ความน่าจะเป็นที่จะเกิดขึ้นทั้งสองเหตุการณ์ P(A∩B)
หารด้วยความน่าจะเป็นของเหตุการณ์ A P(A)
tip✔️: เครื่องหมาย |
จะอ่านว่า “Given” และเครื่องหมาย ∩
อ่านว่า “และ (And)” ซึ่ง∩
ก็คือสัญลักษณ์เดียวกันกับแผนภาพ Venn (Venn Diagram) ซึ่งใน Blog นี้จะไม่มีการอธิบายรายละเอียดของ Venn Diagram นะครับเนื่องจากรายละเอียดของมันเยอะและมีความเกี่ยวข้องไม่มาก แต่ถ้าหากสนใจศึกษาก็แนะนำที่Linkนี้เลยครับ
หากอ่านโจทย์ด้านบนจะพบว่า A คือการหยิบลูกบอลครั้งแรกแล้วได้สีแดง และ B คือการหยิบลูกบอลครั้งที่สองแล้วได้สีเขียวนั้นเอง
P(หยิบลูกบอลครั้งที่สอง|หยิบลูกบอลครั้งแรก)
จะมีค่าเท่ากับ 1/21≈0.048 เนื่องจากในตอนแรกมีลูกบอลในกล่องทั้งหมด 22 ลูก แต่การหยิบครั้งที่สองนั้นจำนวนลูกบอลสีแดงลดลงไป 1 ลูกทำให้ Sample Space ครั้งที่สองลดลงเป็นการสุ่มจากลูกบอลในกล่องเพียง 21 ลูก โดยมีลูกบอลสีเขียวในกล่องเพียง 1 ลูก
และ P(หยิบลูกบอลครั้งแรก)
ก็คือความน่าจะเป็นที่จะหยิบลูกบอลครั้งแรกแล้วได้สีแดงมีค่าเท่ากับ 15/22 ≈ 0.682
เราก็จะสามารถหาความน่าจะเป็นที่จะเกิดขึ้นทั้งสองเหตุการณ์ P(A∩B)
ได้โดยการย้ายข้างสูตรข้างบนเป็น
P(หยิบลูกบอลครั้งแรก ∩ หยิบลูกบอลครั้งที่สอง) = 0.682 * 0.048
≈ 0.033 หรือประมาณ 3.3% ที่เหตุการณ์นี้จะเกิดขึ้นครับ
Bayes Theorem
Bayes Theorem คือการนำ Conditional Probability มาประยุกต์ใช้ในการทำนายความน่าจะเป็นของเหตุการณ์ที่จะเกิดขึ้น โดยมีสูตรมาจาก
P(A|B)
คือผลลัพธ์ของการทำนาย เราเรียกมันว่า PosterierP(B|A)
คือการตัดสินใจเมื่อเกิดเหตุการณ์ขึ้น เราเรียกมันว่า LikelihoodP(A)
คือความรู้ที่เรามีอยู่แล้ว เราเรียกมันว่า Prior Knowledge
และ P(B)
คือโอกาสที่จะเห็นเหตุการณ์นั้น เราเรียกมันว่า Evidence
ตัวอย่างของการใช้ Bayes Theorem ในกรณีของสภาพอากาศเช่น ความน่าจะเป็นที่ฝนจะตกเมื่อฟ้าครึ้ม P(ฝนตก|ฟ้าครึ้ม)
Likelihood—ความน่าจะเป็นที่ฟ้าจะครึ้มเมื่อฝนตก กล่าวคือ โดยปกติเมื่อฝนตกแล้ว ฟ้าจะครึ้มบ่อยมากแค่ไหน (ฝนตก ฟ้าอาจจะไม่ครึ้มก็ได้ ถ้าฝนตกตอนแดดออก)
Prior Knowledge — ความน่าจะเป็นที่ฝนจะตก โดยที่เราไม่สนการเกิดฟ้าครึ้มเลย
Evidence — ความน่าจะเป็นที่เราจะเห็นเหตุการณ์ฟ้าครึ้ม โดยที่เราไม่สนการเกิดฝนตกเลย (ฟ้าครึ้ม ฝนอาจจะไม่ตกก็ได้)
Conditional Probability และ Bayes Theorem ถูกนำไปประยุกต์ใช้ในการทำนายผลของ Machine Learning ได้หลายรูปแบบ เช่น การทำนายความน่าจะเป็นของคนสูบบุหรี่แล้วจะเป็นโรคมะเร็งปอด P(มะเร็งปอด|สูบบุหรี่)
หรือความน่าจะเป็นที่จะเกิดอุบัติเหตุทางรถยนต์ของคนคุยโทรศัพท์ระหว่างขับรถ P(อุบัติเหตุ|คุยโทรศัพท์ระหว่างขับรถ)
เป็นต้น
ในตอนถัดไปเราจะมารู้จักกับการแจกแจง (Distribution) กัน เนื้อหาจะเข้มข้นอย่างนี้ต่อไปเรื่อยๆแน่นอนครับ💪
ถ้าชอบหรือต้องการสอบถามหรือพูดคุยเพิ่มเติม กดไปที่เพจ ดาต้าไส้แห้ง หรือ LinkedIn ข้างล่างเลยจ้า แล้วเรื่องถัดไปจะเป็นเรื่องอะไรก็ขอให้กดติดตามกันไว้ด้วยนะคร้าบ😍