[Fundamental Data Analytics & Data Scientist EP.16] พื้นฐานสถิติที่ต้องรู้ ก่อนจะเริ่ม Data Science Part 2

Pasith Thanapatpisarn
3 min readJul 17, 2021

--

สวัสดีครับ ในวันนี้เรามาต่อกันกับเรื่องพื้นฐานสถิติสำหรับ Data Science นะครับโดยวันนี้จะเน้นในเรื่อง ความน่าจะเป็น (Probability) ครับ เพราะว่าสถิติกับความน่าจะเป็น ยังไงมันก็เป็นของคู่กันอยู่แล้วนะ😁

สิ่งที่จะต้องเตรียมตัวก่อนอ่านบทความนี้: ผมแนะนำว่าให้ไปอ่าน Part แรกก่อนนะครับ จะได้ทำความเข้าใจและตัวเนื้อหาเองผมก็ตั้งใจทำมาเพื่อต่อยอดมาใน Part นี้ครับ

ความน่าจะเป็น (Probability)

ความน่าจะเป็น ก็คือ “โอกาสที่เหตุการณ์ที่เราสนใจจะเกิดขึ้น” เช่น

หากเราสนใจว่าการทอยลูกเต๋า 1 ครั้งจะเป็นเลข 4 มีโอกาสเท่าไหร่?

source

สูตรในการหาค่าความน่าจะเป็นก็คือ

โดย P(A) คือความน่าจะเป็นของเหตุการณ์ A เท่ากับ Events ก็คือเหตุการณ์ที่เราสนใจ หารด้วย จำนวน Outcomes (Sample Space) ก็คือผลลัพธ์ที่สามารถเกิดขึ้นทั้งหมด

เมื่อวิเคราะห์ดูแล้วเราก็จะพบว่า Events ในที่นี่คือเราต้องการทอยลูกเต๋าให้ได้หน้าเลข 4 ซึ่งเกิดขึ้นได้เพียง 1 ครั้งในการทอยลูกเต๋า 1 ครั้ง และ Sample Space ของการทอยลูกเต๋า 1 ครั้งคือตัวเลข 6 ตัว

เพราะฉนั้นการทอยลูกเต๋าให้ได้เลข 4 นั้นมีโอกาสคือ 1 ใน 6 หรือ 1/6 ≈ ร้อยละ 0.167 หมายความว่าโดยเฉลี่ย(ไม่จำเป็นจะต้องเกิดขึ้นทุกครั้ง!!!)แล้วการทอยเต๋า 6 ครั้ง อาจจะทอยได้เลข 4 จำนวนหนึ่งครั้งนั้นเอง

แต่ว่าในชีวิตจริง เราอาจจะเกิดความน่าจะเป็นที่ซับซ้อนกว่านี้ เหตุการณ์แรกอาจมีความสัมพันธ์กับเหตุการณ์ถัดๆไป ดังนั้นสิ่งต่อไปที่เราจะต้องทราบนั่นก็คือ Conditional Probability ด้วยครับ

Conditional Probability

ความหมายของมันก็คือ ความน่าจะเป็นที่เกิดขึ้นเมื่อเกิด Events ก่อนหน้า ดังนั้นหมายความว่าทั้งสองเหตุการณ์นั้นจะต้องมีความสัมพันธ์กัน เช่น

ความน่าจะเป็นเมื่อหยิบลูกบอลครั้งแรกได้สีแดงแล้วครั้งที่สองเป็นสีเขียว (แบบหยิบแล้วไม่ใส่คืน)

ลูกบอลทั้งหมดในกล่อง (มีทั้งหมด 22 ลูก)

สูตรของ Conditional Probability คือ

สัญลักษณ์ของ Conditional Probability คือ P(B|A) หมายถึง ความน่าจะเป็นที่จะเกิดเหตุการณ์ B เมื่อเกิดเหตุการณ์ A ขึ้น จะเท่ากับ ความน่าจะเป็นที่จะเกิดขึ้นทั้งสองเหตุการณ์ P(A∩B)หารด้วยความน่าจะเป็นของเหตุการณ์ A P(A)

tip✔️: เครื่องหมาย | จะอ่านว่า “Givenและเครื่องหมาย อ่านว่า “และ (And)” ซึ่งก็คือสัญลักษณ์เดียวกันกับแผนภาพ Venn (Venn Diagram) ซึ่งใน Blog นี้จะไม่มีการอธิบายรายละเอียดของ Venn Diagram นะครับเนื่องจากรายละเอียดของมันเยอะและมีความเกี่ยวข้องไม่มาก แต่ถ้าหากสนใจศึกษาก็แนะนำที่Linkนี้เลยครับ

หากอ่านโจทย์ด้านบนจะพบว่า A คือการหยิบลูกบอลครั้งแรกแล้วได้สีแดง และ B คือการหยิบลูกบอลครั้งที่สองแล้วได้สีเขียวนั้นเอง

P(หยิบลูกบอลครั้งที่สอง|หยิบลูกบอลครั้งแรก)จะมีค่าเท่ากับ 1/21≈0.048 เนื่องจากในตอนแรกมีลูกบอลในกล่องทั้งหมด 22 ลูก แต่การหยิบครั้งที่สองนั้นจำนวนลูกบอลสีแดงลดลงไป 1 ลูกทำให้ Sample Space ครั้งที่สองลดลงเป็นการสุ่มจากลูกบอลในกล่องเพียง 21 ลูก โดยมีลูกบอลสีเขียวในกล่องเพียง 1 ลูก

และ P(หยิบลูกบอลครั้งแรก)ก็คือความน่าจะเป็นที่จะหยิบลูกบอลครั้งแรกแล้วได้สีแดงมีค่าเท่ากับ 15/22 ≈ 0.682

เราก็จะสามารถหาความน่าจะเป็นที่จะเกิดขึ้นทั้งสองเหตุการณ์ P(A∩B)ได้โดยการย้ายข้างสูตรข้างบนเป็น

P(หยิบลูกบอลครั้งแรก ∩ หยิบลูกบอลครั้งที่สอง) = 0.682 * 0.048 ≈ 0.033 หรือประมาณ 3.3% ที่เหตุการณ์นี้จะเกิดขึ้นครับ

Bayes Theorem

Bayes Theorem คือการนำ Conditional Probability มาประยุกต์ใช้ในการทำนายความน่าจะเป็นของเหตุการณ์ที่จะเกิดขึ้น โดยมีสูตรมาจาก

P(A|B)คือผลลัพธ์ของการทำนาย เราเรียกมันว่า Posterier
P(B|A)คือการตัดสินใจเมื่อเกิดเหตุการณ์ขึ้น เราเรียกมันว่า Likelihood
P(A)คือความรู้ที่เรามีอยู่แล้ว เราเรียกมันว่า Prior Knowledge
และ P(B)คือโอกาสที่จะเห็นเหตุการณ์นั้น เราเรียกมันว่า Evidence

ตัวอย่างของการใช้ Bayes Theorem ในกรณีของสภาพอากาศเช่น ความน่าจะเป็นที่ฝนจะตกเมื่อฟ้าครึ้ม P(ฝนตก|ฟ้าครึ้ม)

source

Likelihood—ความน่าจะเป็นที่ฟ้าจะครึ้มเมื่อฝนตก กล่าวคือ โดยปกติเมื่อฝนตกแล้ว ฟ้าจะครึ้มบ่อยมากแค่ไหน (ฝนตก ฟ้าอาจจะไม่ครึ้มก็ได้ ถ้าฝนตกตอนแดดออก)
Prior Knowledge — ความน่าจะเป็นที่ฝนจะตก โดยที่เราไม่สนการเกิดฟ้าครึ้มเลย
Evidence — ความน่าจะเป็นที่เราจะเห็นเหตุการณ์ฟ้าครึ้ม โดยที่เราไม่สนการเกิดฝนตกเลย (ฟ้าครึ้ม ฝนอาจจะไม่ตกก็ได้)

Conditional Probability และ Bayes Theorem ถูกนำไปประยุกต์ใช้ในการทำนายผลของ Machine Learning ได้หลายรูปแบบ เช่น การทำนายความน่าจะเป็นของคนสูบบุหรี่แล้วจะเป็นโรคมะเร็งปอด P(มะเร็งปอด|สูบบุหรี่) หรือความน่าจะเป็นที่จะเกิดอุบัติเหตุทางรถยนต์ของคนคุยโทรศัพท์ระหว่างขับรถ P(อุบัติเหตุ|คุยโทรศัพท์ระหว่างขับรถ) เป็นต้น

ในตอนถัดไปเราจะมารู้จักกับการแจกแจง (Distribution) กัน เนื้อหาจะเข้มข้นอย่างนี้ต่อไปเรื่อยๆแน่นอนครับ💪

ถ้าชอบหรือต้องการสอบถามหรือพูดคุยเพิ่มเติม กดไปที่เพจ ดาต้าไส้แห้ง หรือ LinkedIn ข้างล่างเลยจ้า แล้วเรื่องถัดไปจะเป็นเรื่องอะไรก็ขอให้กดติดตามกันไว้ด้วยนะคร้าบ😍

--

--