متغیرهای تصادفی و توزیع احتمال را چقدر میشناسید؟ در این مطلب بهصورت مفصل به این دو مفهوم بهعنوان دو پیشنیاز اصلی ورود به دنیای علم داده پرداختهایم و آنها را بهصورت کامل توضیح دادهایم. برای آشنایی با متغیرهای تصادفی و توزیع احتمال این مطلب را حتماً مطالعه کنید.
رایگان تماشا کنید: ویدئوی آموزشی متغیرهای تصادفی و توزیع احتمال
این ویدئو بخشی از مجموعه ویدئوهای پیشنیاز علم داده است که رضا شکرزاد تدریس کرده است. برای اینکه با مهمترین مفاهیم پیشنیاز آمار و احتمال علم داده، یعنی متغیرهای تصادفی و توریع احتمال، آشنا شوید، پیشنهاد میکنیم حتماً این ویدئو را مشاهده کنید.
در این ویدئو با مفاهیمی مانند انواع متغیرهای تصادفی گسسته و پیوسته، تابع توزیع تجمعی (Cumulative Distribution Function)، امید ریاضی (Expected Value)، واریانس (Variance)، انحراف معیار (Standard Deviation)، انحراف از میانگین (Mean Deviation) آشنا خواهید شد:
علم داده و متغیرهای تصادفی و توزیع احتمال
در حال حاضر علم داده یا دیتا ساینس (Data Science) بهعنوان یکی از پرتقاضاترین مسیرهای شغلی به رشد خود ادامه میدهد. در چند سال اخیر دانشمندان داده به داراییهای ضروری سازمانها تبدیل شدهاند و تقریباً در همهی سازمانها حضور دارند؛ درواقع نیاز به حضور دانشمندان داده در سازمانها و شرکتها روزبهروز بیشتر حس میشود. این متخصصان افرادی کاملاً خبره و مسلط بر کار با داده با مهارتهای فنی سطح بالا هستند. این افراد قادر به ایجاد الگوریتمهایی پیچیده برای سازماندهی و ترکیب مقادیر زیادی از اطلاعات مورداستفاده برای پاسخ به سؤالات و هدایت استراتژی در سازمان خود هستند.
با دردسترسترشدن حجم فزاینده دادهها، شرکتهای بزرگ فناوری تنها کسانی نیستند که به دانشمندان داده نیاز دارند؛ تقاضای فزاینده برای متخصصان علم داده در همهی صنایع کوچک و بزرگ، بهدلیل کمبود نامزدهای واجد شرایط موجود برای پرکردن موقعیتهای خالی، با چالش مواجه شده است. در حال حاضر نشانهای از کاهش میزان نیاز به دانشمندان داده در سالهای آینده وجود ندارد.
بنابراین میتوان گفت علم داده در حال حاضر یکی از پرتقاضاترین شغلهای دنیاست و افراد زیادی با توجه به این موضوع شروع به یادگیری این دانش کردهاند.
اما یادگیری علم داده به پیشنیازهایی هم نیاز دارد؛ ازجملهٔ آنها میتوان به آمار و احتمال و ریاضیات اشاره کرد. در میان مفاهیم آمار و احتمال که برای ورود به علم داده به آن نیاز داریم میتوان به متغیرها تصادفی یا Random Variables و توزیع احتمال Probability Distribution اشاره کرد که میتوان گفت مهمترین بخش پیشنیازهای علم داده محسوب میشود.
مفاهیم این دو مورد بسیار در یادگیری ماشین (Machine Learning) کاربرد دارد و از آنجا که یادگیری ماشین اصلیترین بخش کار با داده است، دانستن دو مفهوم متغیرهای تصادفی و توزیع احتمال هم بسیار ضرورت دارد.
در ادامه به انواع متغیرهای تصادفی گسسته و پیوسته پرداختهایم.
متغیرهای تصادفی گسسته
متغیرهای تصادفی گسسته از این قرار است:
متغیر تصادفی برنولی (Bernoulli Random Variable)
این متغیر پایهایترین متغیر تصادفی است که موفقیت در انجامدادن یک آزمایش را مشخص میکند؛ بنابراین مقدار آن میتواند ۱ یا صفر باشد؛ یعنی یا موفق میشویم یا شکست میخوریم.
متغیر تصادفی دوجملهای (Binomial Random Variable)
این متغیر تعداد موفقیتها در انجامدادن n آزمایش میشمارد.
متغیر تصادفی هندسی (Geometric Random Variable)
تعداد آزمایشهای لازم را برای رسیدن به اولین موفقیت میشمارد.
متغیر تصادفی پوآسن (Poisson Random Variable)
این متغیر تعداد اتفاق در یک بازهی زمانی یا مکانی را میشمارد؛ برای مثال، تعداد تصادفها در یک جاده خاص.
متغیرهای تصادفی پیوسته
انواع متغییرهای تصادفی پیوسته از این قرار است:
متغیر تصادفی یکنواخت پیوسته (Continuous Uniform Random Variable)
در این متغیر در یک بازهی خاص، احتمال تمامی مقادیر یکسان است.
متغیر تصادفی نرمال (Normal Random Variable)
این نوع توزیع احتمال نشان میدهد که دادههایی که در اطراف میانگین هستند خیلی بیشتر اتفاق میافتد تا دادههایی که دور از میانگین هستند. نمودار این تابع توزیع احتمال بهشکل یک زنگوله است.
متغیر تصادفی نمایی (Exponential Random Variable)
این متغیر فاصله مکانی و زمانی میان دو اتفاق متوالی پوآسن را میشمارد.
پیشنهاد میکنیم با پکیج Pandas بیشتر آشنا شوید.
علم داده را با کافهتدریس بیاموزید!
یادگیری علم داده و قرارگرفتن در مسیر ورود به یکی از جذابترین فرصتهای شغلی قرن جدید نیاز به داشتن پیشنیازهایی دارد. کافهتدریس با برگزاری کلاسهای آنلاین علم داده با تدریس بهترین استادان به شما کمک میکند صفر تا صد علم داده را بهراحتی بیاموزید.
برای آشنایی با کلاسهای آنلاین علم داده کافهتدریس روی این لینک کلیک کنید: