آمار توصیفی چیست تا اینجا قطعاً تا حدی با علم داده یا Data Science آشنایی دارید. میدانید که این حوزه یکی از جذابترین شغلهای قرن لقب گرفته است و در تمام دنیا افراد زیادی در حال فراگیری آن هستند. دلایل زیادی هم برای این موضوع وجود دارد؛ مهمترین آن وجود انبوه عظیمی از داده و نیاز به تحلیل و استخراج دانش مفید از آن است که باعث میشود تقاضا برای دانشمند داده (Data Scientist) بسیار زیاد باشد. علم داده پیشنیازهای مختلفی دارد که یکی از آنها داشتن دانش آمار است و برجستهترین آن آمار توصیفی یا Descriptive Statistics است که در این مطلب به آن پرداختهایم. اگر شما هم جزو آن دسته افرادی هستید که شروع به یادگیری مستلزمات علم داده کردهاید، تا انتهای این مطلب همراه ما باشید تا یکی از پیشنیازهای این مهارت را بیاموزید.
- 1. آمار توصیفی چیست و یادگیری آن برای علم داده چگونه است؟
- 2. تفاوت آمار و ریاضی
- 3. ورود به دنیای دیتا ساینس با کلاسهای آنلاین آموزش علم داده کافهتدریس
آمار توصیفی چیست و یادگیری آن برای علم داده چگونه است؟
آمار توصیفی اصطلاحی است که به تجزیهوتحلیل دادهها اطلاق میشود که به توصیف، نمایش یا خلاصهکردن دادهها بهشیوهای معنیدار کمک میکند، برای مثال، بهشکلی که بتوان الگوهایی را از دادهها استخراج کرد. آمار توصیفی بسیار مهم است؛ زیرا اگر دادههای خام خود را بهسادگی ارائه کنیم، تجسم آنچه دادهها نشان میدهند دشوار خواهد بود، بهخصوص اگر تعداد زیادی داده داشته باشیم؛ بنابراین آمار توصیفی ما را قادر میکند تا دادهها را بهروشی معنادارتر ارائه کنیم و امکان تفسیر سادهتر دادهها را فراهم میکند.
در دنیای واقعی ما حجم عظیمی از داده داریم که برای کار با آنها نیاز داریم تا با ویژگیهایی خاص آنها را از هم تمییز دهیم، اما این ویژگیها که از آنها صحبت میکنیم چه هستند؟ در ادامه توضیح مختصری از هر یک از این ویژگیها خواهیم داشت.
مینیمم (Minimum)
در یک مجموعهی داده کوچکترین عدد موجود مقدار مینیمم یا min خواهد بود.
ماکزیمم (Maximum)
بزرگترین عدد موجود در یک مجموعه داده مقدار ماکزیمم یا max آن مجموعه خواهد بود.
مجموع (Summation)
جمع تمامی اعداد موجود در یک مجموعه را sum میگوییم.
طول (Length)
تعداد اعداد موجود در یک مجموعه یا فهرست را len مجموعه داده میگوییم.
میانگین (Mean)
به حاصل تقسیم مجموع دادهها بر تعداد داده یا همان len مجموعه داده میانگین یا mean گفته میشود.
لیست مرتب (Sorted List)
وقتی اعداد موجود در یک لیست یا مجموعه را از کوچک به بزرگ مرتب یا بهاصطلاح sort میکنیم، درواقع آن لیست را به یک لیست مرتب یا Sorted تبدیل کردهایم.
میانه (Median)
برای پیداکردن میانه اولین و مهمترین موضوع این است که دادههای لیست باید مرتب یا sort شده باشند. داده وسط در هر لیست میانه یا Median است؛ برای مثال اگر ۱۱ داده در یک لیست داشته باشیم، ۵ داده اول را یک لیست و ۵ داده از آخر هم یک لیست در نظر میگیریم، داده وسط میانه آن لیست خواهد بود. در حالتی که تعداد دادههای لیست زوج باشد، برای مثال ۱۰ باشد، بعد از اینکه ۵ عدد اول را یک لیست و ۵ عدد آخر را لیست جداگانهای در نظر بگیریم، میانگین آخرین عدد لیست اول و اولین داده لیست دوم میانه ما خواهد بود.
مد (Mode)
دادهای است که در لیست بیشترین تعداد تکرار را دارد.
واریانس (Variance)
به واریانس انحراف از میانگین هم گفته میشود. برای محاسبه واریانس بهاین شکل عمل میکنیم:
۱. میانگین مجموعه داده را پیدا میکنیم، بهاین شکل که کل دادهها را با هم جمع و سپس بر تعداد تقسیم میکنیم.
۲. مربع حاصل تفریق هر داده از میانگین را محاسبه میکنیم.
۳. مقادیر مرحله قبل برای هر داده را با هم جمع میکنیم.
۴. حال مقدار بهدستآمده در مرحله قبل را بر تعداد کل دادهها تقسیم میکنیم تا واریانس به دست آید.
انحراف معیار (Standard Deviation)
جذر واریانس انحراف معیار است.
برای آشنایی با مفاهیم آمار توصیفی ویدئوی شماره ۱ را تماشا کنید:
تفاوت آمار و ریاضی
فرق احتمال با آمار این است که احتمال پدیدههای واقعی موجود را مدلسازی میکند، اما آمار پدیدههای واقعی را شمارش میکند. تلاش آمار این است که بفهمد مدلها و سازوکارهایی که در پدیدههای واقعی وجود دارند، چطور قابل شمارش خواهند بود.
بهطور کلی میتوان گفت در آمار هدف این است که برآوردی (Estimation) از یک جامعه را با استفاده از یک نمونه کوچکتر ارائه کند. ما دو نوع آمار داریم: آمار توصیفی یا Descriptive و آمار استنتاجی یا Inferential. در آمار توصیفی هدف توصیف دادههاست، اما در آمار استنتاجی هدف آنالیز دادههاست. در ادامه به آمار توصیفی میپردازیم و در بخشهای بعدی به آمار استنتاجی هم خواهیم پرداخت.
انواع داده
قبل از واردشدن به مفاهیم آمار توصیفی لازم است انواع داده را بشناسیم؛ زیرا در علم داده وظیفهی اصلی ما کار با دادههاست. دادهها میتوانند کیفی یا Descriptive و کمی یا Quantitative باشند. دادههای کیفی خود به دو دستهی عددی یا Nominal و ترتیبی یا Ordinal تقسیم میشوند. فرق این دو در این است که دادههای عددی قابلمقایسه یا قابلمرتبکردن نیستند، درحالیکه دادههای ترتیبی این امکان را دارند؛ برای مثال، اگر افراد را براساس درآمد تقسیم کنیم، درآمد کم، متوسط و درآمد بالا را میتوانیم داشته باشیم و اینها قابلمقایسه یا قابلمرتبکردن هستند.
دادههای کمی نیز به دو شاخه تقسیم میشوند: دادههای گسسته یا Discrete و دادههای پیوسته یا Continuous.
دادههای گسسته فقط میتوانند مقادیر مشخصی داشته باشند؛ برای مثال، اگر یک تاس را به هوا پرتاپ کنیم، فقط عددی بین ۱ تا ۶ خواهیم داشت و دادهای مانند ۱.۵ معنا ندارد، اما دادههای پیوسته میتوانند هر مقداری داشته باشند، مثل وزن افراد.
مفاهیم آمار توصیفی
حال که با انواع داده آشنا شدیم، وارد بحث آمار توصیفی میشویم. بهطور کلی در این نوع آمار هدف ما یا توصیف عددی دادههاست یا توصیف گرافیکی آنها.
اول به توصیف عددی میپردازیم که در آن شاخصهای تمایل مرکزی مانند میانگین، میانه، مد و چندک، شاخصهای پراکندگی مانند واریانس، انحراف معیار و ضریب تغییرات و شاخصهای شکل تابع مانند چولگی و کشیدگی وجود دارد.
میانگین
میانگین انواع مختلفی دارد:
میانگین حسابی (Arithmetic Mean)
دادهها را با هم جمع و تقسیم بر تعداد میکنیم.
میانگین هندسی (Geometric Mean)
دادهها را در هم ضرب میکنیم و فرجه n یا تعداد داده را محاسبه میکنیم.
میانگین هارمونیک (Harmonic Mean)
تعداد کل دادهها را بر جمع معکوس تمامی دادهها تقسیم میکنیم.
میانه (Median)
برای پیداکردن میانه اولین و مهمترین موضوع این است که دادههای لیست باید مرتب یا sort شده باشند. داده وسط در هر لیست میانه یا Median است؛ برای مثال، اگر ۱۱ داده در یک لیست داشته باشیم، ۵ داده اول را یک لیست و ۵ داده از آخر هم یک لیست در نظر میگیریم، داده وسط میانه آن لیست خواهد بود. در حالتی که تعداد دادههای لیست زوج باشد، برای مثال ۱۰ باشد، بعد از اینکه ۵ عدد اول را یک لیست و ۵ عدد آخر را لیست جداگانهای در نظر بگیریم، میانگین آخرین عدد لیست اول و اولین داده لیست دوم میانه ما خواهد بود.
مد (Mode)
دادهای است که در لیست بیشترین تعداد تکرار را دارد.
چندک (Quantile)
چندک میتواند چارک، دهک یا صدک باشد. صدک یکم عددی است که ۱ درصد دادهها از آن کوچکتر و ۹۹ درصد دادهها از آن بزرگتر هستند و بههمین ترتیب، این را میتوان برای چارک و دهک هم تعمیم داد.
واریانس (Variance)
به واریانس انحراف از ۱. میانگین مجموعهی داده را پیدا میکنیم، بهاین شکل که کل دادهها را باهم جمع و سپس بر تعداد تقسیم میکنیم.میانگین هم گفته میشود. برای محاسبه واریانس بهاین شکل عمل میکنیم:
۱. میانگین مجموعهی داده را پیدا میکنیم، بهاین شکل که کل دادهها را باهم جمع و سپس بر تعداد تقسیم میکنیم.
۲. مربع حاصل تفریق هر داده از میانگین را محاسبه میکنیم.
۳. مقادیر مرحله قبل برای هر داده را با هم جمع میکنیم.
۴. حال مقدار بهدستآمده در مرحلهی قبل را بر تعداد کل دادهها تقسیم میکنیم تا واریانس به دست آید.
انحراف معیار (Standard Deviation)
جذر واریانس انحراف معیار است.
ضریب تغییرات (Coeficient of Variation)
نسبت انحراف استاندارد به میانگین را ضریب تغییرات میگویند.
توصیف گرافیکی دادهها شامل نمودارهای شاخه و برگ، هیستوگرام، جعبهای (Box Chart) و نمودار دایرهای (Pie Chart) میشود. برای اینکه بیشتر با این نمودارها آشنا شوید پیشنهاد میکنیم، ویدئوی پیشنیاز علم داده را که بهطور مفصل این مفاهیم در آن توضیح داده شده است مشاهده کنید:
علاوه بر آمار توصیفی شما برای آموزش علم داده به یادگیری مفاهیم دیگری هم نیاز دارید. مطالعه درباره قضیه حد مرکزی و نقش آن در آموزش علم داده را از دست ندهید.
ورود به دنیای دیتا ساینس با کلاسهای آنلاین آموزش علم داده کافهتدریس
اگر دوست دارید به دنیای دیتا ساینس و ماشین لرنینگ وارد شوید، کلاسهای آنلاین آموزش علم داده کافهتدریس به شما امکان میدهد از هر نقطهی جغرافیایی به بروزترین و جامعترین آموزش علم داده دسترسی داشته باشید.
کلاسهای آنلاین آموزش علم داده کافهتدریس بهصورت کاملاً پویا و تعاملی و کارگاهی برگزار میشود و مبنای آن هم کار روی پروژههای واقعی علم داده است. این کلاسها تمامی پیشنیازها و مباحث علم داده و یادگیری ماشین را بهصورت صفر تا صد پوشش میدهد.
برای آشنایی بیشتر با کلاسهای آنلاین علم داده کافهتدریس و مشاورهی رایگان برای شروع یادگیری دیتا ساینس و ماشین لرنینگ روی این لینک کلیک کنید: