آمار توصیفی چیست تا اینجا قطعاً تا حدی با علم داده یا Data Science آشنایی دارید. می‌دانید که این حوزه یکی از جذاب‌ترین شغل‌های قرن لقب گرفته است و در تمام دنیا افراد زیادی در حال فراگیری آن هستند. دلایل زیادی هم برای این موضوع وجود دارد؛ مهم‌ترین آن وجود انبوه عظیمی از داده و نیاز به تحلیل و استخراج دانش مفید از آن است که باعث می‌شود تقاضا برای دانشمند داده (Data Scientist) بسیار زیاد باشد. علم داده پیش‌نیازهای مختلفی دارد که یکی از آن‌ها داشتن دانش آمار است و برجسته‌ترین آن آمار توصیفی یا Descriptive Statistics است که در این مطلب به آن پرداخته‌ایم. اگر شما هم جزو آن دسته افرادی هستید که شروع به یادگیری مستلزمات علم داده کرده‌اید،‌ تا انتهای این مطلب همراه ما باشید تا یکی از پیش‌نیازهای این مهارت را بیاموزید.

آمار توصیفی چیست و یادگیری آن برای علم داده چگونه است؟

آمار توصیفی اصطلاحی است که به تجزیه‌وتحلیل داده‌ها اطلاق می‌شود که به توصیف، نمایش یا خلاصه‌کردن داده‌ها به‌شیوه‌ای معنی‌دار کمک می‌کند، برای مثال، به‌شکلی که بتوان الگوهایی را از داده‌ها استخراج کرد. آمار توصیفی بسیار مهم است؛ زیرا اگر داده‌های خام خود را به‌سادگی ارائه کنیم، تجسم آنچه داده‌ها نشان می‌دهند دشوار خواهد بود، به‌خصوص اگر تعداد زیادی داده داشته باشیم؛ بنابراین آمار توصیفی ما را قادر می‌کند تا داده‌ها را به‌روشی معنادارتر ارائه کنیم و امکان تفسیر ساده‌تر داده‌ها را فراهم می‌کند.

در دنیای واقعی ما حجم عظیمی از داده داریم که برای کار با آن‌ها نیاز داریم تا با ویژگی‌هایی خاص آن‌ها را از هم تمییز دهیم، اما این ویژگی‌ها که از آن‌ها صحبت می‌کنیم چه هستند؟ در ادامه توضیح مختصری از هر یک از این ویژگی‌ها خواهیم داشت.

مینیمم (Minimum)

در یک مجموعه‌ی داده کوچک‌ترین عدد موجود مقدار مینیمم یا min خواهد بود.

ماکزیمم (Maximum)

بزرگترین عدد موجود در یک مجموعه داده مقدار ماکزیمم یا max آن مجموعه خواهد بود.

مجموع (Summation)

جمع تمامی اعداد موجود در یک مجموعه را sum می‌گوییم.

طول (Length)

تعداد اعداد موجود در یک مجموعه یا فهرست را len مجموعه داده می‌گوییم.

میانگین (Mean)

به حاصل تقسیم مجموع داده‌ها بر تعداد داده یا همان len مجموعه داده میانگین یا mean گفته می‌شود.

لیست مرتب (Sorted List)

وقتی اعداد موجود در یک لیست یا مجموعه را از کوچک به بزرگ مرتب یا به‌اصطلاح sort می‌کنیم، درواقع آن لیست را به یک لیست مرتب یا Sorted تبدیل کرده‌ایم.

میانه (Median)

برای پیداکردن میانه اولین و مهم‌ترین موضوع این است که داده‌های لیست باید مرتب یا sort شده باشند. داده وسط در هر لیست میانه یا Median است؛ برای مثال اگر ۱۱ داده در یک لیست داشته باشیم، ۵ داده اول را یک لیست و ۵ داده از آخر هم یک لیست در نظر می‌گیریم، داده وسط میانه آن لیست خواهد بود. در حالتی که تعداد داده‌های لیست زوج باشد، برای مثال ۱۰ باشد، بعد از اینکه ۵ عدد اول را یک لیست و ۵ عدد آخر را لیست جداگانه‌ای در نظر بگیریم، میانگین آخرین عدد لیست اول و اولین داده لیست دوم میانه ما خواهد بود.

مد (Mode)

داده‌ای است که در لیست بیشترین تعداد تکرار را دارد.

واریانس (Variance)

به واریانس انحراف از میانگین هم گفته می‌شود. برای محاسبه واریانس به‌این شکل عمل می‌کنیم:

۱. میانگین مجموعه داده را پیدا می‌کنیم، به‌این شکل که کل داده‌ها را با هم جمع و سپس بر تعداد تقسیم می‌کنیم.

۲. مربع حاصل تفریق هر داده از میانگین را محاسبه می‌کنیم.

۳. مقادیر مرحله قبل برای هر داده را با هم جمع می‌کنیم.

۴. حال مقدار به‌دست‌آمده در مرحله قبل را بر تعداد کل داده‌ها تقسیم می‌کنیم تا واریانس به دست آید.

انحراف معیار (Standard Deviation)

جذر واریانس انحراف معیار است.

برای آشنایی با مفاهیم آمار توصیفی ویدئوی شماره ۱ را تماشا کنید:

تفاوت آمار و ریاضی

فرق احتمال با آمار این است که احتمال پدیده‌های واقعی موجود را مدل‌سازی می‌کند، اما آمار پدیده‌های واقعی را شمارش می‌کند. تلاش آمار این است که بفهمد مدل‌ها و سازوکارهایی که در پدیده‌های واقعی وجود دارند، چطور قابل شمارش خواهند بود.

به‌طور کلی می‌توان گفت در آمار هدف این است که برآوردی (Estimation) از یک جامعه را با استفاده از یک نمونه کوچک‌تر ارائه کند. ما دو نوع آمار داریم: آمار توصیفی یا Descriptive و آمار استنتاجی یا Inferential. در آمار توصیفی هدف توصیف داده‌هاست، اما در آمار استنتاجی هدف آنالیز داده‌هاست. در ادامه به آمار توصیفی می‌پردازیم و در بخش‌های بعدی به آمار استنتاجی هم خواهیم پرداخت.

انواع داده

قبل از واردشدن به مفاهیم آمار توصیفی لازم است انواع داده را بشناسیم؛ زیرا در علم داده وظیفه‌ی اصلی ما کار با داده‌هاست. داده‌ها می‌توانند کیفی یا Descriptive و کمی یا Quantitative باشند. داده‌های کیفی خود به دو دسته‌ی عددی یا Nominal و ترتیبی یا Ordinal تقسیم می‌شوند. فرق این دو در این است که داده‌های عددی قابل‌مقایسه یا قابل‌مرتب‌کردن نیستند، درحالی‌که داده‌های ترتیبی این امکان را دارند؛ برای مثال، اگر افراد را براساس درآمد تقسیم کنیم، درآمد کم، متوسط و درآمد بالا را می‌توانیم داشته باشیم و این‌ها قابل‌مقایسه یا قابل‌مرتب‌کردن هستند.

داده‌های کمی نیز به دو شاخه تقسیم می‌شوند: داده‌های گسسته یا Discrete و داده‌های پیوسته یا Continuous.

داده‌های گسسته فقط می‌توانند مقادیر مشخصی داشته باشند؛ برای مثال، اگر یک تاس را به هوا پرتاپ کنیم، فقط عددی بین ۱ تا ۶ خواهیم داشت و داده‌ای مانند ۱.۵ معنا ندارد، اما داده‌های پیوسته می‌توانند هر مقداری داشته باشند، مثل وزن افراد.

مفاهیم آمار توصیفی

حال که با انواع داده آشنا شدیم، وارد بحث آمار توصیفی می‌شویم. به‌طور کلی در این نوع آمار هدف ما یا توصیف عددی داده‌هاست یا توصیف گرافیکی آن‌ها.

اول به توصیف عددی می‌پردازیم که در آن شاخص‌های تمایل مرکزی مانند میانگین، میانه، مد و چندک، شاخص‌های پراکندگی مانند واریانس، انحراف معیار و ضریب تغییرات و شاخص‌های شکل تابع مانند چولگی و کشیدگی وجود دارد.

میانگین

میانگین انواع مختلفی دارد:‌

میانگین حسابی (Arithmetic Mean)

داده‌ها را با هم جمع و تقسیم بر تعداد می‌کنیم.

میانگین هندسی (Geometric Mean)

داده‌ها را در هم ضرب می‌کنیم و فرجه n یا تعداد داده را محاسبه می‌کنیم.

میانگین هارمونیک (Harmonic Mean)

تعداد کل داده‌ها را بر جمع معکوس تمامی داده‌ها تقسیم می‌کنیم.

میانه (Median)

برای پیداکردن میانه اولین و مهم‌ترین موضوع این است که داده‌های لیست باید مرتب یا sort شده باشند. داده وسط در هر لیست میانه یا Median است؛ برای مثال، اگر ۱۱ داده در یک لیست داشته باشیم، ۵ داده اول را یک لیست و ۵ داده از آخر هم یک لیست در نظر می‌گیریم، داده وسط میانه آن لیست خواهد بود. در حالتی که تعداد داده‌های لیست زوج باشد، برای مثال ۱۰ باشد، بعد از اینکه ۵ عدد اول را یک لیست و ۵ عدد آخر را لیست جداگانه‌ای در نظر بگیریم، میانگین آخرین عدد لیست اول و اولین داده لیست دوم میانه ما خواهد بود.

مد (Mode)

داده‌ای است که در لیست بیشترین تعداد تکرار را دارد.

چندک (Quantile)

چندک می‌تواند چارک، دهک یا صدک باشد. صدک یکم عددی است که ۱ درصد داده‌ها از آن کوچک‌تر و ۹۹ درصد داده‌ها از آن بزرگتر هستند و به‌همین ترتیب، این را می‌توان برای چارک و دهک هم تعمیم داد.

واریانس (Variance)

به واریانس انحراف از ۱. میانگین مجموعه‌ی داده را پیدا می‌کنیم، به‌این شکل که کل داده‌ها را باهم جمع و سپس بر تعداد تقسیم می‌کنیم.میانگین هم گفته می‌شود. برای محاسبه واریانس به‌این شکل عمل می‌کنیم:

۱. میانگین مجموعه‌ی داده را پیدا می‌کنیم، به‌این شکل که کل داده‌ها را باهم جمع و سپس بر تعداد تقسیم می‌کنیم.

۲. مربع حاصل تفریق هر داده از میانگین را محاسبه می‌کنیم.

۳. مقادیر مرحله قبل برای هر داده را با هم جمع می‌کنیم.

۴. حال مقدار به‌دست‌آمده در مرحله‌ی قبل را بر تعداد کل داده‌ها تقسیم می‌کنیم تا واریانس به دست آید.

انحراف معیار (Standard Deviation)

جذر واریانس انحراف معیار است.

ضریب تغییرات (Coeficient of Variation)

نسبت انحراف استاندارد به میانگین را ضریب تغییرات می‌گویند.

توصیف گرافیکی داده‌ها شامل نمودارهای شاخه و برگ، هیستوگرام، جعبه‌ای (Box Chart) و نمودار دایره‌ای (Pie Chart) می‌شود. برای اینکه بیشتر با این نمودارها آشنا شوید پیشنهاد می‌کنیم، ویدئوی پیش‌نیاز علم داده را که به‌طور مفصل این مفاهیم در آن توضیح داده شده است مشاهده کنید:

علاوه بر آمار توصیفی شما برای آموزش علم داده به یادگیری مفاهیم دیگری هم نیاز دارید. مطالعه‌ی این مطلب را از دست ندهید:

با قضیه حد مرکزی و نقش آن در آموزش علم داده آشنا شوید!