آمار توصیفی

آمار توصیفی چیست و یادگیری آن برای علم داده چگونه است؟

مهسا مژدهی, ۴ سال قبل، بروزرسانی: ۲ سال قبل ۱۴ زمان مطالعه:۸ دقیقه مشاهده مطلب

آمار توصیفی چیست تا اینجا قطعاً تا حدی با علم داده یا Data Science آشنایی دارید. می‌دانید که این حوزه یکی از جذاب‌ترین شغل‌های قرن لقب گرفته است و در تمام دنیا افراد زیادی در حال فراگیری آن هستند. دلایل زیادی هم برای این موضوع وجود دارد؛ مهم‌ترین آن وجود انبوه عظیمی از داده و نیاز به تحلیل و استخراج دانش مفید از آن است که باعث می‌شود تقاضا برای دانشمند داده (Data Scientist) بسیار زیاد باشد. علم داده پیش‌نیازهای مختلفی دارد که یکی از آن‌ها داشتن دانش آمار است و برجسته‌ترین آن آمار توصیفی یا Descriptive Statistics است که در این مطلب به آن پرداخته‌ایم. اگر شما هم جزو آن دسته افرادی هستید که شروع به یادگیری مستلزمات علم داده کرده‌اید،‌ تا انتهای این مطلب همراه ما باشید تا یکی از پیش‌نیازهای این مهارت را بیاموزید.

فهرست مطالب پنهان‌کردن فهرست

1. آمار توصیفی چیست و یادگیری آن برای علم داده چگونه است؟
2. تفاوت آمار و ریاضی
3. ورود به دنیای دیتا ساینس با کلاس‌های آنلاین آموزش علم داده کافه‌تدریس

آمار توصیفی چیست و یادگیری آن برای علم داده چگونه است؟

آمار توصیفی اصطلاحی است که به تجزیه‌وتحلیل داده‌ها اطلاق می‌شود که به توصیف، نمایش یا خلاصه‌کردن داده‌ها به‌شیوه‌ای معنی‌دار کمک می‌کند، برای مثال، به‌شکلی که بتوان الگوهایی را از داده‌ها استخراج کرد. آمار توصیفی بسیار مهم است؛ زیرا اگر داده‌های خام خود را به‌سادگی ارائه کنیم، تجسم آنچه داده‌ها نشان می‌دهند دشوار خواهد بود، به‌خصوص اگر تعداد زیادی داده داشته باشیم؛ بنابراین آمار توصیفی ما را قادر می‌کند تا داده‌ها را به‌روشی معنادارتر ارائه کنیم و امکان تفسیر ساده‌تر داده‌ها را فراهم می‌کند.

در دنیای واقعی ما حجم عظیمی از داده داریم که برای کار با آن‌ها نیاز داریم تا با ویژگی‌هایی خاص آن‌ها را از هم تمییز دهیم، اما این ویژگی‌ها که از آن‌ها صحبت می‌کنیم چه هستند؟ در ادامه توضیح مختصری از هر یک از این ویژگی‌ها خواهیم داشت.

مینیمم (Minimum)

در یک مجموعه‌ی داده کوچک‌ترین عدد موجود مقدار مینیمم یا min خواهد بود.

ماکزیمم (Maximum)

بزرگترین عدد موجود در یک مجموعه داده مقدار ماکزیمم یا max آن مجموعه خواهد بود.

مجموع (Summation)

جمع تمامی اعداد موجود در یک مجموعه را sum می‌گوییم.

طول (Length)

تعداد اعداد موجود در یک مجموعه یا فهرست را len مجموعه داده می‌گوییم.

میانگین (Mean)

به حاصل تقسیم مجموع داده‌ها بر تعداد داده یا همان len مجموعه داده میانگین یا mean گفته می‌شود.

لیست مرتب (Sorted List)

وقتی اعداد موجود در یک لیست یا مجموعه را از کوچک به بزرگ مرتب یا به‌اصطلاح sort می‌کنیم، درواقع آن لیست را به یک لیست مرتب یا Sorted تبدیل کرده‌ایم.

میانه (Median)

برای پیداکردن میانه اولین و مهم‌ترین موضوع این است که داده‌های لیست باید مرتب یا sort شده باشند. داده وسط در هر لیست میانه یا Median است؛ برای مثال اگر ۱۱ داده در یک لیست داشته باشیم، ۵ داده اول را یک لیست و ۵ داده از آخر هم یک لیست در نظر می‌گیریم، داده وسط میانه آن لیست خواهد بود. در حالتی که تعداد داده‌های لیست زوج باشد، برای مثال ۱۰ باشد، بعد از اینکه ۵ عدد اول را یک لیست و ۵ عدد آخر را لیست جداگانه‌ای در نظر بگیریم، میانگین آخرین عدد لیست اول و اولین داده لیست دوم میانه ما خواهد بود.

مد (Mode)

داده‌ای است که در لیست بیشترین تعداد تکرار را دارد.

واریانس (Variance)

به واریانس انحراف از میانگین هم گفته می‌شود. برای محاسبه واریانس به‌این شکل عمل می‌کنیم:

۱. میانگین مجموعه داده را پیدا می‌کنیم، به‌این شکل که کل داده‌ها را با هم جمع و سپس بر تعداد تقسیم می‌کنیم.

۲. مربع حاصل تفریق هر داده از میانگین را محاسبه می‌کنیم.

۳. مقادیر مرحله قبل برای هر داده را با هم جمع می‌کنیم.

۴. حال مقدار به‌دست‌آمده در مرحله قبل را بر تعداد کل داده‌ها تقسیم می‌کنیم تا واریانس به دست آید.

انحراف معیار (Standard Deviation)

جذر واریانس انحراف معیار است.

برای آشنایی با مفاهیم آمار توصیفی ویدئوی شماره ۱ را تماشا کنید:

تفاوت آمار و ریاضی

فرق احتمال با آمار این است که احتمال پدیده‌های واقعی موجود را مدل‌سازی می‌کند، اما آمار پدیده‌های واقعی را شمارش می‌کند. تلاش آمار این است که بفهمد مدل‌ها و سازوکارهایی که در پدیده‌های واقعی وجود دارند، چطور قابل شمارش خواهند بود.

به‌طور کلی می‌توان گفت در آمار هدف این است که برآوردی (Estimation) از یک جامعه را با استفاده از یک نمونه کوچک‌تر ارائه کند. ما دو نوع آمار داریم: آمار توصیفی یا Descriptive و آمار استنتاجی یا Inferential. در آمار توصیفی هدف توصیف داده‌هاست، اما در آمار استنتاجی هدف آنالیز داده‌هاست. در ادامه به آمار توصیفی می‌پردازیم و در بخش‌های بعدی به آمار استنتاجی هم خواهیم پرداخت.

انواع داده

قبل از واردشدن به مفاهیم آمار توصیفی لازم است انواع داده را بشناسیم؛ زیرا در علم داده وظیفه‌ی اصلی ما کار با داده‌هاست. داده‌ها می‌توانند کیفی یا Descriptive و کمی یا Quantitative باشند. داده‌های کیفی خود به دو دسته‌ی عددی یا Nominal و ترتیبی یا Ordinal تقسیم می‌شوند. فرق این دو در این است که داده‌های عددی قابل‌مقایسه یا قابل‌مرتب‌کردن نیستند، درحالی‌که داده‌های ترتیبی این امکان را دارند؛ برای مثال، اگر افراد را براساس درآمد تقسیم کنیم، درآمد کم، متوسط و درآمد بالا را می‌توانیم داشته باشیم و این‌ها قابل‌مقایسه یا قابل‌مرتب‌کردن هستند.

داده‌های کمی نیز به دو شاخه تقسیم می‌شوند: داده‌های گسسته یا Discrete و داده‌های پیوسته یا Continuous.

داده‌های گسسته فقط می‌توانند مقادیر مشخصی داشته باشند؛ برای مثال، اگر یک تاس را به هوا پرتاپ کنیم، فقط عددی بین ۱ تا ۶ خواهیم داشت و داده‌ای مانند ۱.۵ معنا ندارد، اما داده‌های پیوسته می‌توانند هر مقداری داشته باشند، مثل وزن افراد.

مفاهیم آمار توصیفی

حال که با انواع داده آشنا شدیم، وارد بحث آمار توصیفی می‌شویم. به‌طور کلی در این نوع آمار هدف ما یا توصیف عددی داده‌هاست یا توصیف گرافیکی آن‌ها.

اول به توصیف عددی می‌پردازیم که در آن شاخص‌های تمایل مرکزی مانند میانگین، میانه، مد و چندک، شاخص‌های پراکندگی مانند واریانس، انحراف معیار و ضریب تغییرات و شاخص‌های شکل تابع مانند چولگی و کشیدگی وجود دارد.

میانگین

میانگین انواع مختلفی دارد:‌

میانگین حسابی (Arithmetic Mean)

داده‌ها را با هم جمع و تقسیم بر تعداد می‌کنیم.

میانگین هندسی (Geometric Mean)

داده‌ها را در هم ضرب می‌کنیم و فرجه n یا تعداد داده را محاسبه می‌کنیم.

میانگین هارمونیک (Harmonic Mean)

تعداد کل داده‌ها را بر جمع معکوس تمامی داده‌ها تقسیم می‌کنیم.

میانه (Median)

برای پیداکردن میانه اولین و مهم‌ترین موضوع این است که داده‌های لیست باید مرتب یا sort شده باشند. داده وسط در هر لیست میانه یا Median است؛ برای مثال، اگر ۱۱ داده در یک لیست داشته باشیم، ۵ داده اول را یک لیست و ۵ داده از آخر هم یک لیست در نظر می‌گیریم، داده وسط میانه آن لیست خواهد بود. در حالتی که تعداد داده‌های لیست زوج باشد، برای مثال ۱۰ باشد، بعد از اینکه ۵ عدد اول را یک لیست و ۵ عدد آخر را لیست جداگانه‌ای در نظر بگیریم، میانگین آخرین عدد لیست اول و اولین داده لیست دوم میانه ما خواهد بود.

مد (Mode)

داده‌ای است که در لیست بیشترین تعداد تکرار را دارد.

چندک (Quantile)

چندک می‌تواند چارک، دهک یا صدک باشد. صدک یکم عددی است که ۱ درصد داده‌ها از آن کوچک‌تر و ۹۹ درصد داده‌ها از آن بزرگتر هستند و به‌همین ترتیب، این را می‌توان برای چارک و دهک هم تعمیم داد.

واریانس (Variance)

به واریانس انحراف از ۱. میانگین مجموعه‌ی داده را پیدا می‌کنیم، به‌این شکل که کل داده‌ها را باهم جمع و سپس بر تعداد تقسیم می‌کنیم.میانگین هم گفته می‌شود. برای محاسبه واریانس به‌این شکل عمل می‌کنیم:

۱. میانگین مجموعه‌ی داده را پیدا می‌کنیم، به‌این شکل که کل داده‌ها را باهم جمع و سپس بر تعداد تقسیم می‌کنیم.

۲. مربع حاصل تفریق هر داده از میانگین را محاسبه می‌کنیم.

۳. مقادیر مرحله قبل برای هر داده را با هم جمع می‌کنیم.

۴. حال مقدار به‌دست‌آمده در مرحله‌ی قبل را بر تعداد کل داده‌ها تقسیم می‌کنیم تا واریانس به دست آید.

انحراف معیار (Standard Deviation)

جذر واریانس انحراف معیار است.

ضریب تغییرات (Coeficient of Variation)

نسبت انحراف استاندارد به میانگین را ضریب تغییرات می‌گویند.

توصیف گرافیکی داده‌ها شامل نمودارهای شاخه و برگ، هیستوگرام، جعبه‌ای (Box Chart) و نمودار دایره‌ای (Pie Chart) می‌شود. برای اینکه بیشتر با این نمودارها آشنا شوید پیشنهاد می‌کنیم، ویدئوی پیش‌نیاز علم داده را که به‌طور مفصل این مفاهیم در آن توضیح داده شده است مشاهده کنید:

علاوه بر آمار توصیفی شما برای آموزش علم داده به یادگیری مفاهیم دیگری هم نیاز دارید. مطالعه درباره قضیه حد مرکزی و نقش آن در آموزش علم داده را از دست ندهید.

ورود به دنیای دیتا ساینس با کلاس‌های آنلاین آموزش علم داده کافه‌تدریس

اگر دوست دارید به دنیای دیتا ساینس و ماشین لرنینگ وارد شوید، کلاس‌های آنلاین آموزش علم داده کافه‌تدریس به شما امکان می‌دهد از هر نقطه‌ی جغرافیایی به بروزترین و جامع‌ترین آموزش علم داده دسترسی داشته باشید.

کلاس‌های آنلاین آموزش علم داده کافه‌تدریس به‌صورت کاملاً پویا و تعاملی و کارگاهی برگزار می‌شود و مبنای آن هم کار روی پروژه‌های واقعی علم داده است. این کلاس‌ها تمامی پیش‌نیازها و مباحث علم داده و یادگیری ماشین را به‌صورت صفر تا صد پوشش می‌دهد.

برای آشنایی بیشتر با کلاس‌های آنلاین علم داده کافه‌تدریس و مشاوره‌ی رایگان برای شروع یادگیری دیتا ساینس و ماشین لرنینگ روی این لینک کلیک کنید:

دوره جامع آموزش علم داده (Data Science)

برچسب #آمار توصیفی #پیش‌نیازهای علم داده #علم داده

مشاوره و برنامه‌ریزی, در مسیر موفقیت

اشتباه های رایج کنکوری ها را بشناسید و انجام ندهید!

دیتا ساینس و ماشین لرنینگ

SAS چیست و چه مزایا، معایب و کاربردهایی دارد؟

14 دیدگاه

یاسین احمدی

همین مقداری که در ویدئوهایی که گذاشتید
آمار کافیه؟

4 سال قبل پاسخ
1. Mahsa MZ
  
  ویدیوهایی که در دسترس عموم قرار گرفته، کامل نیست. فقط چند مورد از اون‌ها به شکل رایگان در دسترسه. بعد از ثبت‌نام تمام ویدیوهای پیش‌نیاز در اختیارتون قرار می‌گیره.
  
  4 سال قبل پاسخ
maral darabi

That was super useful sir

4 سال قبل پاسخ
1. Mahsa MZ
  
  Thanks for sharing your thoughts
  
  4 سال قبل پاسخ
فرزانه عمویی

استاد عزیز من ریاضیم خیلی خیلی ضعیفه می تونم وارد دیتاساینس بشم ؟

4 سال قبل پاسخ
1. Mahsa MZ
  
  ببینین این نکته رو باید در نظر بگیریم که علم‌داده یه بخشیش به ریاضیات برمی‌گرده، درسته که ریاضی خیلی پیچیده‌ای نداره، اما لازمه یه سری مفاهیم اولیه ریاضی و آمار رو بدونین. توی دوره علم‌داده ما این پیش‌نیازها رو هم کاور می‌کنیم اما اگه خیلی خیلی ریاضی‌تون ضعیفه و فکر می‌کنید یادگیری مفاهیم اولیه هم براتون سخته، ممکنه ورود به این حوزه انتخاب خیلی خوب نباشه.
  
  4 سال قبل پاسخ
امیر محمد قرچکی

برای آموزش آمار توصیفی آموزش ویدیویی هم دارین ؟؟

4 سال قبل پاسخ
1. Mahsa MZ
  
  بله ویدیوی این مطلب رو می‌تونین در این صفحه در بخش ویدیوهای آموزشی پیدا کنین:‌https://cafetadris.com/datascience
  
  4 سال قبل پاسخ
فاطمه زهرا نمازی

کاش دوره ریاضیات برای دبیرستان هم میذاشتید استاد شکرزاد من دوره دیتاساینس ۱ و ۲ و دوره ریاضیاتتون رو ثبت نام کردم عالی تدریس می کنید دوست داشتم از این آموزش ها برای فرزندم استفاده می کردم

4 سال قبل پاسخ
1. Mahsa MZ
  
  ممنون از اینکه نظرتون رو به اشتراک گذاشتین. متاسفانه در حال حاضر برای اون مقطع تحصیلی دوره‌ای ندارن ایشون.
  
  4 سال قبل پاسخ
torabi 74s

خیلی ممنون واقعا استفاده کردیم ازدوره ها ، وبینارها و مقالاتتون
شما عالی هستین زنده باشین

4 سال قبل پاسخ
1. Mahsa MZ
  
  خیلی ممنون از لطف شما دوست عزیز.
  
  4 سال قبل پاسخ
قائم رضوی

آموزش‌ها واقعا فوق‌العادست، اگر بتونید مواردی مثل رگرسیون‌های غیر خطی، آمار بیزی، سری زمانی، آنالیز ریاضی و نظریه اندازه رو هم آموزشش رو بذارید عالی میشه، این آموزش‌ها برای کسایی که دارن توی حوزه‌ی دیتا آنالیز و بیگ دیتا کار می‌کنن واقعا عالیه

4 سال قبل پاسخ
1. Mahsa MZ
  
  خیلی ممنون از اشتراک نظرتون. درمورد رگرسیون‌ها قبلا صحبت کردیم که میتونین مطالعه کنین: http://ctdrs.ir/ds0033 ، به زودی مطالب بیشتری هم خواهیم داشت.
  
  4 سال قبل پاسخ

آمار توصیفی چیست و یادگیری آن برای علم داده چگونه است؟

آمار توصیفی چیست و یادگیری آن برای علم داده چگونه است؟

مینیمم (Minimum)

ماکزیمم (Maximum)

مجموع (Summation)

طول (Length)

میانگین (Mean)

لیست مرتب (Sorted List)

میانه (Median)

مد (Mode)

واریانس (Variance)

انحراف معیار (Standard Deviation)

تفاوت آمار و ریاضی

انواع داده

مفاهیم آمار توصیفی

میانگین

میانگین حسابی (Arithmetic Mean)

میانگین هندسی (Geometric Mean)

میانگین هارمونیک (Harmonic Mean)

میانه (Median)

مد (Mode)

چندک (Quantile)

واریانس (Variance)

انحراف معیار (Standard Deviation)

ضریب تغییرات (Coeficient of Variation)

ورود به دنیای دیتا ساینس با کلاس‌های آنلاین آموزش علم داده کافه‌تدریس

14 دیدگاه

دیدگاهتان را بنویسید لغو پاسخ