کافه‌تدریس

با داده های سری زمانی یا Time Series Data آشنا شوید!

Time Series Data in Data Science

داده‌های زمانی یا داده های سری زمانی اصطلاحی است که در تحلیل‌های آماری برای توصیف داده‌هایی به کار می‌رود که در فاصله‌های زمانی مشخص جمع‌آوری شده‌اند. این نوع داده‌ها در زمینه‌های مختلفی مانند مالی، اقتصاد، آب‌وهوا، علوم بهداشتی و بسیاری دیگر از حوزه‌ها کاربرد دارد. با توجه به اهمیت روزافزون داده‌ها در تصمیم‌گیری‌های کلان، داده‌های زمانی نقش محوری در پیش‌بینی و تحلیل روندها ایفا می‌کنند. در ادامه این مطلب به‌صورت کامل با داده های سری زمانی آشنا می‌شوید.

فهرست مطالب پنهان‌کردن فهرست
  1. 1. تعریف داده‌های زمانی
  2. 2. اهمیت داده‌های زمانی در دنیای امروزی
  3. 3. اجزای کلیدی داده‌های سری زمانی
    1. 3.1. روند (Trend)
    2. 3.2. فصلی (Seasonality)
    3. 3.3. چرخه‌ای (Cyclic)
    4. 3.4. نوسانات تصادفی (Residual or Random Fluctuations)
  4. 4. انواع داده‌های زمانی
    1. 4.1. داده‌های مالی
    2. 4.2. داده‌های قیمت سهام
    3. 4.3. داده‌های نرخ بهره
    4. 4.4. داده‌های نرخ ارز
    5. 4.5. داده‌های حجم معاملات
    6. 4.6. داده‌های شاخص‌های بازار
  5. 5. داده‌های آب‌وهوایی
    1. 5.1. دما
    2. 5.2. بارش
    3. 5.3. رطوبت
    4. 5.4. فشار جوی
    5. 5.5. سرعت و جهت باد
  6. 6. داده‌های بیومتریک
    1. 6.1. ضربان قلب
    2. 6.2. فشار خون
    3. 6.3. سطح اکسیژن خون
    4. 6.4. الگوی تنفس
  7. 7. داده‌های فروش
    1. 7.1. داده‌های کمی
    2. 7.2. داده‌های کیفی
  8. 8. تجزیه‌وتحلیل داده های سری زمانی
  9. 9. توسعه تکنیک‌های آماری برای داده های سری زمانی
    1. 9.1. میانگین متحرک (Moving Average)
    2. 9.2. خودرگرسیونی (Autoregressive)
    3. 9.3. میانگین متحرک خودرگرسیونی تلفیقی (ARIMA)
    4. 9.4. هموارسازی نمایی (ExponentialSmoothing)
    5. 9.5. تکنیک‌های یادگیری ماشین
    6. 9.6. تحلیل فوریه
  10. 10. چالش‌های داده‌های سری زمانی
    1. 10.1. مقدارهای گمشده
    2. 10.2. نقاط پرت
    3. 10.3. غیرایستایی
    4. 10.4. بیش‌برازش
    5. 10.5. افق پیش‌بینی
  11. 11. تشخیص ناهنجاری در داده های سری زمانی
  12. 12. خلاصه مطلب درباره داده های سری زمانی
  13. 13. پرسش‌های متداول
    1. 13.1. داده های سری زمانی چیست؟
    2. 13.2. چرا داده های سری زمانی مهم هستند؟
    3. 13.3. مؤلفه‌های اصلی داده های سری زمانی کدام‌اند؟
    4. 13.4. چگونه می‌توان ناهنجاری‌ها را در داده های سری زمانی تشخیص داد؟
    5. 13.5. چه تکنیک‌هایی برای تحلیل داده های سری زمانی استفاده می‌شود؟

 تعریف داده‌های زمانی

داده‌های زمانی سری‌هایی از اطلاعات هستند که به‌طور مرتب براساس زمان ثبت و ضبط می‌شوند. این داده‌ها می‌توانند به‌صورت ثانیه‌ای، دقیقه‌ای، ساعتی، روزانه، ماهانه یا سالانه باشند. این داده‌ها به ما این امکان را می‌دهند تا الگوها، روندها و تغییرات فصلی را در طول زمان شناسایی کنیم و براساس آن‌ها پیش‌بینی‌هایی از آینده ارائه کنیم.

برای مثال، تجزیه‌وتحلیل داده‌های زمانی در بازارهای مالی می‌تواند به سرمایه‌گذاران کمک کند تا بهترین زمان برای خرید یا فروش سهام را تعیین کنند یا در حوزه‌هایی مانند هواشناسی، داده‌های زمانی می‌توانند برای پیش‌بینی وضعیت آب‌وهوا استفاده شوند.

 اهمیت داده‌های زمانی در دنیای امروزی

در عصر اطلاعات داده‌های زمانی به‌عنوان یک ابزار قدرتمند برای تحلیل و پیش‌بینی به شمار می‌روند. استفاده از این داده‌ها امکان تحلیل رفتارهای گذشته و پیش‌بینی روندهای آینده را فراهم می‌کند که این موضوع در تصمیم‌گیری‌های استراتژیک بسیار مهم است.

اجزای کلیدی داده‌های سری زمانی

درک اجزای کلیدی داده‌های سری زمانی برای تحلیل و پیش‌بینی مؤثر این نوع داده‌ها بسیار مهم است. در ادامه هر یک از اجزای داده‌های زمانی توضیح داده شده‌اند:

روند (Trend)

روند نشان‌دهنده پیشرفت یا حرکت بلندمدت در مجموعه داده‌هاست. این جزء جهت کلی را نشان می‌دهد که نقاط داده در طول زمان به کدام سمت می‌روند، خواه به‌طور کلی افزایشی، کاهشی یا نسبتاً ثابت باشد.

فصلی (Seasonality)

فصلی‌بودن به الگوهای منظم و تکرارشونده‌ای اشاره دارد که در داده‌ها در فاصله‌های زمانی معین رخ می‌دهند. فصلی‌بودن می‌تواند روزانه، هفتگی، ماهانه یا سالانه باشد، بسته به ماهیت داده‌ها؛ برای مثال، افزایش فروش در ایام خاصی از سال مانند تعطیلات نوروز یا کریسمس از این جنس داده است. تشخیص فصلی‌بودن مهم است؛ زیرا به کسب‌وکارها کمک می‌کند تا برای رویدادهای تکراری آماده باشند.

چرخه‌ای (Cyclic)

الگوهای چرخه‌ای به نوسان‌هایی در داده‌ها اشاره می‌کنند که به‌صورت نامنظم و بدون یک دوره زمانی ثابت رخ می‌دهند. این الگوها ممکن است ناشی از عوامل اقتصادی کلان یا دیگر تغییرات باشند که بر داده‌ها تأثیر می‌گذارند.

نوسانات تصادفی (Residual or Random Fluctuations)

نویز به نوسانات تصادفی در داده‌ها اشاره می‌کند که پس از استخراج سطح، روند، فصلی‌بودن و چرخه‌ای باقی می‌ماند؛ درواقع این نوسان‌ها به تغییرات پیش‌بینی‌نشده و تصادفی در داده‌ها اشاره می‌کنند که روند یا فصلی‌بودن آن‌ها را توضیح نمی‌دهد. این نوسانات اغلب به‌دلیل عواملی مانند نویز، خطاهای اندازه‌گیری یا رویدادهای غیرمنتظره ایجاد می‌شوند و معمولاً اطلاعات کمی برای تحلیل‌های بیشتر ارائه می‌کند.

 انواع داده‌های زمانی

داده‌های سری زمانی انواع مختلفی دارند که در ادامه آن‌ها را بررسی می‌کنیم:

 داده‌های مالی

یکی از پرکاربردترین انواع داده‌های زمانی داده‌های مالی است. این داده‌ها سهام، اوراق بهادار، نرخ‌های بهره و سایر مؤلفه‌های مالی را در بر می‌گیرند که در بازارهای مالی استفاده می‌شوند. این داده‌ها برای تحلیل رفتار بازارهای مالی و پیش‌بینی روندهای آینده استفاده می‌شوند. در ادامه به برخی از مهم‌ترین انواع داده‌های سری زمانی مالی اشاره خواهیم کرد:

داده‌های قیمت سهام

این داده‌ها شامل قیمت بازشدن، بسته‌شدن، بالاترین و پایین‌ترین قیمت سهام در طول یک دوره زمانی مشخص هستند. قیمت‌های سهام معمولاً به‌صورت دقیقه‌ای، ساعتی، روزانه، هفتگی، یا ماهانه ثبت می‌شوند.

داده‌های نرخ بهره

نرخ بهره که بانک‌های مرکزی تعیین می‌کنند نقش مهمی در اقتصاد دارد و به‌صورت دوره‌ای ثبت و تحلیل می‌شود. این نرخ‌ها می‌توانند روزانه، ماهانه یا سالانه بازبینی و ثبت شوند.

داده‌های نرخ ارز

نرخ تبدیل ارزهای مختلف که به‌صورت لحظه‌ای در بازارهای جهانی تغییر می‌کند از دیگر انواع داده های سری زمانی مالی است. این داده‌ها برای تجارت بین‌المللی و سرمایه‌گذاری‌های خارجی حیاتی هستند.

داده‌های حجم معاملات

حجم معاملات نشان‌دهنده تعداد سهام یا اوراق بهاداری است که در یک دوره زمانی معین معامله شده‌اند. تحلیل این داده‌ها به فهمیدن فعالیت بازار و علاقه سرمایه‌گذاران به خرید یا فروش دارایی‌ها کمک می‌کند.

داده‌های شاخص‌های بازار

داده‌های شاخص‌های بازار مانند شاخص داوجونز، نزدک و اس‌اند‌پی ۵۰۰ که نمایانگر عملکرد کلی بازار سهام هستند به‌صورت لحظه‌ای ثبت و تحلیل می‌شوند. این شاخص‌ها برای ارزیابی روند بازار و تصمیم‌گیری‌های سرمایه‌گذاری استفاده می‌شوند.

این داده‌ها بستری را فراهم می‌کنند که تحلیلگران مالی می‌توانند با استفاده از آن‌ها الگوهای بازار را شناسایی و پیش‌بینی‌هایی دقیق‌تری درمورد تحولات آینده ارائه کنند.

 داده‌های آب‌وهوایی

داده‌های آب‌وهوایی در سری‌های زمانی اطلاعات بسیار ارزشمندی را ارائه می‌کنند که برای تحلیل تغییرات آب‌وهوایی، پیش‌بینی رویدادهای جوی و برنامه‌ریزی در زمینه‌های مختلف ازجمله کشاورزی، هواشناسی، مدیریت بحران و انرژی استفاده می‌شوند. داده‌های آب‌وهوایی که به‌صورت سری زمانی جمع‌آوری می‌شوندمجموعه‌ای از مشاهدات مستمر را در بر می‌گیرند. در ادامه به برخی از مهم‌ترین انواع داده‌های آب‌وهوایی اشاره خواهیم کرد:

دما

دما به‌صورت ساعتی یا روزانه ثبت می‌شود و این اطلاعات می‌توانند برای تحلیل تغییرات طولانی‌مدت دما در یک منطقه خاص یا برای پیش‌بینی موج‌های گرما یا سرما استفاده شوند.

بارش

داده‌های بارش شامل میزان باران، برف و دیگر انواع بارش در یک مکان و زمان مشخص هستند. تجزیه‌وتحلیل این داده‌ها برای درک الگوهای فصلی بارش و پیش‌بینی خطر سیل حیاتی است.

رطوبت

داده‌های رطوبت به ما میزان بخار آب موجود در هوا را نشان می‌دهند و در تحلیل شرایط محیطی مؤثر برای کشاورزی و سلامت عمومی مهم هستند.

فشار جوی

تغییرات فشار جوی که به‌صورت پیوسته ثبت می‌شوند، می‌توانند برای پیش‌بینی تغییرات آب و هوایی، ازجمله طوفان‌ها و سامانه‌های فشار بالا و پایین، استفاده شوند.

سرعت و جهت باد

این داده‌ها برای فهم چگونگی جریان هوا و تأثیر آن بر پدیده‌های جوی مانند طوفان‌ها، طوفان‌های موضعی و پیش‌بینی‌های انرژی باد استفاده می‌شوند.

 داده‌های بیومتریک

داده‌های بیومتریک مانند ضربان قلب و فشار خون نیز در فواصل زمانی معین اندازه‌گیری می‌شوند و برای مطالعات پزشکی و بهداشتی به کار می‌روند. این داده‌ها که‌به صورت سری‌های زمانی ثبت می‌شوند امکان تحلیل پیوسته و دقیق‌تری از وضعیت سلامت فرد را فراهم می‌کنند و در تشخیص، نظارت و مدیریت بیماری‌ها نقش بسزایی دارند. انواع داده‌های بیومتریک سری زمانی به‌این شرح است:

ضربان قلب

 اندازه‌گیری‌های مداوم ضربان قلب می‌توانند تغییرات در سلامت قلبی‌وعروقی را نشان دهند و در پیش‌بینی حوادث قلبی، مانند حملات قلبی، کاربرد دارند.

فشار خون

ثبت منظم فشار خون به تشخیص زودهنگام فشار خون بالا یا دیگر مشکلات مرتبط کمک می‌کند و امکان مدیریت بهتر بیماری‌های مزمن را می‌دهد.

سطح اکسیژن خون

داده‌های سطح اکسیژن خون که به‌صورت زمانی ثبت می‌شوند، برای بیماران مبتلا به بیماری‌های تنفسی حیاتی هستند و در تعیین نیاز به درمان‌های اکسیژن‌درمانی نقش دارند.

الگوی تنفس

ثبت الگوهای تنفسی به‌صورت زمانی می‌تواند در تشخیص اختلالات خواب مانند آپنه خواب مفید باشد.

به‌طور کلی، داده‌های بیومتریک در سری‌های زمانی ابزارهای قدرتمندی هستند که می‌توانند در بهبود کیفیت زندگی و ارتقای سلامت جامعه نقش مؤثری ایفا کنند.

داده‌های فروش

داده‌های پیش‌بینی فروش به اطلاعاتی اشاره می‌کنند که برای تخمین میزان تقاضای آینده برای محصولات یا خدمات جمع‌آوری و تحلیل می‌شوند. این داده‌ها معمولاً مجموعه‌ای از نقاط داده‌های گذشته و کنونی را در بر می‌گیرند که کسب‌وکارها برای درک بهتر الگوهای خرید مشتریان و تأثیر عوامل مختلف بر تقاضا استفاده می‌کنند. داده‌های پیش‌بینی فروش می‌توانند داده‌های کمی و کیفی را شامل باشند:

داده‌های کمی

شامل ارقام فروش گذشته، میزان موجودی، داده‌های مربوط به قیمت‌ها و دیگر متغیرهای عددی که به طور مستقیم قابل‌اندازه‌گیری و تحلیل هستند.

داده‌های کیفی

ممکن است نظرات مشتریان، داده‌های جمع‌آوری‌شده از نظرسنجی‌ها، روندهای بازار و دیگر اطلاعات غیرعددی را شامل باشد که برای درک بهتر علل و عوامل مؤثر بر تقاضا استفاده می‌شود.

داده‌های پیش‌بینی فروش به‌عنوان یکی از ابزارهای اصلی در اختیار کسب‌وکارها برای بهینه‌سازی عملکرد و افزایش کارایی در شرایط مختلف بازار محسوب می‌شوند. با استفاده مناسب از این داده‌ها، می‌توان به کاهش هزینه‌ها و افزایش سودآوری پرداخت.

تجزیه‌وتحلیل داده های سری زمانی

تحلیل اکتشافی داده‌ها یا Exploratory Data Analysis (EDA) برای داده های سری زمانی فرایندی است که قبل از شروع به پیش‌بینی‌های آینده انجام‌دادن آن ضروری است. EDA بصری‌سازی داده‌ها و شناسایی روندها، فصلیت‌ها، نقاط پرت (Outliers) و مقدارهای گمشده (Missing values) را شامل می‌شود. استفاده از تکنیک‌هایی مانند نمودارهای خطی، نمودارهای پراکندگی، نمودارهای خودهم‌بستگی و تجزیه می‌تواند به کشف بینش‌های ارزشمند کمک کند و راهنمایی برای تحلیل‌های بیشتر فراهم آورد.

این فرایند به تحلیلگران امکان می‌دهد تا یک درک اولیه و عمیق از داده‌ها پیدا کنند و به تشخیص الگوهای موجود در داده‌ها بپردازند که ممکن است در نگاه اول چشمگیر نباشند؛ برای مثال، توسط نمودار خطی می‌توان تغییرات داده‌ها را در طول زمان مشاهده و فصلیت‌ها یا روندهای اصلی را شناسایی کرد. نمودارهای خودهم‌بستگی می‌توانند به ما نشان دهند که داده‌های فعلی تا چه حد تحت‌تأثیر مقادیر گذشته‌شان هستند که این اطلاعات در مدل‌سازی پیش‌بینی‌های آینده بسیار مفید است.

درنهایت، انجام‌دادن EDA قبل از پیاده‌سازی هر گونه مدل‌های پیچیده‌تر آماری یا ماشین یادگیری اطمینان می‌دهد که تحلیلگران از کیفیت و ساختار داده‌های خود آگاهی دارند و می‌توانند از این داده‌ها به‌بهترین شکل استفاده کنند.

پیشنهاد می‌کنیم درباره طرز مصورسازی مناسب داده ها هم مطالعه کنید.

 توسعه تکنیک‌های آماری برای داده های سری زمانی

در طول قرن بیستم، به‌ویژه پس از دهه ۱۹۲۰، توسعه تکنیک‌های آماری برای داده‌های زمانی شتاب گرفت. این پیشرفت‌ها به‌طور گسترده‌ای به تحلیل و پیش‌بینی داده‌های مرتبط با زمان کمک کرده است. در ادامه روش‌های موجود برای پیش‌بینی داده های سری زمانی را بررسی خواهیم کرد:

میانگین متحرک (Moving Average)

این روش برای صاف‌کردن نوسان‌های کوتاه‌مدت و برجسته‌سازی روندها یا چرخه‌های بلندمدت استفاده می‌شود. میانگین‌گیری از داده‌ها در یک پنجره زمانی ثابت انجام می‌شود تا داده‌های جدیدی براساس میانگین داده‌های قبلی تولید شود. این کار به کاهش تأثیر گذاری نوسانات تصادفی بر تحلیل کمک می‌کند.

خودرگرسیونی (Autoregressive) 

مدل‌های خودرگرسیونی از داده‌های گذشته و روابط خطی میان آن‌ها برای پیش‌بینی مقدارهای آینده استفاده می‌کنند. درجه مدل AR تعداد دوره‌های زمانی گذشته‌ای را نشان می‌دهد که برای پیش‌بینی استفاده می‌شود. مدل‌های AR بر این فرض بنا شده‌اند که مقدارهای آینده به‌طور مستقیم با مقدارهای گذشته مرتبط هستند.

میانگین متحرک خودرگرسیونی تلفیقی (ARIMA)

مدل‌های ARIMA که مخفف عبارت Autoregressive Integrated Moving Average است و ترکیبی از مدل‌های AR و MA است که با فرایند تفاضل‌گیری برای رسیدن به ایستایی داده‌ها کامل می‌شود. این مدل برای داده‌هایی که روندها یا فصلیت‌های غیرثابت دارند مناسب است. تفاضل‌گیری به حذف روندهای خطی یا فصلی کمک می‌کند تا مدل بهتر بتواند پیش‌بینی‌های دقیق‌تری ارائه کند.

ARIMA یکی از پرکاربردترین روش‌ها در تحلیل داده های سری زمانی است. ARIMA به‌ویژه برای داده‌های غیرفصلی مناسب است و می‌تواند تغییرات و نوسانات داده‌ها را به‌خوبی مدل کند.

هموارسازی نمایی (ExponentialSmoothing)

مدل‌های هموارسازی نمایی وزن‌های بیشتری را به داده‌های اخیر در مقایسه با داده‌های قدیمی‌تر اختصاص می‌دهند. این روش، به‌ویژه برای داده‌های دارای فصلیت پیچیده یا وقتی که رفتار داده‌ها به سرعت تغییر می‌کند، بسیار مؤثر است.

تکنیک‌های یادگیری ماشین

الگوریتم‌های پیشرفته یادگیری ماشین، مانند جنگل‌های تصادفی، گرادیان بوستینگ و حافظه کوتاه‌مدت بلند (LSTM)، می‌توانند برای پیش‌بینی‌های سری زمانی استفاده شوند. این روش‌ها می‌توانند الگوهای پیچیده‌تری در داده‌ها را شناسایی کنند که ممکن است برای مدل‌های سنتی‌تر تشخیص‌دادنی نباشند.

تحلیل فوریه

تحلیل فوریه یک روش ریاضی است که به تجزیه سیگنال‌ها به مولفه‌های سینوسی و کسینوسی می‌پردازد. این تکنیک در تحلیل داده‌های زمانی کاربرد دارد؛ زیرا می‌تواند الگوهای تکرارشونده در داده‌ها را شناسایی کند، مانند فصلی‌بودن در داده‌های آب‌وهوایی یا الگوهای ترافیکی.

این تکنیک‌های پیشرفته آماری به محققان و تحلیلگران امکان داده‌اند که با دقت و قدرت بیشتری داده های سری زمانی را تحلیل کرده و پیش‌بینی‌هایی از آینده ارائه کنند.

چالش‌های داده‌های سری زمانی

تحلیل سری زمانی با چالش‌های خاص خود همراه است. بیایید به‌صورت دقیق‌تر به هر یک از چالش‌های تحلیل سری زمانی نگاهی بیندازیم:

مقدارهای گمشده

در داده های سری زمانی ممکن است برخی از داده‌ها به‌دلیل‌های مختلفی وجود نداشته باشند، مانند خرابی دستگاه‌های اندازه‌گیری یا خطاهای انسانی. پرکردن این خلأها با روش‌هایی مانند تکنیک‌های پیش‌بینی یا استفاده از میانگین می‌تواند به حفظ یکپارچگی ساختار زمانی کمک کند.

نقاط پرت

نقاطی که به‌شدت از میانگین کلی داده‌ها منحرف هستند و می‌توانند نتیجه‌های تحلیل را به‌شدت تحت‌تأثیر قرار دهند. شناسایی و رسیدگی به این نقاط ضروری است تا از تحلیل‌های نادرست جلوگیری شود.

 غیرایستایی

داده‌های غیرایستا روندها و فصلیت‌هایی دارند که در طول زمان تغییر می‌کنند. برای تحلیل این نوع داده‌ها لازم است که داده‌ها به حالت ایستا تبدیل شوند، معمولاً ازطریق تفاضل‌گیری یا حذف روند تا الگوهای زمینه‌ای بهتر و دقیق‌تر شناسایی شوند.

بیش‌برازش

این مشکل زمانی رخ می‌دهد که یک مدل به داده‌های آموزشی خود بیش‌ازحد تطبیق پیدا کند و نتواند به‌خوبی روی داده‌های جدید عمل کند. برای جلوگیری از بیش‌برازش می‌توان از تکنیک‌هایی مانند صلیبی‌کردن تأیید (cross-validation) استفاده کرد.

افق پیش‌بینی

دقت پیش‌بینی‌ها با افزایش طول دوره پیش‌بینی کاهش می‌یابد. پیش‌بینی‌های کوتاه‌مدت معمولاً دقیق‌تر هستند؛ زیرا نبود قطعیت‌های کمتری در بازه‌های زمانی کوتاه وجود دارد. درحالی‌که پیش‌بینی‌های بلندمدت به‌دلیل وجود متغیرهای بیشتر که می‌توانند تأثیر بگذارند دشوارتر هستند.

در‌نظرگرفتن این چالش‌ها و انتخاب استراتژی‌های مناسب برای مقابله با آن‌ها برای انجام‌دادن تحلیل‌های قابل‌اعتماد و مؤثر داده های سری زمانی ضروری است.

تشخیص ناهنجاری در داده های سری زمانی

ناهنجاری به مقادیر یا رویدادهایی گفته می‌شود که به‌شکل قابل‌توجهی از روند عادی داده‌ها منحرف می‌شوند. برای تشخیص ناهنجاری‌ها نیاز است که مقادیر مشاهده‌شده در سری زمانی با مقادیر پیش‌بینی‌شده توسط مدل مقایسه شوند. اگر تفاوت میان این دو مقدار از یک آستانه مشخصی بیشتر باشد، می‌توان مقدار مشاهده‌شده را به‌عنوان ناهنجاری در نظر گرفت.

آستانه‌ای که برای تعریف ناهنجاری‌ها استفاده می‌شود به چندین عامل بستگی دارد، مانند سطح اطمینان (Confidence Level)، توزیع خطاها (Distribution of Errors)، فرکانس داده‌ها و غیره. به‌طور کلی، می‌توان از مفهوم بازه اطمینان برای تعیین آستانه استفاده کرد. بازه اطمینان بازه‌ای است که مقدار پیش‌بینی‌شده را با یک احتمال مشخص در بر می‌گیرد؛ برای مثال، بازه اطمینان ۹۵ درصد به‌این معناست که مقدار پیش‌بینی‌شده با احتمال ۹۵ درصد در آن بازه قرار دارد. اگر مقدار مشاهده‌شده خارج از بازه اطمینان باشد، می‌توان آن را به‌عنوان ناهنجاری در نظر گرفت.

هنگامی که ناهنجاری‌ها در یک سری زمانی شناسایی می‌شوند، باید سعی کنیم علت‌ها و معناهای آن‌ها را درک کنیم. برخی از ناهنجاری‌ها ممکن است به‌دلیل خطاهای اندازه‌گیری، انتقال یا پردازش داده‌ها باشند. این نوع ناهنجاری‌ها اغلب به‌عنوان نویز شناخته می‌شوند و می‌توان آن‌ها را نادیده گرفت یا اصلاح کرد. دیگر ناهنجاری‌ها ممکن است به‌دلیل تغییرات ساختاری، فعالیت‌های تقلبی، رویدادهای استثنایی یا دیگر عوامل تأثیرگذار بر داده‌ها باشند. این نوع ناهنجاری‌ها اغلب به‌عنوان سیگنال‌ها شناخته می‌شود و مهم است که شناسایی و تجزیه‌وتحلیل شوند.

برای درک علل و معانی ناهنجاری‌ها نیاز است که از دانش حوزه داده‌ها، یعنی زمینه‌ای که داده‌ها در آن تولید شده است و معنای متغیرها استفاده کنیم؛ علاوه‌براین نیاز به استفاده از منابع اطلاعاتی اضافی، مانند سری‌های زمانی مرتبط دیگر، داده‌های تاریخی، اخبار، گزارش‌ها و غیره است. این کار به ما کمک می‌کند تا نتیجه‌های تشخیص ناهنجاری را تفسیر و اقدامات احتمالی را شناسایی کنیم.

خلاصه مطلب درباره داده های سری زمانی

در این مطلب داده های سری زمانی به‌عنوان ابزاری قدرتمند برای تحلیل و پیش‌بینی در حوزه‌های مختلف معرفی شدند که می‌توانند تأثیر بزرگی بر تصمیم‌گیری‌های استراتژیک بگذارند. با درک اجزای کلیدی داده‌های سری زمانی نظیر روند، فصلیت و نوسان‌های تصادفی، می‌توان الگوها و تغییرات مهم در داده‌ها را شناسایی کرد که این امر به پیش‌بینی دقیق‌تر و موثرتر رویدادهای آینده کمک می‌کند.

در نهایت، تشخیص ناهنجاری‌ها در داده های سری زمانی اهمیت ویژه‌ای دارد؛ زیرا می‌تواند به شناسایی رویدادهای نادر یا خطاهای احتمالی کمک کند که بر تحلیل‌ها و تصمیم‌گیری‌های بعدی تأثیر می‌گذارد. استفاده از مدل‌های پیشرفته آماری و یادگیری ماشین، همچنین تکنیک‌های تحلیلی نوین مانند تحلیل فوریه و هموارسازی نمایی، می‌توانند در بهبود کیفیت و دقت تحلیل‌های انجام‌شده نقش بسزایی داشته باشند.

پرسش‌های متداول

داده های سری زمانی چیست؟

داده‌های سری زمانی مجموعه‌ای از نقاط داده هستند که در فاصله‌های زمانی معین و به‌ترتیب زمانی ثبت شده‌اند. این نوع داده‌ها برای تحلیل روندها، تغییرات فصلی و دیگر الگوهای زمان‌مند استفاده می‌شوند.

چرا داده های سری زمانی مهم هستند؟

داده‌های سری زمانی امکان تحلیل دقیق‌تر و پیش‌بینی رفتارهای آینده را فراهم می‌کنند که می‌تواند در تصمیم‌گیری‌های کلیدی در حوزه‌های مختلف ازجمله اقتصاد، مالی، آب‌وهوا و بهداشت بسیار حیاتی باشد.

مؤلفه‌های اصلی داده های سری زمانی کدام‌اند؟

مؤلفه‌های اصلی داده‌های سری زمانی شامل روند، فصلیت و باقی‌مانده‌ها هستند. روند نشان‌دهنده جهت کلی داده‌ها است، فصلیت الگوهای تکرارشونده در فاصله‌های زمانی مشخص را نشان می‌دهد و باقی‌مانده‌ها تغییرات تصادفی یا نویز موجود در داده‌ها را تشکیل می‌دهند.

چگونه می‌توان ناهنجاری‌ها را در داده های سری زمانی تشخیص داد؟

ناهنجاری‌ها را می‌توان با مقایسه داده‌های مشاهده‌شده با مقدارهای پیش‌بینی‌شده توسط مدل‌هایی مانند  ARIMA  تشخیص داد. اگر تفاوت میان این دو بیش از یک آستانه معین باشد، مقدار مشاهده شده‌ممکن است به‌عنوان ناهنجاری در نظر گرفته شود.

چه تکنیک‌هایی برای تحلیل داده های سری زمانی استفاده می‌شود؟

برخی از تکنیک‌های رایج شامل میانگین متحرک، خودرگرسیونی، ARIMA، هموارسازی نمایی و مدل‌های یادگیری ماشین مانند LSTM است. این تکنیک‌ها به تحلیلگران کمک می‌کنند تا داده‌ها را براساس الگوهای زمانی تجزیه‌وتحلیل و پیش‌بینی‌های دقیق‌تری ارائه کنند.

خروج از نسخه موبایل