چقدر زبان برنامه نویسی R را میشناسید؟ R یک زبان برنامهنویسی متنباز است که در انجامدادن تحلیلهای آماری بهشدت پرکاربرد است. زبان R را تیم اصلی توسعهی زبان R (R Development Core Team) توسعه میدهد و از آن نگهداری میکند. این زبان در بسیاری از پلتفرمها (Platform)، مانند لینوکس (Linux)، ویندوز (Windows) و macOS قابل استفاده است.
- 1. مقدمه
- 2. زبان R چیست؟
- 3. تاریخچه کوتاهی از زبان برنامه نویسی R
- 4. چرا زبان برنامه نویسی R؟
- 5. برخی از ویژگیهای زبان R که لازم است بدانیم
- 6. برخی از کاربردهای زبان R
- 7. کدام شرکتهای معروف دنیا از R استفاده میکنند؟
- 8. جمعبندی مطالب گفتهشده درباره زبان R
- 9. یادگیری دیتا ساینس با پایتون در کلاسهای آنلاین آموزش علم داده کافهتدریس
مقدمه
در دنیای امروزی علم داده یا دیتا ساینس (Data Science) طوری در زندگی روزمره و صنعت ما انسانها جای گرفته است که نمیتوان آن را انکار کرد. نهتنها محققانی که با دادهها و تجزیهوتحلیل آنها سروکار دارند، انسانهای عادی نیز از مزیت وجود این علم بهرهمند شدهاند. در علم داده یا دیتا ساینس زبانهای برنامهنویسی زیادی استفاده میشود که بیشک یکی از آنها زبان R است. اگر مطالعهای در حوزه علم داده (Data Science) و هوش مصنوعی (AI) بکنید، قطعاً به زبان R برمیخورید. در این مطلب قصد داریم این زبان را معرفی کنیم، ویژگیهای خاص آن را بررسی کنیم، با مزایا و معایب آن آشنا شویم و درنهایت به برخی از کاربردهای این زبان نگاهی بیندازیم.
زبان R چیست؟
R یک زبان برنامهنویسی تفسیری (Interpreted) متنباز (Open-source) است که در پلتفرمهایی مانند Windows، Linux، macOS استفاده میشود؛ R همچنین بهعنوان یک محیط نرمافزاری برای تحلیل اطلاعات آماری، نمایش گرافیکی داده، گزارشدهی و مدلکردن داده استفاده میشود.
زبان R، نهتنها امکان انشعاب (Branching) و حلقهگذاری (Looping)، امکان برنامهنویسی ماژولار (Modular Programming) را با استفاده از توابع به توسعهدهنگان میدهد؛ علاوهبراین زبان R امکان ادغام با کدهای نوشتهشده به زبانهای C، C++، .Net و Python را دارد؛ این موضوع به کارایی این زبان کمک بسیار زیادی میکند.
میتوان گفت در حال حاضر R یکی از مهمترین ابزاری است که محققان، تحلیلگران داده، آمارشناسان و بازاریابان برای بازیابی، تجزیهوتحلیل، تجسم (Visualizing) و نمایش (Presenting) دادهها استفاده میکنند. از آنجا که R از نظر نحوی (Syntax) به دیگر زبانهای پرکاربرد دنیا شباهت زیادی دارد، کدینگ (Coding) و یادگیری آن آسان است. برنامههای (Program) زبان R را میتوان در هر IDE پرکاربردی، مانند R Studio، Rattle، Tinn-R و غیره، نوشت.
تاریخچه کوتاهی از زبان برنامه نویسی R
تاریخچهی زبان R به حدود ۲۰ تا ۳۰ سال قبل بازمیگردد. این زبان را Ross lhaka و Robert Gentleman در دانشگاه Auckland در نیوزلند خلق کردند. نام این زبان هم از حرف اول اسم کوچک دو خالق آن برگرفته شده است. اولین پروژه R در سال ۱۹۹۲ بود و نسخه اولیه آن در سال ۱۹۹۵ منتشر شد. نهایتاً در سال ۲۰۰۰ نسخهی پایدار بتا (Stable beta version) انتشار یافت. در حال حاضر زبان R را تیم اصلی توسعهی زبان R (R Development Core Team) توسعه میدهد که انجمنی است متشکل از تعدادی توسعهدهنده که Ross lhaka و Robert Gentleman ایجاد کردهاند.
حال که با تاریخچهی زبان R آشنا شدیم، در بخش بعد خواهیم دید که چرا توسعهدهندگان به این زبان توجه میکنند.
چرا زبان برنامه نویسی R؟
بیایید با هم برخی از دلایل انتخاب زبان R ازسوی توسعهدهندگان را بررسی کنیم:
- زبان برنامه نویسی R بهعنوان ابزاری پیشرو برای یادگیری ماشین (Machine Learning)، آمار (Statistics) و تجزیهوتحلیل دادهها (Data Analytics) استفاده میشود. R بهراحتی اشیا (Objects)، توابع (Functions) و بستهها (Packages) را توسعه میدهد.
- R یک زبان مستقل از پلتفرم (Platform-independent) است؛ یعنی میتواند در همه سیستمعاملها استفاده شود.
- R یک زبان رایگان متنباز (Open-source) است و هر کسی میتواند آن را در هر سازمانی بدون خرید مجوز (License) نصب کند.
- زبان برنامه نویسی R، نهتنها یک بسته آماری (Statistical Package) است، امکان ادغام با زبانهای دیگر مانند C و ++C را دارد؛ بنابراین، بهراحتی میتوانیم با بسیاری از منابع داده (Data Sources) و بستههای آماری (Statistical Packages) ارتباط برقرار کنیم.
- زبان برنامه نویسی R انجمن گستردهای از کاربران دارد و روزبهروز در حال رشد است.
- R در حال حاضر یکی از پرطرفدارترین زبانهای برنامهنویسی در حوزه علم داده یا دیتا ساینس (Data Science) است.
برخی از ویژگیهای زبان R که لازم است بدانیم
ویژگیهای آماری R از این قرار است:
- آمار پایه (Basic Statistics): متداولترین اصطلاحات آماری پایه عبارتاند از میانگین (Mean)، حالت (Mode) و میانه (Median). اینها همه با عنوان شاخصهای گرایش مرکزی (Measures of Central Tendency) شناخته میشوند؛ بنابراین با استفاده از زبان R میتوانیم گرایش مرکزی را خیلی راحت اندازهگیری کنیم.
- گرافیک استاتیک (Static Graphic): R امکانات متعددی برای ایجاد و توسعهی گرافیکهای استاتیک (Static Graphics) دارد. این زبان انواع متنوعی از نمودارها (Plot)، مانند نقشههای گرافیکی (Graphic Maps)، نمودارهای موزاییکی (Mosaic Plots)، نمودارهای دودویی (Biplots)، را شامل است.
- توزیع احتمال (Probability distributions): توزیع احتمال (Probability distributions) نقش مهمی در آمار دارد. با استفاده از R میتوانیم بهراحتی انواع مختلفی از توزیع احتمال (Probability distributions، مانند توزیع دوجملهای (Binomial Distribution)، توزیع نرمال (Normal Distribution)، توزیع مربع کای (Chi-squared Distribution) و بسیاری دیگر، را داشته باشیم.
ویژگیهای زبان برنامه نویسی R
- بستههای R (R Packages): یکی از ویژگیهای اصلی R این است که امکان دسترسی به کتابخانههای متعددی را به ما میدهد. R دارای CRAN (شبکهی جامع آرشیو R/ Comprehensive R Archive Network) است که مخزنی است که بیش از دههزار بسته (Package) را در خود جای داده است.
- رایانش توزیعشده (Distributed Computing): رایانش توزیعشده (Distributed Computing) مدلی است که در آن اجزای یک سیستم نرمافزاری برای بهبود کارایی و عملکرد در میان چندین کامپیوتر به اشتراک گذاشته میشوند. زبان R امکان رایانش توزیعشده (Distributed Computing) را از طریق بستههایی (Package)، مانند دو بستهی (Package) جدید ddR و multidplyr که در نوامبر ۲۰۱۵ منتشر شدند، به کاربران میدهد.
در بخش قبلی دربارهی ویژگیهای اصلی آماری و برنامهنویسی R صحبت کردیم؛ در بخش بعد با برخی از مزایا و معایب این زبان آشنا خواهیم شد.
مزایای زبان R
- زبان برنامه نویسی R جامعترین بسته (Package) تحلیل آماری است؛ زیرا بهطور معمول فناوری و مفاهیم جدید اغلب اولین بار در R ظاهر میشوند.
- از آنجا که زبان برنامه نویسی R یک زبان متنباز (Open-source) است، میتوانیم R را در هر مکان و هر زمانی اجرا کنیم.
- R کراس پلتفرم (Cross-platform) است که روی هر سیستمعاملی اجرا میشود. زبان برنامه نویسی R برای سیستمعاملهای GNU / لینوکس (Linux) ویندوز (Windows) و macOS مناسب است.
در R همهی افراد میتوانند بستههای جدید ارائه کنند، رفع اشکال کنند و برای بهبود کد راهکار ارائه دهند.
معایب زبان R
- در زبان برنامه نویسی R استاندارد برخی از بستهها (Package) پایین است.
- R در مدیریت حافظه (Memory Management) خیلی خوب عمل نمیکند و ممکن است تمامی حافظه موجود را مصرف کند.
- توابع و برنامهها در R در بستههای (Package) مختلفی قرار دارند و این امر سرعت برنامهنویسی، در مقایسه با زبانهایی مانند پایتون (Python) یا متلب (MATLAB)، را بهشدت کندتر میکند.
- در R هیچ تیمی مخصوص پاسخ به مشکلات و سؤالات اختصاص داده نشده است و فقط کاربران در انجمن میتوانند از کمک هم استفاده کنند.
برخی از کاربردهای زبان R
زبان R در حوزههای مختلفی کاربرد دارد که در این بخش با تعدادی از آنها آشنا خواهیم شد.
حوزه مالی (Finance)
علم داده یا دیتا ساینس (Data Science) در صنعت مالی بسیار کاربرد دارد و R محبوبترین ابزار برای این کار است؛ اما چرا؟ چون R مجموعهای از ابزارهای آماری پیشرفتهای را ارائه میکند که قادر به انجامدادن همهی وظایف موردنیاز در حوزهی مالی هستند.
با کمک R مؤسسات مالی میتوانند ریسکهای پیشرو را اندازهگیری کنند و از نمودارهایی مانند نمودارهای شمعدانی (candlestick charts)، نمودارهای تراکم (Density Plots)، نمودارهای برداشت (Drawdown Plots) و غیره استفاده کنند.
صنایع مالی همچنین از روندهای آماری سری زمانی R (Time-series statistical processes of R) برای مدلکردن بازار سهام خود و پیشبینی قیمت سهام بهره میگیرند؛ همچنین R ازطریق بستههای خود، مانند quantmod، pdfetch، TFX، pwt و غیره، امکاناتی برای استخراج دادههای مالی فراهم میکند.
مراقبتهای درمانی (Healthcare)
ژنتیک (Genetics)، بیوانفورماتیک (Bioinformatics)، کشف دارو (Drug Discovery)، همهگیرشناسی (Epidemiology) برخی از حوزههای مراقبتهای درمانی هستند که از R استفاده میکنند. با کمک R این شرکتها قادر به تجزیهوتحلیل و پردازش دادهها خواهند بود.
تجزیهوتحلیل احساسات (Sentiment Analysis) و دیگر شکلهای دادهکاوی رسانههای اجتماعی (social media data mining) برخی از ابزارهای آماری مهمی هستند که از R استفاده میکنند.
شبکههای اجتماعی (Social Media) یک حوزه چالشبرانگیز برای علم داده یا دیتا ساینس (Data Science) محسوب میشود؛ زیرا دادههای موجود در شبکههای اجتماعی اکثراً بدون ساختار مشخصی هستند. R برای تجزیهوتحلیل شبکههای اجتماعی (Social Media)، تقسیمبندی مشتریان بالقوه و هدفقراردادن آنان برای فروش محصولات استفاده میشود.
علاوهبراین، استخراج احساسات کاربر یکی دیگر از موضوعهای محبوب در تجزیهوتحلیل شبکههای اجتماعی است. با کمک R شرکتها قادر به مدلسازی ابزارهای آماری هستند که احساسات کاربران را تجزیهوتحلیل میکند و به آنان امکان میدهد تجربههای خود را بهبود بخشند.
تجارت الکترونیک (E-commerce)
صنعت تجارت الکترونیکی یکی از مهمترین بخشهایی است که از علم داده یا دیتا ساینس (Data Science) استفاده میکند و R یکی از ابزارهای استانداردی است که در تجارت الکترونیکی استفاده میشود. این شرکتها مجبورند با اشکال مختلف داده، ساختاریافته و غیرساختاریافته، سروکار داشته باشند و R نشان داده است که در این حوزه میتواند نقش مؤثری داشته باشد.
برای مثال، شرکتهای تجارت الکترونیکی از R برای تجزیهوتحلیل محصولات فروش متقابل (Cross-selling) به مشتریان خود استفاده میکنند. در فروش متقابل (Cross-selling) محصولات اضافی را به مشتری پیشنهاد میکنیم که مکمل خرید اصلی آنان است. این نوع پیشنهادها و توصیهها با کمک R تحلیل میشوند.
حال که با برخی از حوزههایی که R در آنها کاربرد دارد آشنا شدیم، بهتر است به تعدادی از شرکتهای بزرگ دنیا که از این زبان استفاده میکنند نگاهی بیندازیم.
کدام شرکتهای معروف دنیا از R استفاده میکنند؟
در بخش قصد داریم با تعدادی از شرکتهای بزرگ دنیا که زبان برنامه نویسی R را به کار بردهاند آشنا شویم.
- فیسبوک (Facebook) از R برای بهروزرسانی وضعیت (Status) و نمودار شبکه اجتماعی خود استفاده میکند.
- گوگل (Google) از R برای محاسبه میزان بازگشت سرمایه (ROI) در کمپینهای تبلیغاتی و پیشبینی فعالیت اقتصادی و همچنین بهبود کارایی تبلیغات آنلاین استفاده میکند.
- مایکروسافت (Microsoft) از R برای سرویس اتصال کاربران (Matchmaking service) استفاده میکند. با استفاده از این سرویس بازیکنان، براساس اطلاعاتشان، در یک گروه قرار میگیرند تا با هم بازی کنند؛ علاوهبراین، مایکروسافت (Microsoft) از R بهعنوان یک ابزار آماری در فریمورک یادگیری ماشین Azure (Azure ML Framework) استفاده میکند.
- R بخشی از جعبهابزار علم داده توییتر (Twitter’s Data Science toolbox) برای مدلسازیهای آماری پیچیده است.
پیشنهاد میکنیم با زبان برنامه نویسی پایتون آشنا شوید.
جمعبندی مطالب گفتهشده درباره زبان R
در این مطلب زبان برنامه نویسی R را معرفی کردیم، تاریخچهی کوتاهی از آن را بررسی کردیم و با ویژگیهای خاص و مزایا و معایب آن آشنا شدیم. دیدیم که این زبان کاربردهای متعددی را در حوزههای مختلف دارد و حتی بسیاری از شرکتهای بزرگ دنیا از آن استفاده میکنند. بهطور خلاصه میتوان گفت که R ابزاری عالی برای کاوش و تجزیهوتحلیل دادههاست و بهدلیل نحو سادهای که دارد، میتواند گزینه خوبی برای تازهواردان دنیای علم داده یا دیتا ساینس باشد.
یادگیری دیتا ساینس با پایتون در کلاسهای آنلاین آموزش علم داده کافهتدریس
اگر به یادگیری علم داده یا دیتا ساینس علاقهمندید، کلاسهای آنلاین آموزش علم داده کافهتدریس به شما کمک میکند تا از هر نقطهی جغرافیایی به جامعترین و بهروزترین آموزش دیتا ساینس دسترسی داشته باشید. ازجمله سرفصلهای آموزشی دورههای علم داده کافهتدریس آموزش زبان برنامهنویسی پایتون است.
کلاسهای آنلاین آموزش علم داده کافهتدریس در دورههای مقدماتی و پیشرفته برگزار میشود و در آنها آموزش زبان برنامهنویسی پایتون هم وجود دارد. علاوه بر آن، کافهتدریس در قالب دورهای تکمیلی دورهی تخصصی آموزش زبان برنامهنویسی پایتون برای علم داده نیز برگزار میکند.
برای آشنایی با کلاسهای آنلاین آموزش علم داده کافهتدریس و همینطور کلاس آنلاین زبان برنامهنویسی پایتون برای علم داده و همچنین مشاورهی رایگان برای شروع یادگیری روی این لینک کلیک کنید: