علم داده (Data Science) - PDF

Summary

این یک ارائه در مورد مبحث علم داده است که به بررسی انواع داده ها و کاربردهای آن می پردازد. این فایل دارای مطالبی در مورد چرخه حیات علم داده و مقایسه علم داده با تجزیه و تحلیل داده است. همچنین، انواع مختلفی از داده ها، از جمله داده های دنباله ای، سری زمانی، میان بخشی و پنل مورد بررسی قرار گرفته اند.

Full Transcript

In The Name Of God DATA SCIENCE ‫علم داده‬ MORTEZA TAHERI 1 ‫منابع‬ ‫‪❖ Python Data Science Handbook, by Jake VanderPlas‬‬ ‫‪❖Introduction to Data Science ,by Laura Igual and Santi Seguí‬‬ ‫‪❖Other reference‬‬ ‫✓ یاد...

In The Name Of God DATA SCIENCE ‫علم داده‬ MORTEZA TAHERI 1 ‫منابع‬ ‫‪❖ Python Data Science Handbook, by Jake VanderPlas‬‬ ‫‪❖Introduction to Data Science ,by Laura Igual and Santi Seguí‬‬ ‫‪❖Other reference‬‬ ‫✓ یادگیری ماشین و علم داده‪ :‬مبانی‪ ،‬مفاهیم‪ ،‬الگوریتمها و ابزارها‪ ،‬تالیف و گرد آوری‪ :‬میالد وزان‬ ‫✓ اصول و مبانی علوم داده ای با پایتون نویسندگان ‪ :‬آلبرتو بوشتی ‪ ,‬لوکا ماسارون‬ ‫مترجمان ‪ :‬دکتر یعقوب فرجامی ‪ ,‬مهندس محمد معین فاضلی‬ ‫✓ داده کاوی و انباره داده ها‪ ،‬دانشکده مهندسی صنایع‪ ،‬دانشگاه علم و صنعت ایران دکتر مهدی غضنفری‪ ،‬حسام غیاثی‬ ‫‪MORTEZA TAHERI‬‬ ‫‪2‬‬ ‫ارزیابی‬ ‫‪ 8‬تا ‪ 10‬نمره‬ ‫✓ پایانترم‬ ‫‪ 4‬تا ‪ 6‬نمره‬ ‫✓ تمرینات ‪ ،‬تکالیف کالسی و کوئیز‬ ‫‪ 6‬نمره‬ ‫✓ پروژه ها‬ ‫‪MORTEZA TAHERI‬‬ ‫‪3‬‬ ‫مقدمه‬ ‫ در قرن گذشته نفت به عنوان طالی سیاه در نظر گرفته شد و با انقالب صنعتی و ظهور‬ ‫صنعت خودرو‪ ،‬نفت منبع محرک اصلی تمدن بشر شد‪.‬‬ ‫ در قرن بیست ویکم‪ ،‬نیروی محرک جدید که همان داده ها هستند بر صنایع تاثیر‬ ‫گذاشته است‪.‬‬ ‫ امروزه علم داده را میتوان نیروی برقی دانست که به صنایع قدرت می دهد و انقالب‬ ‫عظیمی را تقریبا در تمام صنایع به ارمغان آورده است‪.‬‬ ‫ با ظهور فن آوریهای یادگیری ماشین و یادگیری عمیق‪ ،‬پیش بینی و دسته بندیِ‬ ‫هوشمندانه داده ها امکان پذیر شده است‪.‬‬ ‫ کالن داده و علم داده کلید آینده هستند‬ ‫‪MORTEZA TAHERI‬‬ ‫‪4‬‬ ‫تکامل علم از منظر داده‬ ‫❑ قبل از ‪– 1600‬‬ ‫علوم به صورت تجربی وجود داشتند و داده ها از طریق آزمون و خطا به دست می آمد‪.‬‬ ‫❑ از ‪ 1600‬تا ‪– 1950‬‬ ‫شاخه های مختلف علم شکل گرفت و در درون هر شاخه نظریات علمی مختلفی به وجود آمد‪.‬‬ ‫داده های تجربی‪ ،‬مدل های نظری و تئوری ها را شکل دادند‪.‬‬ ‫❑ از ‪ 1950‬تا ‪– 1990‬‬ ‫با ظهور و گسترش کامپیوترها‪ ،‬همه علوم شکل سومی پیدا کردند که از آن به نام علوم‬ ‫محاسباتی یاد می شود‪.‬بیشتر این علوم از کامپیوتر برای تقریب مدل های ریاضی و شبیه‬ ‫سازی استفاده می کردند‪.‬‬ ‫❑ از ‪ 1990‬تا زمان حال –‬ ‫حجم بسیار زیاد اطال عات تولید شده توسط ابزار آالت و شبیه سازی های علمی و ذخیره‬ ‫سازی این داده ها موجب ظهور جنبه جدیدی از علم به نام علم داده شده است‪.‬‬ ‫‪MORTEZA TAHERI‬‬ ‫‪5‬‬ ‫‪Definition of Data Science‬‬ ‫تعریف علم داده‬ ‫علم داده زمینه ی تحقیقاتی است که با ترکیبی از ابزارهای مختلف‪،‬‬ ‫الگوریتم ها‪ ،‬اصول یادگیری ماشین‪ ،‬متن کاوی‪ ،‬ریاضیات و آمار به کشف‬ ‫الگوهای پنهان از داده های خام می پردازد‪.‬‬ ‫‪MORTEZA TAHERI‬‬ ‫‪6‬‬ ‫‪Definition of Big Data‬‬ ‫تعریف کالن داده‬ ‫کالن داده به مجموعه داده های ساختاریافته پیچیده و بدون ساختار با حجم‬ ‫باال اشاره دارد که به سرعت تولید و از انواع مختلفی از منابع بدست آمده و‬ ‫سبب افزایش بینش و تصمیم گیری می شوند‪.‬‬ ‫تفاوت اساسی بین کالن داده و علم داده‬ ‫علم داده همانند کتابی است که در آن شما می توان یک راه حل برای مشکالت خود پیدا کنید‪.‬از سوی‬ ‫دیگر‪ ،‬کالن داده را میتوان به عنوان یک کتابخانه بزرگ در نظر گرفت که در آن تمام پاسخ های سواالت‬ ‫در آنجا هستند‪ ،‬اما یافتن پاسخ به سواالت شما دشوار است‪.‬‬ ‫‪MORTEZA TAHERI‬‬ ‫‪7‬‬ Data Analysis ‫تجزیه و تحلیل داده‬ MORTEZA TAHERI 8 Data Analysis vs Data Science ‫علم داده در مقابل تجزیه و تحلیل داده‬ MORTEZA TAHERI 9 ‫چرخه دوام علم داده‬ ‫‪Life cycle of data science‬‬ ‫✓ مرحله اول‪ :‬جمع آوری داده ها‬ ‫✓ مرحله دوم‪ :‬تمیز سازی دادهها‬ ‫✓ مرحله سوم‪ :‬کاوش دادهها‬ ‫‪MORTEZA TAHERI‬‬ ‫‪10‬‬ ‫‪Life cycle of data science‬‬ ‫چرخه دوام علم داده‬ ‫✓ ▪ مرحله چهارم‪ :‬مدلسازی دادهها‬ ‫✓ ▪ مرحله پنجم‪ :‬تفسیر دادهها‬ ‫‪MORTEZA TAHERI‬‬ ‫‪11‬‬ Data Scientist vs Data Engineering ‫دانشمند داده در مقابل مهندس داده‬ MORTEZA TAHERI 12 ‫حوزه ها و مهارت ها ی اساسی مطالعه در علم داده‬ )Machine Learning ( ‫ یادگیری ماشین‬ )Deep Learning ( ‫ یادگیری عمیق‬ )Mathematics( ‫ ریاضیات‬ )Stochastics and Probabilities( ‫ آمار و احتماالت‬ ) NLP ‫ یا‬Natural Language Processing( ‫ پردازش زبان طبیعی‬ )Data Visualization( ‫ مصورسازی داده ها‬ )Programming( ‫ زبان برنامه نویسی‬ )Algorithm( ‫ الگوریتم‬ MORTEZA TAHERI 13 )Application of Data Science(‫کاربرد علم داده‬ )Transportation( ‫✓ حمل و نقل‬ )Risk and Fraud Detection( ‫✓تشخیص رسیک و کاله برداری‬ )Genetics and Genomics( ‫✓ژنتیک و ژنومیکس‬ )Drug Development( ‫✓توسعه دارو‬ MORTEZA TAHERI 14 MORTEZA TAHERI 15 MORTEZA TAHERI 16 MORTEZA TAHERI 17 MORTEZA TAHERI 18 MORTEZA TAHERI 19 MORTEZA TAHERI 20 MORTEZA TAHERI 21 MORTEZA TAHERI 22