فصل دوم - شناخت داده PDF

Summary

این سند فصل دوم از یک کتاب یا جزوه در مورد شناخت داده ها است. این فصل به انواع صفات خاصه (مانند صفات اسمی و دودویی) و آمار توصیفی می پردازد.

Full Transcript

‫شناخت داده ها‬ ‫فصل دوم‬ ‫دانستن اطالعات آماری در مورد مقادیر صفات خاصه کار مارا در بسیاری از فرایندها مانند تشخیص داده‬ ‫های پرت و نویز و پر کردن مقادیر ناموجود در حین پردازش داده ها آسان تر می کند‪.‬همچنین با کمک‬ ‫این اطالعات می توان ناسازگاری های به وجود آمده در یکپارچه سازی...

‫شناخت داده ها‬ ‫فصل دوم‬ ‫دانستن اطالعات آماری در مورد مقادیر صفات خاصه کار مارا در بسیاری از فرایندها مانند تشخیص داده‬ ‫های پرت و نویز و پر کردن مقادیر ناموجود در حین پردازش داده ها آسان تر می کند‪.‬همچنین با کمک‬ ‫این اطالعات می توان ناسازگاری های به وجود آمده در یکپارچه سازی داده ها را برطرف کرد‪.‬رسم‬ ‫شاخص های مرکزی به ما نشان می دهد که داده ها متقارن هستند و یا اریب‪.‬نمودارها و نمایش های‬ ‫گرافیکی مانند هیستوگرام ها و نمودارهای پراکندگی وجود دارند که می توان در حین پردازش داده ها از‬ ‫آنها استفاده کرد‪.‬‬ ‫‪ -1-2‬نمونه ها و انواع صفات خاصه‬ ‫نمونه ها مجموعه داده ها را تشکیل می دهند‪.‬یک موجودیت توسط یک نمونه داده نمایش داده می شود‪.‬‬ ‫در یک پایگاه داده فروش‪ ،‬نمونه ها می توانند مشتریان‪ ،‬کاالها و فروش باشند‪.‬در یک پایگاه داده پزشکی‬ ‫بیماران و در یک پایگاه داده دانشگاه دانشجویان‪ ،‬اساتید و دروس نمونه ها را نشکیل می دهند‪.‬نمونه ها‬ ‫معموال به کمک صفات خاصه توصیف می شوند‪.‬‬ ‫‪ -1-1-2‬یک صفت خاصه چیست؟‬ ‫یک صفت خاصه فیلدی از داده هاست که یک خصوصیت یا ویژگی از یک نمونه را نشان می دهد‪.‬اغلب در منابع مختلف‬ ‫واژه های صفت خاصه ‪ ،‬بعد ‪ ،‬ویژگی و متغیر به جای یکدیگر استفاده می شوند‪.‬در انباره داده ها معموال از واژه بعد استفاده‬ ‫می شود در منابع مربوط به یادگیری ماشین از واژه ویژگی و در آمار ترجیح می دهند که از واژه متغیر استفاده کنند‪.‬‬ ‫متخصصین حوزه داده کاوی و پایگاه داده ها معموال از واژه صفت خاصه استفاده می کنند‪.‬‬ ‫صفت خاصه ای که یک مشتری را توصیف می کند برای مثال می تواند شناسه مشتری‪ ،‬نام و آدرس او باشد‪.‬مقادیر موجود‬ ‫برای یک صفت خاصه به عنوان مشاهدات شناخته می شوند‪.‬‬ ‫مجموعه صفات خاصه ای که برای توصیف یک نمونه استفاده می شود به عنوان بردار صفت خاصه یا بردار ویژگی نامیده می‬ ‫شود‪.‬‬ ‫داده هایی که در آن از یک صفت خاصه استفاده شده است را تک متغیره و اگر از دو صفت خاصه استفاده شده باشد آن را‬ ‫دو متغیره می نامند‪.‬‬ ‫نوع یک صفت خاصه با توجه به مقادیری که ممکن است صفت خاصه داشته باشد تعیین می شود‪.‬‬ ‫‪ -2-1-2‬صفات خاصه اسمی‬ ‫معنی واژه اسمی مرتبط با اسامی است‪.‬مقادیر صفات خاصه اسمی را نمادها یا اسامی اشیا تشکیل می دهند‪.‬هر مقدار به‬ ‫برخی از انواع طبقه ‪ ،‬کد یا حالت اشاره می کند و به دلیل صفات خاصه اسمی با نام صفات خاصه طبقه بندی شده یا طبقه‬ ‫ای نیز شناخته می شوند‪.‬هیچگونه ترتیب معنایی در مقادیر یافت نمی شود‪.‬در علم کامپیوتر این مقادیر با واژه شمارشی‬ ‫نیز شناخته می شوند‪.‬‬ ‫مثال صفت خاصه اسمی‪:‬‬ ‫رنگ مو و وضعیت تاهل دو صفت خاصه اسمی هستند‪.‬مقادیری مانند سیاه‪ ،‬سفید‪ ،‬قهوه ای وبلوند از مقادیر ممکن برای‬ ‫رنگ مو محسوب می شوند و مقادیری مانند مجرد‪ ،‬متاهل‪ ،‬طالق گرفته و بیوه نیز می توانند مقادیر مجاز برای صفت خاصه‬ ‫وضعیت تاهل باشند‪.‬‬ ‫اگر چه مقادیر صفات خاصه اسمی را نمادها و یا اسامی تشکیل می دهند اما نمایش این نمادها و اسامی با اعداد نیز امکان‬ ‫پذیر است‪.‬برای مثال برای رنگ مو می توان از کد صفر برای سیاه‪ ،‬کد یک برای قهوه ای و ‪...‬استفاده کرد‪.‬البته باید توجه‬ ‫داشته باشید که روی این اعداد نمی توان عملیات ریاضی انجام داد‪.‬‬ ‫به دلیل اینکه هیچگونه ترتیبی میان مقادیر صفات خاصه اسمی نمی توان پیدا کرد و این صفات خاصه کمی نیستند یافتن‬ ‫مقادیر میانگین یا میانه برای چنین صفات خاصه ای بی معنی است‪.‬شاید مقداری که بیش از همه تکرار شده باشد برای‬ ‫کاربر جالب باشد که این مقدار با نام مد شناخته می شود که یکی از شاخص های مرکزی است‪.‬‬ ‫‪ -3-1-2‬صفات خاصه دودویی‬ ‫یک صفت خاصه دودویی یک صفت خاصه اسمی است با تنها دو طبقه یا دو حالت صفر و یک که در آن صفر داللت بر عدم‬ ‫حضور صفت خاصه و یک داللت بر حضور آن دارد‪.‬چنانچه دو حالت با درست یا نادرست شناخته شوند‪ ،‬به آن صفت خاصه‬ ‫بولین نیز می گویند‪.‬‬ ‫مثال صفت خاصه دودویی‪:‬‬ ‫با کمک صفت خاصه دودویی می توانیم سیگاری بودن یا نبودن یک بیمار را توصیف کنیم‪.‬همچنین نتیجه آزمایش پزشکی‬ ‫یک بیمار نیز می تواند با یک صفت خاصه دودویی بیان شود‬ ‫چنانچه دو مقدار و حالت صفت خاصه دودویی دارای ارزش و وزن یکسانی باشند صفت خاصه دودویی متقارن است و برای‬ ‫کدگذاری صفر یا یک اولویت و انتخابی وجود ندارد‪.‬صفت خاصه جنسیت که دارای مقادیری مانند زن یا مرد است نمونه ای‬ ‫از یک صفت خاصه دودویی متقارن است‪.‬‬ ‫چنانچه مقادیر و حالت های یک صفت خاصه دودویی از اهمیت متفاوت برخوردار باشد شما دارای یک صفت خاصه دودویی‬ ‫نامتقارن هستید‪.‬مثل نتایج مثبت و منفی برای یک آزمایش ایدز‪.‬‬ ‫‪ -4-1-2‬صفات خاصه ترتیبی‬ ‫مقادیر ممکن برای یک صفت خاصه ترتیبی دارای یک ترتیب معنایی یا رتبه بندی هستند‪ ،‬اما اندازه و مقدار‬ ‫میان این دو مقدار متوالی شناخته شده نیست‪.‬‬ ‫مثال صفت خاصه ترتیبی‪:‬‬ ‫در یک رستوران اندازه نوشیدنی ها با یک صفت خاصه ترتیبی که دارای سه مقدار کوچک‪ ،‬متوسط و بزرگ‬ ‫است‪ ،‬بیان می شود‪.‬این مقادیر دارای ترتیب معناداری هستند اما با کمک این مقادیر نمی توان مقدار بزرگی‬ ‫میان آنها را بیان کرد‪.‬از نمونه مثال های دیگر می توان به رتبه بندی اساتید دانشگاه (استادیار ‪ ،‬دانشیار و‬ ‫استاد) و همچنین درجه های نظامی اشاره کرد‪.‬‬ ‫با گسسته سازی مقادیر عددی و شکستن این مقادیر به بازه های متفاوت نیز می توان صفات خاصه ترتیبی‬ ‫ایجاد نمود‪.‬در این روش اعداد در طبقات مرتب شده ای قرار می گیرند‪.‬‬ ‫شاخص مرکزی یک صفت خاصه ترتیبی می تواند با محاسبه مد و میانه (مقدار میانی در یک توالی مرتب شده )‬ ‫بیان شوند‪.‬اما میانگین را برای این صفات نمی توان به کار برد‪.‬‬ ‫نکته ‪ :‬صفات خاصه اسمی‪ ،‬دودویی و ترتیبی جز صفات خاصه کیفی محسوب می شوند‪.‬‬ ‫‪ -5-1-2‬صفات خاصه عددی‬ ‫یک صفت خاصه عددی یک متغیر کمی قابل اندازه گیری است که با مقادیر صحیح یا اعشاری نمایش داده می شوند‪.‬این‬ ‫صفت خاصه را می توان در دو گونه مقیاس بازه ای یا مقیاس نسبتی گروه بندی کرد‪.‬‬ ‫صفات خاصه مقیاس بازه ای‪:‬‬ ‫این نوع صفت خاصه با مقیاسی در واحدهایی با اندازه های مساوی اندازه گیری می شود‪.‬مقادیر این صفت خاصه دارای‬ ‫ترتیب مثبت یا منفی هستند‪.‬در مجموع با مرتب کردن مقادیر این صفت خاصه می توان به مقایسه و محاسبه تفاوت میان‬ ‫این مقادیر پرداخت‪.‬‬ ‫مثال صفت خاصه مقیاس بازه ای‪:‬‬ ‫دما یک مثال از اینگونه صفت خاصه است‪.‬فرض کنید وقدار دمای روزهای مختلف را اندازه گیری کرده اید‪.‬با مرتب سازی‬ ‫این مقادیر می توانید به مقایسه دما در روزهای مختلف بپردازید‪.‬همچنین می توانید اختالف دمای دو روز را نیز محاسبه‬ ‫کنید‪.‬برای مثال دمای ‪ ،20‬پنج درجه باالتر از ‪ 15‬است‪.‬صفت خاصه دما در واحد سانتی گراد دارای صفر درستی نیست به‬ ‫همین دلیل نمی توان گفت که مقدار یک دما چند برابر دمای دیگر است‪.‬یعنی نمی توان گفت که دمای ‪ 10‬درجه دو برابر‬ ‫گرمتر از دمای ‪ 5‬درجه است‪.‬‬ ‫صفات خاصه مقیاس نسبتی‪:‬‬ ‫این صفات ‪ ،‬صفات خاصه عددی با یک نقطه صفر ذاتی هستند‪.‬چنانچه مقادیر یک صفت خاصه مقیاس نسبتی باشد می‬ ‫توان گفت که یک مقدار چند برابر مقدار دیگر است‪.‬مقادیر مرتب می شوند و می توان اختالف میان آنها را محاسبه کرد‪.‬‬ ‫در ضمن می توانیم میانگینف میانه و مد را نیز برای این مقادیر اندازه گیری کنیم‪.‬‬ ‫مثال صفت خاصه مقیاس نسبتی‪:‬‬ ‫سنوات کاری یک کارمند‪ ،‬وزن ‪ ،‬قد و ‪...‬‬ ‫‪ -6-1-2‬صفات خاصه گسسته در برابر پیوسته‬ ‫در بخش های قبلی صفات خاصه در گروه های اسمی‪ ،‬دودویی‪ ،‬ترتیبی و عددی سازمان دهی شده اند‪.‬روش های دیگری‬ ‫نیز برای گروه بندی صفات خاصه وجود دارد‪.‬الگوریتم های دسته بندی توسعه داده شده در حوزه یادگیری ماشین ‪ ،‬اغلب‬ ‫صفات خاصه را به دو صورت گسسته یا پیوسته نگاه می کند‪.‬هر یک از این گونه ها ممکن است به طریقه متفاوتی پردازش‬ ‫شوند‪.‬یک صفت خاصه گسسته از مقادیر محدود یا نامحدود قابل شمارش تشکیل شده اند که ممکن است با اعداد صحیح‬ ‫نیز نمایش داده شوند‪.‬صفات خاصه ای مانند رنگ مو‪ ،‬نتیجه آزمایش پزشکی و اندازه نوشیدنی که دارای تعداد محدودی از‬ ‫مقادیر هستند‪ ،‬به عنوان صفت خاصه گسسته شناخته می شوند‪.‬‬ ‫چنانچه یک صفت خاصه گسسته نباشد پیوسته است‪.‬در منابع علمی واژه های صفات خاصه عددی و صفات خاصه پیوسته‬ ‫اغلب به جای یکدیگر استفاده می شوند‪.‬صفات خاصه پیوسته معموال به عنوان متغیرهایی با ممیز شناور نمایش داده می‬ ‫شوند‪.‬‬ ‫‪ -2-2‬آمار توصیفی‬ ‫در این بخش سه شاخه از آمار توصیفی شرح داده می شود‪.‬کار خود را با اندازه گیری شاخص های مرکزی آغاز‬ ‫می کنیم که در آن مرکز توزیع داده ها یا میانه آن اندازه گیری می شود‪.‬به طور واضح می خواهیم بدانیم که‬ ‫اکثر مقادیر در کدام منطقه قرار دارند‪.‬میانگین میانه و مد و میان دامنه توضیح داده می شود‪.‬‬ ‫همچنین در مورد تغییرات و پراکندگی داده ها نیز بحث می کنیم‪.‬رایج ترین سنجه های پراکندگی داده ها‬ ‫عبارتند از‪ :‬واریانس‪ ،‬انحراف استاندارد‪ ،‬دامنه تغییرات؛ چارک ها‪ ،‬دامنه بین چارک‪ ،‬نمودار جعبه ای و خالصه‬ ‫پنج عددی‪.‬این سنجه ها برای شناسایی داده های پرت نیز سودمند هستند‪.‬‬ ‫‪ -1-2-2‬محاسبه شاخص های مرکزی‪ :‬میانگین‪ ،‬میانه و مد‬ ‫میانگین حسابی رایج ترین و موثرترین سنجه عددی برای مرکز یک مجموعه داده ها محسوب می شود‪.‬با فرض‬ ‫عددی بودن ‪ N‬مقدار داده‪ ،‬میانگین آنها به صورت زیر محاسبه می شود‪.‬‬ ‫میانگین وزنی‬ ‫ممکن است هر یک از مقادیر در مجموعه داده ها دارای وزن باشند وزن ها اهمیت مقادیر را نشان می دهند‪.‬در‬ ‫این حالت میانگین به صورت زیر محاسبه می شود که به آن میانگین وزنی می گویند‪.‬‬ ‫اگرچه میانگین یکی از کمیت های سودمند برای توصیف یک مجموعه داده های عددی است‪ ،‬اما همیشه‬ ‫بهترین روش برای اندازه گیری مرکز داده ها نیست‪.‬یکی از مشکالت اساسی در مورد میانگین حساسیت آن به‬ ‫مقادیر پرت است‪.‬حتی تعداد کمی از مقادیر بزرک یا کوچک باعث انحراف میانگین خواهد شد‪.‬‬ ‫برای مثال مقدار میانگین حقوق در یک سازمان ممکن است به صورت قابل مالحظه ای تحت تاثیر حقوق باالی‬ ‫چند مدیر قرار بگیرد‪.‬به همین خاطر برای از بین بردن این تاثیر می توانیم مقدار میانگین را پس از حذف داده‬ ‫های پرت محاسبه کنیم‪.‬‬ ‫میانه‬ ‫میانه برای داده های اریب (نامتقارن ) یک سنجه بهتری برای مرکز داده ها به شمار می رود‪.‬مقدار میانی در‬ ‫مجموعه داده های مرتب شده میانه نامیده می شود و داده ها را به دو نیم تقسیم می کند‪.‬‬ ‫در علم آمار و احتمال اغلب مقدار میانه را برای داده های عددی محاسبه می شود‪.‬اما می توان این مفهوم را‬ ‫برای داده های ترتیبی نیز تعمیم داد‪.‬فرض کنید تعداد ‪ N‬مقدار برای صفت خاصه ‪ X‬به صورت صعودی ذخیره‬ ‫شده است‪.‬بنابراین داده وسطی در این لیست میانه است‪.‬اگر ‪ N‬عدد فردی باشد بنابراین داده وسطی در این‬ ‫لیست میانه است‪.‬اگر ‪ N‬زوج باشد مقدار میانه یکتا نیست و هر مقداری میان دو مقدار وسطی در این لیست‬ ‫میانه است‪.‬در این حالت اگر صفت خاصه ‪ X‬عددی باشد میانگین دو مقدار وسطی به عنوان میانه در نظرگرفته‬ ‫می شود‪.‬‬ ‫مد‬ ‫سنجه دیگر برای شاخص مرکزی مد نام دارد‪.‬در مجموعه داده ها ‪ ،‬مد مقداری با بیشترین فراوانی است‪.‬‬ ‫بنابراین می توان این مقدار را برای داده های کمی و کیفی به دست آورد‪.‬ممکن است بیشتر از یک مقدار دارای‬ ‫فراوانی حداکثری باشند و در این صورت داده ها حاوی چندین مقداربرای مد خواهند بود‪.‬مجموعه داده هایی‬ ‫با یک‪ ،‬دو یا سه مد را به ترتیب تک نمایی‪ ،‬دونمایی و سه نمایی می نامند‪.‬به طور کلی یک مجموعه داده با‬ ‫تعداد بیش از یک مد با نام چند نمایی شناخته می شود‪.‬در مجموعه داده هایی که هر یک از داده ها تنها یک‬ ‫بار تکرار شده باشند مد وجود ندارد‪.‬‬ ‫میان دامنه‬ ‫میان دامنه نیز می تواند برای ارزیابی شاخص مرکزی یک مجموعه داده های عددی استفاده شود‪.‬این مقدار از‬ ‫میانگین کوچکترین و بزرگترین مقدار به دست می آید‪.‬‬ ‫‪ -2-2-2‬محاسبه شاخص های پراکندگی داده ها‬ ‫دامنه تغییرات‬ ‫دامنه تغییرات از اختالف بین بزرگترین و کوچکترین مقدار به دست می آید‪.‬‬ ‫چارک ها‬ ‫فرض کنید داده ها به صورت صعودی مرتب شده اند‪.‬تصور کنید که ما می توانیم با انتخاب برخی از داده ها‪ ،‬این‬ ‫مجموعه داده را به مجموعه یا گروه هایی با اندازه مساوی تقسییم کنیم‪.‬این داده ها با نام چندک ها شناخته‬ ‫می شوند‪.‬این نقاط داده ها را به بازه های پشت سر هم و با اندازه مساوی تقسیم می کند‪.‬چنانچه مایل باشید‬ ‫داده ها را به ‪ q‬قسمت تقسیم کنید به ‪ q-1‬عدد از این نقاط تقسیم کننده نیاز دارید‪.‬‬ ‫چنانچه مایل باشید مجموعه داده ها را به دوقسمت تقسیم کنید به یک نقطه نیاز دارید که این داده همان میانه‬ ‫است‪.‬به طور مشابه برای تقسیم داده ها به ‪ 4‬قسمت مساوی به ‪ 3‬نقطه نیاز داریم‪.‬پس از تعیین این ‪ 3‬نقطه هر‬ ‫بخش یک چهارم از داده ها را دربرمی گیرد‪.‬در این حالت مرسوم است که ما نقاط را به عنوان چارک می‬ ‫شناسیم‪.‬صدک ها نیز مجموعه داده را به ‪ 100‬قسمت مساوی و پشت سر هم تقسیم می کند‪.‬میانه‪ ،‬چارک ها و‬ ‫صدک ها سنجه های بسیار رایجی هستند که برای شکل دادن چندک ها از آنها استفاده می شود‪.‬‬ ‫دامنه بین چارکی‬ ‫چارک ها مرکز‪ ،‬پراکندگی و شکل توزیع داده ها را نشان می دهند‪.‬اولین چارک که معموال با ‪ Q1‬نشان داده می‬ ‫شود ‪ 25‬مین صدک است‪.‬این نقطه ‪ 25‬درصد از داده های ابتدایی را جدا می کند‪.‬سومین چارک با ‪ Q3‬نشان‬ ‫داده می شود که ‪ 75‬مین صدک است که ‪ 75‬درصد از داده های ابتدایی را قطع می کند‪.‬دومین چارک که ‪50‬‬ ‫مین صدک است‪ ،‬همانند میانه داده ها را به دو قسمت تقسیم می کند و مرکز توزیع داده ها را مشخص می‬ ‫سازد‪.‬‬ ‫فاصله میان چارک های اول و سوم به عنوان سنجه پراکندگی استفاده می شود‪.‬این فاصله حاوی نیمی از داده‬ ‫هاست که در میان داده ها قرار گرفته است‪.‬این فاصله با نامه دامنه بین چارکی شناخته و از فرمول زیر‬ ‫محاسبه می شود‪:‬‬ ‫خالصه پنج عدی و داده های پرت‬ ‫به عنوان یک قاعده ساده جهت شناسایی داده های پرت می توانید داده هایی که مقدار آنها حداقل ‪1.5*IQR‬‬ ‫بیشتر از چارک سوم و یا ‪ 1.5*IQR‬کمتر از چارک اول هستند را داده های پرت در نظر بگیرید‪.‬‬ ‫چون سه مقدار ‪ Q1‬و میانه و ‪ Q3‬حاوی هیچ گونه اطالعاتی در مورد ابتدا و انتهای داده ها نیستند کوچکترین و‬ ‫بزرگترین مقدار نیز همراه آنها برای توصیف داده ها نگهداری می شود‪.‬به این ترتیب با کمک پنج مقدار‪،‬‬ ‫توصیفی از داده ها بیان می شود‪.‬این روش را با نام خالصه سازی با ‪ 5‬عدد شناخته می شود و اغلب مقادیر به‬ ‫ترتیب صعودی نوشته می شوند‪ ،‬یعنی کوچکترین مقدار‪ ، Q1 ،‬میانه ‪ Q3 ،‬و بزرگترین مقدار‪.‬‬ ‫واریانس و انحراف استاندارد‬ ‫واریانس و انحران استاندارد سنجه های پراکندگی هستند‪.‬آنها چگونگی توزیع داده ها را نشان می دهند‪.‬مقدار‬ ‫کم انحراف استاندارد نشان می دهد که داده های مشاهده شده بسیار به میانگین نزدیک هستند‪.‬در حالیکه‬ ‫مقدار بزرگ برای انحراف استاندارد نشان دهنده این است که داده ها در محدوده بزرگی از مقادیر پخش شده‬ ‫اند‪.‬مقدار واریانس برای تعداد ‪ N‬مشاهده به صورت زیر محاسبه می شود‪:‬‬ ‫با جذر گرفتن از واریانس‪ ،‬انحراف استاندارد به دست می آید‪.‬‬ ‫نکته‪:‬‬ ‫‪ -‬انحراف استاندارد پراکندگی داده ها را نسبت به میانگین نشان می دهد‪.‬بنابراین هنگامی بررسی می گردد که‬ ‫میانگین به عنوان سنجه مرکزی انتخاب می شود‪.‬‬ ‫‪ -‬هرگاه کلیه مشاهدات دارای مقادیر یکسانی باشند انحراف استاندارد برابر با صفر است و در غیر این صورت‬ ‫مقدار آن مثبت است‪.‬‬

Use Quizgecko on...
Browser
Browser