فصل دوم - شناخت داده PDF
Document Details
Uploaded by Deleted User
Tags
Summary
این سند فصل دوم از یک کتاب یا جزوه در مورد شناخت داده ها است. این فصل به انواع صفات خاصه (مانند صفات اسمی و دودویی) و آمار توصیفی می پردازد.
Full Transcript
شناخت داده ها فصل دوم دانستن اطالعات آماری در مورد مقادیر صفات خاصه کار مارا در بسیاری از فرایندها مانند تشخیص داده های پرت و نویز و پر کردن مقادیر ناموجود در حین پردازش داده ها آسان تر می کند.همچنین با کمک این اطالعات می توان ناسازگاری های به وجود آمده در یکپارچه سازی...
شناخت داده ها فصل دوم دانستن اطالعات آماری در مورد مقادیر صفات خاصه کار مارا در بسیاری از فرایندها مانند تشخیص داده های پرت و نویز و پر کردن مقادیر ناموجود در حین پردازش داده ها آسان تر می کند.همچنین با کمک این اطالعات می توان ناسازگاری های به وجود آمده در یکپارچه سازی داده ها را برطرف کرد.رسم شاخص های مرکزی به ما نشان می دهد که داده ها متقارن هستند و یا اریب.نمودارها و نمایش های گرافیکی مانند هیستوگرام ها و نمودارهای پراکندگی وجود دارند که می توان در حین پردازش داده ها از آنها استفاده کرد. -1-2نمونه ها و انواع صفات خاصه نمونه ها مجموعه داده ها را تشکیل می دهند.یک موجودیت توسط یک نمونه داده نمایش داده می شود. در یک پایگاه داده فروش ،نمونه ها می توانند مشتریان ،کاالها و فروش باشند.در یک پایگاه داده پزشکی بیماران و در یک پایگاه داده دانشگاه دانشجویان ،اساتید و دروس نمونه ها را نشکیل می دهند.نمونه ها معموال به کمک صفات خاصه توصیف می شوند. -1-1-2یک صفت خاصه چیست؟ یک صفت خاصه فیلدی از داده هاست که یک خصوصیت یا ویژگی از یک نمونه را نشان می دهد.اغلب در منابع مختلف واژه های صفت خاصه ،بعد ،ویژگی و متغیر به جای یکدیگر استفاده می شوند.در انباره داده ها معموال از واژه بعد استفاده می شود در منابع مربوط به یادگیری ماشین از واژه ویژگی و در آمار ترجیح می دهند که از واژه متغیر استفاده کنند. متخصصین حوزه داده کاوی و پایگاه داده ها معموال از واژه صفت خاصه استفاده می کنند. صفت خاصه ای که یک مشتری را توصیف می کند برای مثال می تواند شناسه مشتری ،نام و آدرس او باشد.مقادیر موجود برای یک صفت خاصه به عنوان مشاهدات شناخته می شوند. مجموعه صفات خاصه ای که برای توصیف یک نمونه استفاده می شود به عنوان بردار صفت خاصه یا بردار ویژگی نامیده می شود. داده هایی که در آن از یک صفت خاصه استفاده شده است را تک متغیره و اگر از دو صفت خاصه استفاده شده باشد آن را دو متغیره می نامند. نوع یک صفت خاصه با توجه به مقادیری که ممکن است صفت خاصه داشته باشد تعیین می شود. -2-1-2صفات خاصه اسمی معنی واژه اسمی مرتبط با اسامی است.مقادیر صفات خاصه اسمی را نمادها یا اسامی اشیا تشکیل می دهند.هر مقدار به برخی از انواع طبقه ،کد یا حالت اشاره می کند و به دلیل صفات خاصه اسمی با نام صفات خاصه طبقه بندی شده یا طبقه ای نیز شناخته می شوند.هیچگونه ترتیب معنایی در مقادیر یافت نمی شود.در علم کامپیوتر این مقادیر با واژه شمارشی نیز شناخته می شوند. مثال صفت خاصه اسمی: رنگ مو و وضعیت تاهل دو صفت خاصه اسمی هستند.مقادیری مانند سیاه ،سفید ،قهوه ای وبلوند از مقادیر ممکن برای رنگ مو محسوب می شوند و مقادیری مانند مجرد ،متاهل ،طالق گرفته و بیوه نیز می توانند مقادیر مجاز برای صفت خاصه وضعیت تاهل باشند. اگر چه مقادیر صفات خاصه اسمی را نمادها و یا اسامی تشکیل می دهند اما نمایش این نمادها و اسامی با اعداد نیز امکان پذیر است.برای مثال برای رنگ مو می توان از کد صفر برای سیاه ،کد یک برای قهوه ای و ...استفاده کرد.البته باید توجه داشته باشید که روی این اعداد نمی توان عملیات ریاضی انجام داد. به دلیل اینکه هیچگونه ترتیبی میان مقادیر صفات خاصه اسمی نمی توان پیدا کرد و این صفات خاصه کمی نیستند یافتن مقادیر میانگین یا میانه برای چنین صفات خاصه ای بی معنی است.شاید مقداری که بیش از همه تکرار شده باشد برای کاربر جالب باشد که این مقدار با نام مد شناخته می شود که یکی از شاخص های مرکزی است. -3-1-2صفات خاصه دودویی یک صفت خاصه دودویی یک صفت خاصه اسمی است با تنها دو طبقه یا دو حالت صفر و یک که در آن صفر داللت بر عدم حضور صفت خاصه و یک داللت بر حضور آن دارد.چنانچه دو حالت با درست یا نادرست شناخته شوند ،به آن صفت خاصه بولین نیز می گویند. مثال صفت خاصه دودویی: با کمک صفت خاصه دودویی می توانیم سیگاری بودن یا نبودن یک بیمار را توصیف کنیم.همچنین نتیجه آزمایش پزشکی یک بیمار نیز می تواند با یک صفت خاصه دودویی بیان شود چنانچه دو مقدار و حالت صفت خاصه دودویی دارای ارزش و وزن یکسانی باشند صفت خاصه دودویی متقارن است و برای کدگذاری صفر یا یک اولویت و انتخابی وجود ندارد.صفت خاصه جنسیت که دارای مقادیری مانند زن یا مرد است نمونه ای از یک صفت خاصه دودویی متقارن است. چنانچه مقادیر و حالت های یک صفت خاصه دودویی از اهمیت متفاوت برخوردار باشد شما دارای یک صفت خاصه دودویی نامتقارن هستید.مثل نتایج مثبت و منفی برای یک آزمایش ایدز. -4-1-2صفات خاصه ترتیبی مقادیر ممکن برای یک صفت خاصه ترتیبی دارای یک ترتیب معنایی یا رتبه بندی هستند ،اما اندازه و مقدار میان این دو مقدار متوالی شناخته شده نیست. مثال صفت خاصه ترتیبی: در یک رستوران اندازه نوشیدنی ها با یک صفت خاصه ترتیبی که دارای سه مقدار کوچک ،متوسط و بزرگ است ،بیان می شود.این مقادیر دارای ترتیب معناداری هستند اما با کمک این مقادیر نمی توان مقدار بزرگی میان آنها را بیان کرد.از نمونه مثال های دیگر می توان به رتبه بندی اساتید دانشگاه (استادیار ،دانشیار و استاد) و همچنین درجه های نظامی اشاره کرد. با گسسته سازی مقادیر عددی و شکستن این مقادیر به بازه های متفاوت نیز می توان صفات خاصه ترتیبی ایجاد نمود.در این روش اعداد در طبقات مرتب شده ای قرار می گیرند. شاخص مرکزی یک صفت خاصه ترتیبی می تواند با محاسبه مد و میانه (مقدار میانی در یک توالی مرتب شده ) بیان شوند.اما میانگین را برای این صفات نمی توان به کار برد. نکته :صفات خاصه اسمی ،دودویی و ترتیبی جز صفات خاصه کیفی محسوب می شوند. -5-1-2صفات خاصه عددی یک صفت خاصه عددی یک متغیر کمی قابل اندازه گیری است که با مقادیر صحیح یا اعشاری نمایش داده می شوند.این صفت خاصه را می توان در دو گونه مقیاس بازه ای یا مقیاس نسبتی گروه بندی کرد. صفات خاصه مقیاس بازه ای: این نوع صفت خاصه با مقیاسی در واحدهایی با اندازه های مساوی اندازه گیری می شود.مقادیر این صفت خاصه دارای ترتیب مثبت یا منفی هستند.در مجموع با مرتب کردن مقادیر این صفت خاصه می توان به مقایسه و محاسبه تفاوت میان این مقادیر پرداخت. مثال صفت خاصه مقیاس بازه ای: دما یک مثال از اینگونه صفت خاصه است.فرض کنید وقدار دمای روزهای مختلف را اندازه گیری کرده اید.با مرتب سازی این مقادیر می توانید به مقایسه دما در روزهای مختلف بپردازید.همچنین می توانید اختالف دمای دو روز را نیز محاسبه کنید.برای مثال دمای ،20پنج درجه باالتر از 15است.صفت خاصه دما در واحد سانتی گراد دارای صفر درستی نیست به همین دلیل نمی توان گفت که مقدار یک دما چند برابر دمای دیگر است.یعنی نمی توان گفت که دمای 10درجه دو برابر گرمتر از دمای 5درجه است. صفات خاصه مقیاس نسبتی: این صفات ،صفات خاصه عددی با یک نقطه صفر ذاتی هستند.چنانچه مقادیر یک صفت خاصه مقیاس نسبتی باشد می توان گفت که یک مقدار چند برابر مقدار دیگر است.مقادیر مرتب می شوند و می توان اختالف میان آنها را محاسبه کرد. در ضمن می توانیم میانگینف میانه و مد را نیز برای این مقادیر اندازه گیری کنیم. مثال صفت خاصه مقیاس نسبتی: سنوات کاری یک کارمند ،وزن ،قد و ... -6-1-2صفات خاصه گسسته در برابر پیوسته در بخش های قبلی صفات خاصه در گروه های اسمی ،دودویی ،ترتیبی و عددی سازمان دهی شده اند.روش های دیگری نیز برای گروه بندی صفات خاصه وجود دارد.الگوریتم های دسته بندی توسعه داده شده در حوزه یادگیری ماشین ،اغلب صفات خاصه را به دو صورت گسسته یا پیوسته نگاه می کند.هر یک از این گونه ها ممکن است به طریقه متفاوتی پردازش شوند.یک صفت خاصه گسسته از مقادیر محدود یا نامحدود قابل شمارش تشکیل شده اند که ممکن است با اعداد صحیح نیز نمایش داده شوند.صفات خاصه ای مانند رنگ مو ،نتیجه آزمایش پزشکی و اندازه نوشیدنی که دارای تعداد محدودی از مقادیر هستند ،به عنوان صفت خاصه گسسته شناخته می شوند. چنانچه یک صفت خاصه گسسته نباشد پیوسته است.در منابع علمی واژه های صفات خاصه عددی و صفات خاصه پیوسته اغلب به جای یکدیگر استفاده می شوند.صفات خاصه پیوسته معموال به عنوان متغیرهایی با ممیز شناور نمایش داده می شوند. -2-2آمار توصیفی در این بخش سه شاخه از آمار توصیفی شرح داده می شود.کار خود را با اندازه گیری شاخص های مرکزی آغاز می کنیم که در آن مرکز توزیع داده ها یا میانه آن اندازه گیری می شود.به طور واضح می خواهیم بدانیم که اکثر مقادیر در کدام منطقه قرار دارند.میانگین میانه و مد و میان دامنه توضیح داده می شود. همچنین در مورد تغییرات و پراکندگی داده ها نیز بحث می کنیم.رایج ترین سنجه های پراکندگی داده ها عبارتند از :واریانس ،انحراف استاندارد ،دامنه تغییرات؛ چارک ها ،دامنه بین چارک ،نمودار جعبه ای و خالصه پنج عددی.این سنجه ها برای شناسایی داده های پرت نیز سودمند هستند. -1-2-2محاسبه شاخص های مرکزی :میانگین ،میانه و مد میانگین حسابی رایج ترین و موثرترین سنجه عددی برای مرکز یک مجموعه داده ها محسوب می شود.با فرض عددی بودن Nمقدار داده ،میانگین آنها به صورت زیر محاسبه می شود. میانگین وزنی ممکن است هر یک از مقادیر در مجموعه داده ها دارای وزن باشند وزن ها اهمیت مقادیر را نشان می دهند.در این حالت میانگین به صورت زیر محاسبه می شود که به آن میانگین وزنی می گویند. اگرچه میانگین یکی از کمیت های سودمند برای توصیف یک مجموعه داده های عددی است ،اما همیشه بهترین روش برای اندازه گیری مرکز داده ها نیست.یکی از مشکالت اساسی در مورد میانگین حساسیت آن به مقادیر پرت است.حتی تعداد کمی از مقادیر بزرک یا کوچک باعث انحراف میانگین خواهد شد. برای مثال مقدار میانگین حقوق در یک سازمان ممکن است به صورت قابل مالحظه ای تحت تاثیر حقوق باالی چند مدیر قرار بگیرد.به همین خاطر برای از بین بردن این تاثیر می توانیم مقدار میانگین را پس از حذف داده های پرت محاسبه کنیم. میانه میانه برای داده های اریب (نامتقارن ) یک سنجه بهتری برای مرکز داده ها به شمار می رود.مقدار میانی در مجموعه داده های مرتب شده میانه نامیده می شود و داده ها را به دو نیم تقسیم می کند. در علم آمار و احتمال اغلب مقدار میانه را برای داده های عددی محاسبه می شود.اما می توان این مفهوم را برای داده های ترتیبی نیز تعمیم داد.فرض کنید تعداد Nمقدار برای صفت خاصه Xبه صورت صعودی ذخیره شده است.بنابراین داده وسطی در این لیست میانه است.اگر Nعدد فردی باشد بنابراین داده وسطی در این لیست میانه است.اگر Nزوج باشد مقدار میانه یکتا نیست و هر مقداری میان دو مقدار وسطی در این لیست میانه است.در این حالت اگر صفت خاصه Xعددی باشد میانگین دو مقدار وسطی به عنوان میانه در نظرگرفته می شود. مد سنجه دیگر برای شاخص مرکزی مد نام دارد.در مجموعه داده ها ،مد مقداری با بیشترین فراوانی است. بنابراین می توان این مقدار را برای داده های کمی و کیفی به دست آورد.ممکن است بیشتر از یک مقدار دارای فراوانی حداکثری باشند و در این صورت داده ها حاوی چندین مقداربرای مد خواهند بود.مجموعه داده هایی با یک ،دو یا سه مد را به ترتیب تک نمایی ،دونمایی و سه نمایی می نامند.به طور کلی یک مجموعه داده با تعداد بیش از یک مد با نام چند نمایی شناخته می شود.در مجموعه داده هایی که هر یک از داده ها تنها یک بار تکرار شده باشند مد وجود ندارد. میان دامنه میان دامنه نیز می تواند برای ارزیابی شاخص مرکزی یک مجموعه داده های عددی استفاده شود.این مقدار از میانگین کوچکترین و بزرگترین مقدار به دست می آید. -2-2-2محاسبه شاخص های پراکندگی داده ها دامنه تغییرات دامنه تغییرات از اختالف بین بزرگترین و کوچکترین مقدار به دست می آید. چارک ها فرض کنید داده ها به صورت صعودی مرتب شده اند.تصور کنید که ما می توانیم با انتخاب برخی از داده ها ،این مجموعه داده را به مجموعه یا گروه هایی با اندازه مساوی تقسییم کنیم.این داده ها با نام چندک ها شناخته می شوند.این نقاط داده ها را به بازه های پشت سر هم و با اندازه مساوی تقسیم می کند.چنانچه مایل باشید داده ها را به qقسمت تقسیم کنید به q-1عدد از این نقاط تقسیم کننده نیاز دارید. چنانچه مایل باشید مجموعه داده ها را به دوقسمت تقسیم کنید به یک نقطه نیاز دارید که این داده همان میانه است.به طور مشابه برای تقسیم داده ها به 4قسمت مساوی به 3نقطه نیاز داریم.پس از تعیین این 3نقطه هر بخش یک چهارم از داده ها را دربرمی گیرد.در این حالت مرسوم است که ما نقاط را به عنوان چارک می شناسیم.صدک ها نیز مجموعه داده را به 100قسمت مساوی و پشت سر هم تقسیم می کند.میانه ،چارک ها و صدک ها سنجه های بسیار رایجی هستند که برای شکل دادن چندک ها از آنها استفاده می شود. دامنه بین چارکی چارک ها مرکز ،پراکندگی و شکل توزیع داده ها را نشان می دهند.اولین چارک که معموال با Q1نشان داده می شود 25مین صدک است.این نقطه 25درصد از داده های ابتدایی را جدا می کند.سومین چارک با Q3نشان داده می شود که 75مین صدک است که 75درصد از داده های ابتدایی را قطع می کند.دومین چارک که 50 مین صدک است ،همانند میانه داده ها را به دو قسمت تقسیم می کند و مرکز توزیع داده ها را مشخص می سازد. فاصله میان چارک های اول و سوم به عنوان سنجه پراکندگی استفاده می شود.این فاصله حاوی نیمی از داده هاست که در میان داده ها قرار گرفته است.این فاصله با نامه دامنه بین چارکی شناخته و از فرمول زیر محاسبه می شود: خالصه پنج عدی و داده های پرت به عنوان یک قاعده ساده جهت شناسایی داده های پرت می توانید داده هایی که مقدار آنها حداقل 1.5*IQR بیشتر از چارک سوم و یا 1.5*IQRکمتر از چارک اول هستند را داده های پرت در نظر بگیرید. چون سه مقدار Q1و میانه و Q3حاوی هیچ گونه اطالعاتی در مورد ابتدا و انتهای داده ها نیستند کوچکترین و بزرگترین مقدار نیز همراه آنها برای توصیف داده ها نگهداری می شود.به این ترتیب با کمک پنج مقدار، توصیفی از داده ها بیان می شود.این روش را با نام خالصه سازی با 5عدد شناخته می شود و اغلب مقادیر به ترتیب صعودی نوشته می شوند ،یعنی کوچکترین مقدار ، Q1 ،میانه Q3 ،و بزرگترین مقدار. واریانس و انحراف استاندارد واریانس و انحران استاندارد سنجه های پراکندگی هستند.آنها چگونگی توزیع داده ها را نشان می دهند.مقدار کم انحراف استاندارد نشان می دهد که داده های مشاهده شده بسیار به میانگین نزدیک هستند.در حالیکه مقدار بزرگ برای انحراف استاندارد نشان دهنده این است که داده ها در محدوده بزرگی از مقادیر پخش شده اند.مقدار واریانس برای تعداد Nمشاهده به صورت زیر محاسبه می شود: با جذر گرفتن از واریانس ،انحراف استاندارد به دست می آید. نکته: -انحراف استاندارد پراکندگی داده ها را نسبت به میانگین نشان می دهد.بنابراین هنگامی بررسی می گردد که میانگین به عنوان سنجه مرکزی انتخاب می شود. -هرگاه کلیه مشاهدات دارای مقادیر یکسانی باشند انحراف استاندارد برابر با صفر است و در غیر این صورت مقدار آن مثبت است.