ماشین های بردار پشتبان - مقاله تحقیقی
Document Details
Uploaded by Deleted User
جواد سلیمی سرتختی
Tags
Summary
این سند شامل اطلاعاتی روی ماشین های بردار پشتبان است, یک دسته بند در یادگیری ماشین. این مقاله توضیحات و مثال های گوناگونی ارائه می دهد. شامل توصیف کلی و مثال های تصویری.
Full Transcript
به نام خدا ماشین های بردار پشتبان جواد سلیمی سرتختی 1 مقدمه -ماشین های بردار پشتیبان ماشین بردار پشتیبان یک دسته بند متعلق به روش های مبتنی بر کرنل می باشد. ماشین بردار پشتیبان در...
به نام خدا ماشین های بردار پشتبان جواد سلیمی سرتختی 1 مقدمه -ماشین های بردار پشتیبان ماشین بردار پشتیبان یک دسته بند متعلق به روش های مبتنی بر کرنل می باشد. ماشین بردار پشتیبان در سال 1992توسط وپنیک ارائه شد. شهرت م.ب.پ بدلیل موفقیت آن در تشخیص حروف دست نویس است که با شبکه های عصبی که بدقت برای این کار تنظیم شده بودند برابری می کرد.همچنین م.ب.پ در کاربردهای زیر موفقیت های فراوانی را بدست آورده است: دسته بندی متن دسته بندی تصویر بیوانفورماتیک ایده اصلی در م.ب.پ بیشنه سازی حاشیه بین دو کالس می باشد. 2 ماشین های بردارپشتیبان w x + b>0 )f(x,w,b) = sign(w x + b w x + b0 کدام ابر صفحه مناسب تر است؟ w x + b1 w x + b< -1 بردارهای پشتیبان 6 ماشین های بردارپشتیبان محاسبه حاشیه: wxi + b ≤ - 1اگر yi = -1 yi(wxi + b) ≥ 1 wxi + b ≥ 1اگر yi = +1 از طرفی فاصله هر بردار پشتیبان تا ابرصفحه wxi + b =0برابر است با: )y vs (wx vs b 1 r w w 2 بنابراین اندازه حاشیه برابر است با: M 2r w 7 ماشین های بردارپشتیبان الگوریتم بردار پشتیبان بدنبال بیشترین اندازه حاشیه می باشد یعنی: Minimize ||w||2 Subject to: yi(wxi + b) ≥ 1 که این یک مسئله برنامه ریزی غیرخطی با محدودیت هایی بصورت نامساوی است. راه حل :روش ضرایب الگرانژ: 8 مضرب های الگرانژ فرض کنید می خواهیم تابع fرا با توجه به محدودیت gکمینه کنیم: 𝑦 Minimize 𝑓 𝑥, Subject to 𝑔(𝑥, 𝑦) = 0 می توان تابع Lرا بگونه ای تعریف کرد که گرادیان آن نقاط کمینه تابع fرا با توجه به محدودیت gبه ما بدهد: )𝑦 𝐿 𝑥, 𝑦, 𝜆 = 𝑓 𝑥, 𝑦 − 𝜆𝑔(𝑥, که در این صورت خواهیم داشت: 𝛻𝑥,𝑦,𝜆 𝐿 𝑥, 𝑦, 𝜆 = 0 𝐿𝜕 𝐿𝜕 𝐿𝜕 و یا به عبارت دیگر: =0, = 0, =0 𝑥𝜕 𝑦𝜕 𝜆𝜕 9 مضرب های الگرانژ -ادامه فرض کنید می خواهیم تابع fرا با توجه به محدودیت های giکمینه کنیم: 𝑦 Minimize 𝑓 𝑥, Subject to 𝑔𝑖 (𝑥, 𝑦) = 0, i = 1, 2, … , n می توان تابع Lرا بگونه ای تعریف کرد که گرادیان آن ،نقاط کمینه تابع fرا با توجه به 𝑛 محدودیت های giبه ما بدهد: )𝑦 𝐿 𝑥, 𝑦, 𝜆1 , 𝜆1 , … 𝜆𝑛 = 𝑓 𝑥, 𝑦 − 𝜆𝑖 𝑔𝑖 (𝑥, 𝑖=1 که در این صورت خواهیم داشت: 𝛻𝑥,𝑦,𝜆1 ,𝜆1,…𝜆𝑛 𝐿 𝑥, 𝑦, 𝜆1 , 𝜆1 , … 𝜆𝑛 = 0 و یا به عبارت دیگر: 𝐿𝜕 𝐿𝜕 𝐿𝜕 𝐿𝜕 =0, = 0, = 0, = 0, … 𝑥𝜕 𝑦𝜕 𝜕𝜆1 𝜕𝜆2 15 16 مضرب های الگرانژ -ادامه فرض کنید می خواهیم تابع fرا با توجه به محدودیت های giو نامساوی های hiرا کمینه کنیم: 𝑋 𝑓 Minimize Subject to 𝑔𝑖 (𝑋) = 0, i = 1, 2, … , n And ℎ𝑖 (𝑋) ≥ 0, i = 1, 2, … , n می توان تابع Lرا بگونه ای تعریف کرد که گرادیان آن ،نقاط کمینه تابع fرا با توجه به تمام محدودیت های به ما بدهد: 𝑛 𝑛 𝐿 𝑋, λ, 𝜇 = 𝑓 𝑋 − 𝜆𝑖 𝑔𝑖 𝑋 − 𝜇𝑖 ℎ𝑖 𝑋 , 𝜇𝑖 ≥ 0 𝑖=1 𝑖=1 که در این صورت خواهیم داشت: 𝐿𝜕 𝐿𝜕 𝐿𝜕 =0, = 0, = 0, 𝑛 𝑖 = 1, 2, … , 𝑖𝑥𝜕 𝑖𝜆𝜕 𝑖𝜇𝜕 17 بیشینه کردن حاشیه با استفاده از مضارب الگرانژ 𝑤 2 )gi(x = 𝑥 𝑓 Minimize 2 𝑚 Subject to 𝑦𝑖 𝑤. 𝑥𝑖 + 𝑏 − 1 ≥ 0, 𝑖 = 1, … , 𝑚 𝑚 𝑤 2 = )𝑥( 𝑖𝑔 𝑖𝜆 𝐿 𝑤, 𝑏, Λ = 𝑓 𝑥 − − 𝜆𝑖 𝑦𝑖 𝑤. 𝑥𝑖 + 𝑏 − 1 2 𝑖=1 𝑖=1 𝑚 𝑚 𝑤 2 = 𝑏 − 𝜆𝑖 𝑦𝑖 𝑤. 𝑥𝑖 + 𝑖𝜆 + 2 𝑖=1 𝑖=1 𝑚 𝑚 𝑚 𝑤 2 = 𝑖𝜆 − 𝜆𝑖 𝑦𝑖 𝑤. 𝑥𝑖 − 𝜆𝑖 𝑦𝑖 𝑏 + 2 𝑖=1 𝑖=1 𝑖=1 18 بیشینه کردن حاشیه با استفاده از مضارب الگرانژ بیشینه کردن حاشیه -مسئله دوگان در حالت کلی: اما در برخی حاالت می توان گفت: بیشینه کردن حاشیه -دوگان مسئله بیشینه کردن حاشیه -حل دوگان مسئله بیشینه کردن حاشیه -حل دوگان مسئله 23 بیشینه کردن حاشیه -حل دوگان مسئله بیشینه کردن حاشیه با استفاده از مضارب الگرانژ شرط تعامد شرط مسئله 𝑚 شرط منفی نبودن 𝑗𝑥 𝑏 = 𝑦𝑗 − 𝜆𝑖 𝑦𝑖 𝑥𝑖. 𝑖=1 25 26 27 بیشینه کردن حاشیه با استفاده از مضارب الگرانژ راه حل های موجود برای بدست آوردن مقادیر 𝜆: حل دستگاه mمعادله mمجهول زیر: تنها در صورتیکه همه داده های ورودی بردار پشتیبان باشند 28 مثال 29 مثال 30 ماشین بردارپشتیبان -ضریب بی خیالی معادالت دو لبه حاشیه بصورت زیر می باشد: 31 ماشین بردارپشتیبان -ضریب بی خیالی 𝑔 𝑋 : 𝑦𝑖 𝑤. 𝑥𝑖 + 𝑏 − 1 + 𝜉𝑖 ≥ 0 3 ℎ 𝑋 : 𝜉𝑖 ≥ 0 4 32 ماشین بردارپشتیبان -ضریب بی خیالی مشتق نسب به w مشتق نسب به b مشتق نسب به 𝜇 شرط تعامد شرط مسئله شرط منفی نبودن 33 ماشین بردار پشتیبان مربعات حداقل هدف :تبدیل محدودیت های نابرابری به محدودیت های برابری مزیت :افزایش سرعت الگوریتم و در برخی موارد افزایش دقت راهکار ارائه شده :تبدیل معادله ( )3به معادله ()5 𝑛 𝜇 𝜁 5 Minimize 𝑤 2 + 𝜉𝑖 2 فاصله نمونه ها از مقدار واقعیشان 2 2 𝑖 𝑦𝑖 𝑤. 𝑥𝑖 + 𝑏 − 1 + 𝜉𝑖 = 0 هنگامیکه میزان خطا درون فرمول کمینه سازی وجود دارد دیگر نیازی به محدودیت نابرابری نیست چون خطای آن محاسبه می شود.بنابراین محدودیت نابرابری به محدودیت برابری تبدیل می شود. 34 م.ب.پ مربعات حداقل -ادامه 𝑛 𝑚 𝑚 𝑚 𝑚 𝜇 𝜁 6 = 𝐿 𝑤, 𝑏, Λ 𝑤 2+ 𝑖𝜉 𝑖𝜆 𝜉𝑖 2 − 𝜆𝑖 𝑤. 𝑥𝑖 − 𝜆𝑖 𝑏 + 𝜆𝑖 𝑦𝑖 − 2 2 𝑖 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝐿𝜕 𝑚 𝑤 = σ 𝑖𝑥 𝑖𝜆 𝑖=1 𝑤𝜕 𝑚 𝐿𝜕 𝜆𝑖 = 0 مشتقات 𝑏𝜕 𝑖=1 0 𝑒 𝑏 0 −1 = معادله 5 𝐿𝜕 𝑖𝜉𝜁 = 𝑖𝜆 𝑒 Ω + 𝜁 𝐼𝑁 Λ 𝑌 𝑏𝜕 𝐿𝜕 𝑖𝜉 𝑦𝑖 = 𝑤. 𝑥𝑖 + 𝑏 + 𝜆𝜕 35 م.ب.پ مربعات حداقل -مقایسه با م.ب.پ داده های حلزونی نتیجه اعمال دسته بند نتیجه اعمال دسته بند م.ب.پ م.ب.پ.م.ح 36 م.ب.پ مقدار ویژه هدف :ایجاد دو ابرصفحه ناموازی به جای یکی مزیت :افزایش دقت الگوریتم راهکار ارائه شده: فرض کنید m1نمونه متعلق به کالس +1و m2 نمونه متعلق به کالس -1باشد واین نمونه ها بترتیب با ماتریسهای Aو Bنمایش داده شوند.در م.ب.پ مقدار ویژه به دنبال دو ابر صفحه ناموازی همانند شکل روبرو هستیم: ویژگی این ابر صفحه ها این است که در عین اینکه کمترین فاصله را با نمونه های کالس خود داردند، بیشترین فاصله را با نمونه های کالس مقابل ایجاد می کنند. 37 م.ب.پ مقدار ویژه -ادامه کاهش فاصله اقلیدسی در این مسئله منجر به رابطه کمینه سازی زیر می گردد: فاصله نمونه های کالس +1از ابر صفحه 1 )𝐴𝑤 (1 + )𝑒𝑏 (1 𝑤 / 2 7 Min w,b≠0 𝑤 𝐵𝑤 (1) + 𝑒𝑏 (1) / 2 فاصله نمونه های کالس -1از ابر صفحه 1 با اضافه کردن ضریب تیخونوف ،معادله فوق تبدیل به یک معادله Rayleigh Quotientمی گردد. 8 𝐴𝑤 (1) + 𝑒𝑏 (1) + 𝛿 𝑤 2 Min w,b≠0 )𝐵𝑤 (1) + 𝑒𝑏 (1 با حل معادله فوق مقادیر wو bبدست می آید. 38 م.ب.پ توام این رویکرد در ذات شبیه رویکرد م.ب.پ مقدار ویژه می باشد.یعنی در اینجا هم بدنبال بدست آوردن دو ابر صفحه ناموازی هستیم. تفاوت آن با رویکرد م.ب.پ مقدار ویژه در این است که در اینجا به دنبال بیشینه کردن فاصله از کالس مقابل نیستیم بلکه نمونه های کالس مقابل تنها بصورت محدودیت در معادله ابر صفحه جاری ظاهر می شوند(.یعنی به دنبال بیشنه کردن فاصله از بردارهای پشتیبان کالس مقابل هستیم. به جای حل معادله برنامه نویسی غیر خطی با محدودیت های فراوان ،م.ب.پ توام دو معادله با محدودیت های بسیار کمتر را حل می کند. 39 م.ب.پ توام -ادامه م.ب.پ توام متعلق به ابر صفحه :1 م.ب.پ توام متعلق به ابر صفحه :2 40 م.ب.پ توام -مقایسه با م.ب.پ ب :م.ب.پ توام الف :م.ب.پ 41 م.ب.پ توام -مقایسه با م.ب.پ مقدار ویژه الف :م.ب.پ مقدار ویژه ب :م.ب.پ توام 42 م.ب.پ توام مربعات حداقل ترکیب دو رویکرد م.ب.پ مربعات حداقل و م.ب.پ توام (استفاده از نقاط قوت هر دو رویکرد) نقطه قوت م.ب.پ مربعات حداقل :تبدیل محدودیت های نابرابری به محدودیت های برابری نقطه قوت م.ب.پ توام :استفاده از دو ابرصفحه به جای حل معادله برنامه نویسی غیر خطی با محدودیت های نابرابری فراوان ،م.ب.پ توام مربعات حداقل دو معادله با محدودیت های برابری بسیار کمتر را حل می کند. معادله مربوط به م.ب.پ.ت.م.ح1 فاصله نقاط کالس +1از ابرصفحه 1 میزان خطای نمونه های کالس +1 ابر صفحه 1باید نمونه های کالس -1را با در نظر گرفتن خطای yدرست دسته بندی کند 43 م.ب.پ توام مربعات حداقل -ادامه 9 10 44 م.ب.پ توام مربعات حداقل -ادامه به طور کلی می توان م.ب.پ توام مربعات حداقل را در قالب الگوریتم زیر بیان نمود: تعریف ماتریس های Fو Eبر اساس Aو .B (1 انتخاب پارامترهای C1و C2که معموال بر اساس خطا و آزمون تعیین می شود. (2 تعیین پارامترهای دو ابر صفحه بر اساس فرمول های بدست آمده در اسالید قبل. (3 محاسبه فاصله عمود نمونه جدید از دو ابرصفحه بدست آمده. (4 انتساب نمونه جدید به یکی از کالس های +1و یا -1بر اساس فاصله بدست آمده از مرحله (5 قبل. 45 م.ب.پ توام مربعات حداقل -مزایا افزایش سرعت یادگیری نسبت به م.ب.پ از آنجاییکه در م.ب.پ توام برای کمینه سازی هر یک از معادالت نیمی از محدودیت ها به کار گرفته می شوند بنابراین می توان گفت که م.ب.پ توام سرعت یادگیری را چهار برابر افزایش می دهد: 𝑚3 𝑚 3 =4 ) (2 2 م.ب.پ مربعات حداقل ،محدودیت های نابرابری را تبدیل به محدودیت های برابری می کند که این کار باعث افزایش شدید سرعت می شود. افزایش دقت نسبت به م.ب.پ 46 کارایی م.ب.پ توام مربعات حداقل SVM 83.0 79.0 76.0 82.0 82.0 59.0 85.0 94.0 77.0 74.0 65.0 77.8 47 کارایی م.ب.پ توام مربعات حداقل 48 49 50 یادگیری در فضای ویژگی غیر خطی :مسئله جداسازی میتوان با نگاشت داده به یک فضای ویژگی آنها را بصورت خطی جداپذیر نمود: 51 تبدیل داده به فضای ویژگی ) (f ) (f ) (f ) (f( ) f( ) f )f(. ) (f ) (f ) (f ) (f( ) f ) (f( ) f ) (f ) (f( ) f ) (f ) (f Input space Feature space Note: feature space is of higher dimension than the input space in practice انجام محاسبات در فضای ویژگی میتواند پرهزینه باشد برای اینکه ابعاد بیشتری دارد. در حالت کلی ابعاد این فضا بی نهایت است. برای غلبه بر این مشکل از kernel trickاستفاده میشود 52 ترکیب غیرخطی ویژگیها 53 مشکالت فضای ویژگی کار کردن با فضای ویژگی با ابعاد باال مشکل است عالوه بر مسئله باال رفتن هزینه محاسباتی ممکن است مشکل تعمیم نیز بواسطه curse of dimensionalityبوجود آید. 54 نگاشت غیر مستقیم به فضای ویژگی We will introduce Kernels: Solve the computational problem of working with many dimensions Can make it possible to use infinite dimensions efficiently in time / space Other advantages, both practical and conceptual 55 کرنل Transform x f(x) The linear algorithm depends only on xxi, hence transformed algorithm depends only on f(x)f(xi) Use kernel function K(xi,xj) such that K(xi,xj)= f(x)f(xi) 56 An Example for f(.) and K(.,.) Suppose f(.) is given as follows An inner product in the feature space is So, if we define the kernel function as follows, there is no need to carry out f(.) explicitly This use of kernel function to avoid carrying out f(.) explicitly is known as the kernel trick 57 مثال :کرنل چند جمله ای 58 چند تابع کرنل معروف 59 60 61 62 ساخت کرنل ها مجموعه قوانین زیر در مورد کرنل ها صادق است: If K, K’ are kernels, then: K+K’ is a kernel cK is a kernel, if c>0 aK+bK’ is a kernel, for a,b >0 ……Etc etc etc به این ترتیب میتوان کرنل های پیچیده را از روی کرنل های ساده تر ساخت. 63 Multi-class Classification SVM is basically a two-class classifier One can change the QP formulation to allow multi-class classification More commonly, the data set is divided into two parts “intelligently” in different ways and a separate SVM is trained for each way of division Multi-class classification is done by combining the output of all the SVM classifiers Majority rule …. 64