STAT101 Midterm Notes - PDF

Document Details

EvocativeCalcium

Uploaded by EvocativeCalcium

Yarmouk University

خالد عمر,محمد عبابنة, فريق تسال للهندسة الكهربائية

Tags

statistics data analysis descriptive statistics mathematics

Summary

These notes cover STAT101 material, specifically focusing on describing data with graphs, variables, and experimental units. It also delves into different types of statistical representation and analysis.

Full Transcript

‫اﺣﺼﺎء ‪101‬‬ ‫‪stat101‬‬ ‫ﻣﺎﺩﺓ ﺍﻟﻤﻴﺪ‬ ‫ﺷﺮح اﻟﻤﺎدة ﻛﺎﻣﻠﺔ‬ ‫اﻋﺪاد‬ ‫ﺧﺎﻟﺪ ﻋﻤﺮ‬ ‫محمد عبابنة‬ ‫فريق تسال للهندسة الكهربائية‬ STAT 101 , Chapter 1...

‫اﺣﺼﺎء ‪101‬‬ ‫‪stat101‬‬ ‫ﻣﺎﺩﺓ ﺍﻟﻤﻴﺪ‬ ‫ﺷﺮح اﻟﻤﺎدة ﻛﺎﻣﻠﺔ‬ ‫اﻋﺪاد‬ ‫ﺧﺎﻟﺪ ﻋﻤﺮ‬ ‫محمد عبابنة‬ ‫فريق تسال للهندسة الكهربائية‬ STAT 101 , Chapter 1 ‫السبيل‬ Describing Data with Graphs " ‫" وصف البيانات بإستخدام الرسوم البيانيه‬ Variable: ‫المتغير‬ A variable is a characteristic that changes or varies over time and/or for different individuals or objects under consideration.. ‫المتغير يعني الشيء الي بتغير مع مرور الوقت من شخص ل اخر لمختلف االفراد‬ ‫*مثال لما نعمل احصائيه للون الشعر على طالب كليه العلوم بنالقي منهم شعرهم اسود‬ ‫ومنهم شعرهم اشقر ف لون الشعر هون هو المتغير‬ Example of variable: 1) Hair color ‫لون الشعر‬ 2) Blood type ‫ نوع الدم‬A+ B- O 3) Height and Weight ‫الطول و الوزن‬ Example 1: “The Blood type in students”. the variable is ……………... Ans: Blood type Example 2: ( ‫)سنوات‬ The mean weights of all the Students of Yarmouk university is 67kg. THE Variable is: a) Student b) 67kg c) university d) weights 1 STAT 101 , Experimental unit: ‫وحده المعاينه‬ ‫السبيل‬ Definition: is the individual or object on which a variable is measured. ‫الفرد او الكائن التي يتم قياس المتغير عليه‬ ‫كيف يعنييي؟؟‬ ‫ هسا هون ايش المتغير ؟؟‬101 ‫مثال لما اقلك بدنا نفحص زمره الدم لطالب شعبه احصاء‬ ‫صح زمره الدم طيب زمره الدم من مين لمين تغيرت ؟؟‬ ‫من طالب ل طالب واحد صح ؟ ف وحده المعاينه هون رح يكون الطالب‬ ‫**مالحظه مهمه جدا‬ ) ‫يجب ان تكون وحده المعاينه قيمه ( مفرده‬ Example: Hair color for 10 persons. The experimental unit is …………. ANS: person ‫تذكر انو مفرد‬ Example: An engineer wants to evaluate different types of engine oil used for cars based on certain car test score. 1( The variable is : a) cars b) test score c) types of engine oil d) engineer 2( The experimental unit is: )‫(سنوات‬ a) Car test b) Test score c) engineer d) car 2 ‫‪STAT 101‬‬ ‫‪,‬‬ ‫‪ measurement:‬‬ ‫القراءة (القياس)‬ ‫السبيل‬ ‫‪Definition: data value results when a variable is actually‬‬ ‫‪measured on experimental unit.‬‬ ‫نتائج قيمه البيانات (القيمه النهائيه للمتغير)‬ ‫**مثال لما اقلك انو عملنا احصائيه ع شعبه من شعب االحصاء و لقينا عندنا ‪ 10‬بنات‬ ‫و‪ 8‬شباب ف هون شو حيكون ال ‪measurement‬‬ ‫رح يكون الجواب النهائي الي هو ‪ 10‬بنات او ‪ 8‬شباب‬ ‫‪Example:‬‬ ‫‪When calculating the number of students studying major‬‬ ‫‪mathematics in the College of Science, the number was 200‬‬ ‫‪students‬‬ ‫‪ANS:‬‬ ‫‪1( The Variable is‬‬ ‫‪1) Major‬‬ ‫‪2) The experimental unit‬‬ ‫‪2) Student‬‬ ‫‪3) The measurement is‬‬ ‫‪3) 200 students‬‬ ‫بعد ما عرفنا كيف نحدد المتغير ووحده المعاينه للمتغير تعالو نعرف كيف نتعامل مع‬ ‫البيانات‬ ‫‪ Data:‬‬ ‫البيانات‬ ‫مثال لما بدنا نحسب نسبه المدخنين ب الجامعه احنا بنقدر نحسبها ع نوعين من البيانات اما‬ ‫اني اطلع النسبه عن طريق انو اعد المدخنين بالجامعه كامله(جميع العناصر)وهذا اسمه ‪:‬‬ ‫مجتمع ‪population‬‬ ‫‪is the set of all element (measurement) that belong to the‬‬ ‫‪scope of study.‬‬ ‫او انو نوخذ عينه من الجامعه مثال ‪ 200‬طالب و اطلع منهم النسبه وهاض االشي بنسميه‬ ‫(‪Sample: (subset in population‬‬ ‫عينه‪(:‬جزء من المجتمع )‬ ‫‪3‬‬ STAT 101 , Sample size(n) = ‫حجم العينة‬ ‫السبيل‬ Population size (N) = ‫حجم المجتمع‬ How many variables have you measured? ‫كم عدد المتغيرات التي قمت بقياسها‬ 1) univariate data: ‫بيانات احاديه المتغير‬ one variable is measured on a single experimental unit. ‫متغير واحد مقاس على تجربه واحده‬ Example: The height of student in YU ‫عندنا متغير واحد الي هو الطول‬ 2) Bivariate data: ‫بيانات ثنائيه المتغير‬ Two variable is measured on a single experimental unit. ‫متغيران مقاسان على تجربه واحده‬ Example: The height and Weight of student in YU ‫عندنا متغيرين الوزن و الطول‬ 3)Multivariate data: ‫بيانات متعدده المتغيرات‬ More than two variable ‫اكثر من متغييرين يتم قياسهم على تجربه واحده‬ Example: The blood group, the number of children and amount of income of 20 parents are measured ‫يوجد لدينا ثالث متغييرات في هذا المثال يتم قياسهم على تجربه واحده‬ 4 ‫‪STAT 101‬‬ ‫‪,‬‬ ‫السبيل‬ ‫نرجع نحكي شوي عن المتغيرهل المتغير الو انواع ؟؟ نعم‬ ‫ما هي انواع المتغير؟؟‬ ‫‪Qualitative‬‬ ‫‪Quantitative‬‬ ‫نوعيه‬ ‫كميه‬ ‫‪Discrete‬‬ ‫‪Continuous‬‬ ‫‪⚫ Qualitative:‬‬ ‫نوعيه‬ ‫المتغير الي ما بحتوي على ارقام و قيم عدديه‬ ‫مثل‪ :‬لون الشعر ‪ ,‬مكان الوالده‬ ‫كمية ‪⚫Quantitative :‬‬ ‫يمكن التعبير عنها ب ارقام و اجراء عمليات حسابيه عليه مثل‬ ‫الطول ‪ ,‬العمر ‪,‬حجم العائله‬ ‫ويقسم الى نوعين‬ ‫اذا كان المتغير محدود ‪1) Discrete:‬‬ ‫كيف يعني؟؟‬ ‫يعني عدد صحيح ال يمكن تجزئته مثل عدد افراد العائله‬ ‫‪5‬‬ STAT 101 , 2)Continuous: ‫السبيل‬ ‫يعني المتغير الي ممكن تجزئته يعني يمكن ان يحتوي على فواصل‬ ‫ العمر او الوزن‬: ‫عشريه مثل‬ Example 1: The Major for 60 students is recorded. The data Type: )‫(سنوات‬ (A)qualitative B) Discrete C) A student D) quantitative ‫** ننتبه انو هون المتغير هو التخصص ف التخصص نوعي مش شرط‬ ‫وجود رقم بالسؤال يعني المتغير عددي‬ Example 2: The door chosen by mouse in a maze experiment (a, b and c). the data type: )‫(كتاب‬ A) Mouse B) qualitative C) continuous (D) quantitative Example 4: The weights in kilogram of 5 students are: 51, 52, 57, 63, 42. The variable type is: (a) Discrete (b) Continuous (c) Qualitative (d) None Example 5: Number of consumers in a poll of 1000 who consider nutritional labeling on food products to be important. The variable type is: a) Discrete b) Continuous c)Qualitative d) poll 6 STAT 101 , number of ‫ اول ما تشوف بالسؤال‬:‫السبيل مالحظه تهكيريه‬ * Discrete ‫الجواب رح يكون‬ “DATA” Univariate data Bivariate data Multivariate data Qualitative Qualitative Qualitative Quantitative Quantitative Quantitative Mixture Mixture (Qualitative and (Qualitative and quantitative) quantitative) Example 1: a random sample of 20 football players is selected. the height (‫ (الطول‬and preferred club in Jordan ‫(النادي‬ )‫ المفضل‬are measured, answer the following: (‫)سنوات‬ 1) the type of data here is: Bivariate mixture ‫( عشان عنا متغيريين‬Bivariate)‫هون احنا اخترنا‬ ‫( عشان المتغيرين من نوعين مختلفيين‬mixture) ‫واخترنا‬ (height→quantitative) , (preferred club→qualitative) 2) the number 20 represent :)‫(يمثل‬ sample size (‫)حجم العينة‬ Example 2: “you asked 10 of your classmates about their degree “the data type is: a) univariate quantitative b) bivariate qualitative c) univariate qualitative d) discrete 7 STAT 101 , TYPES OF STATISTICS ‫السبيل‬ ‫أنواع األحصائيات‬ 1) Descriptive statistics: ‫االحصاء الوضعي‬ describing the data in sample by graphs and number.. ‫وصف البيانات في العينة من خالل الرسومات واالرقام‬ 2) Inferential statistics: )‫االحصاء االستقراري (االستداللي‬ peducing information about the population bused on the sample ‫تكوين معلومات مجتمع الدراسة على اساس العينة واستدالل ما يحتويه‬ ‫المجتمع من معلومات استنادا للمعلومات التي نحصل‬ ‫عليها‬ Example: the number males in the data set is 2. (Descriptive statistics) then we say the number of females is 14. (Inferential statistics) 8 STAT 101 , ‫السبيل‬ Graphing Qualitative variables : ‫في هذا الموضوع سنتعلم كيفيه التمييز بين الرسومات و خاصة بين‬ Qualitative, Quantitative # Qualitative data: ‫البيانات النوعيه‬ : ‫يوجد نوعين من الرسم يمكن تمثيل البيانات النوعيه من خاللها‬ 1) Bar chart 2) Pie chart : ‫ويتم قياس البيانات ب ثالث طرق‬ 1. Frequency: ‫عدد التكرار‬ 2. Relative Frequency(RF): ‫التكرار النسبي‬ RF= Frequency / n 3. Percent: ‫النسبه المئويه‬ P= RF*100% # Bar chart ‫خصائص ال‬ 1) Qualitative data 2) Space between bars ‫يوجد مسافات بين االعمده‬ 3) Can not talk about shape of distribution and outliers 9 STAT 101 , Example: a random sample of size 10 dataset patients ‫السبيل‬ are observed for blood group data: A, O, AB, O, A, A, AB, O, B, O Summarize data in statistical table ANS: Blood Frequency Relative Percent group frequency O 4 RF=4/10=0.4 0.4*100%=40% A 3 RF=3/10=0.3 0.3 *100%=30% B 1 RF=1/10=0.1 0.1 *100%=10% AB 2 RF=2/10=0.2 0.2* 100%=20% Example: If you know the percent =21% Then the Relative Frequency is equal to: A) 21 B) 2.1 C 0.21 D) 0 Graphing Quantitative variables 1) Line chart “Time series data” ‫بيانات مرتبطه بالزمن‬ “trend” 2) Dot plots ‫يرسم القياسات‬, ‫يستخدم بالعاده لتمثيل بيانات ذات كميه قليله‬. ‫كنقاط على محورالسينات بحسب تكرار كل قيمه‬ 10 STAT 101 , Example: The set 4, 5, 5, 7, 6 ‫السبيل‬ 3) Bar chart and Pie chart 4) Relative frequency hostigram: ‫الرسم البياني للتردد النسبي يستخدم لترتيب النسب على شكل‬. ‫اعمده متالصقه‬ #Relative frequency hostigram ‫خصائص ال‬ 1) for a quantitative data. 2) No space between bar 3) Shape of distribution and outliers Bar chart Pie chart 11 ‫‪STAT 101‬‬ ‫‪,‬‬ ‫السبيل‬ ‫** اذا طلب مني بالسؤال القيمه المتطرفه ال‬ ‫‪Outlier‬‬ ‫بتكون القيمه البعيده عن كل القيم‬ ‫?‪Example: the set {2,6,3,4,50} , find the outliers‬‬ ‫‪ANS: 50‬‬ ‫‪Line chart‬‬ ‫‪12‬‬ STAT 101 , Interpreting Graphs: Shape ‫السبيل‬ ‫هاي الرسمات مهمات بيجي سؤال عليهم فالمطلوب منك تحفظ شكلهم واسمهم مع‬ ‫تعريفاتهم‬ Mound shape and symmetric (mirror image) Skewed right: a few unusually large measurement Skewed left: a few unusually small measurement 13 STAT 101 , ‫السبيل‬ Bimodal: two local peaks Outlier 14 STAT 101 , ‫السبيل‬ ‫اختبر نفسك‬ The weights in kilogram of 5 students are: 51, 52, 57, 63, 42. Answer 1-3: 1) The variable being measured is: a) Weight b) Student c) Qualitative d) Univariate 2) The variable type is: a) Discrete b) Continuous c) Bivariate d) Qualitative 3) The experimental unit is: (a) A Student (b) 5 students (c) Weight (d) Quantitative 4) Identify the following quantitative variable as discrete or continuous. “Number of persons on a flight from Amman to Aqaba.” a) discrete b) continuous 5) The mean weight of all students of Yarmouk university is 67 Kg The value 67 is: (a) sample (b) parameter (c) population (d) variable 6) A random sample of 20 football players selected. The height is measured… The number 20 represents (‫)يمثل‬: a) measurement b)size of sample c) discrete d) type of variable 15 STAT 101 , 7) If we know that the variable is “time to failure of a computer‫السبيل‬ component”. Then the measurement of this variable is: a) bar chart b) discrete c) continuous d) almost 20 days 8) you asked a randomly fourteen student at Yarmouk university about their exams. Based on that study, you concluded that 85% of all student in Yarmouk university prefer online exams. That is an example of: a) Descriptive statistic b) statical inference c) population d) sample teachers are selected from Yarmouk university. for the 10 teachers the time (in hours) it takes to surf ( ‫ )تصفح‬in internet : 3,8, 2, 4,2,4,2,6,2 Answer (9-10): 9) the percent of (2): a) 0.6 b) 0.4 c) 40% d) 60% 10) the frequency of (4): a) 2 b) 0.2 c) 20% d) 0 In a set of 45 observations, the percent of category A is 40% ANSWER (11-13): 11) the frequency of category A is: a) 18 b) 60% c) 27 d) 40% 12) the percent of category B is: a) 18 b) 60% c) 27 d) 40% 16 STAT 101 , ‫السبيل‬ 13) the frequency of category B is: a) 18 b) 60% c) 27 d) 40% 14) If the manager of a grocery store wishes to display the sales trend for the past 12 months, the most effective type of graph will be: a) line chart b) bar chart c) pie chart d) dot plot 15) The variable “blood type” collected for patients in acertain hospital is considered as: a) qualitative b) discrete c) continuous d) quantitative 16) “you asked 10 of your classmates about their degree “the data type is: a) univariate quantitative b) bivariate qualitative c) univariate qualitative d) Discret 17) A high school teacher has a record of each student’s absence The result, in days are: 1,2,2,1,2,3,4,5,7,7,7,8,9,3,3,4,6,5,5,4,0,0,0,1,2,2,3,7,8,5 What can be said about the shape of distribution of the data: a) line chart b) bar chart c) pie chart d) dot plot 17 STAT 101 , ANS: ‫السبيل‬ 1 a 2 b 3 a 4 a 5 c 6 b 7 d 8 b 9 c 10 a 11 a 12 b 13 c 14 a 15 a 16 a 17 d 18 ‫‪STAT 101‬‬ ‫‪,‬‬ ‫‪Chapter 2‬‬ ‫السبيل‬ ‫‪Describing Data with Numerical Measures‬‬ ‫بهذا التشابتر رح نقوم بوصف البيانات بطريقة رياضية أي عن طريق االرقام ‪ ,‬الن‬ ‫طريقة الرسم مش كثير دقيقة ورح نهتم بدراسة البيانات بالنسبة للمجتمع وللعينة والتمييز‬ ‫بينهم‬ ‫‪- A parameter: is a numerical descriptive measure calculated‬‬ ‫‪for a population.‬‬ ‫‪(.‬المعلمة)‪ :‬هو مقياس وصفي محسوب للمجتمع اي انه يختص بدراسة )‪(population‬‬ ‫‪ #‬كيف بنقدر أميز اذا )‪ (parameter‬أو ال ??‬ ‫إذا أعطاني بالسؤال‬ ‫قيمة رقمية ‪ all+‬أو ‪Population‬‬ ‫بكون )‪(parameter‬‬ ‫بكون)‪(parameter‬‬ ‫يعني أي قيمه عدديه تختص بدراسة المجتمع‬ ‫‪Example:‬‬ ‫‪The median height of all the football players is 1.64m. The value‬‬ ‫‪1.64 is:‬‬ ‫هون كلمة )‪ (all‬تعني المجتمع كامل‬ ‫‪ANS:‬‬ ‫)‪(parameter‬‬ ‫‪- A statistic: is a numerical descriptive measure calculated‬‬ ‫‪for a sample.‬‬ ‫(االحصائية)‪ :‬هي وصف عددي محسوب للعينة يعني مختص بعينة فقط‬ ‫وليس للمجتمع هون بكون ‪(statistics) ‬‬ ‫‪ #‬كيف بقدر أميز اذا )‪(statistics‬أو ال ??‬ ‫إذا أعطاني بالسؤال ‪:‬‬ ‫قيمة رقمية ‪Sample +‬‬ ‫بكون ) ‪(statistics‬‬ ‫‪19‬‬ STAT 101 , Example: ‫السبيل‬ The average income for a sample of 345 employees is 450 JD. The value 450 is: ANS: (Statistic) ? ‫طيب لو كان السؤال حول بيانات نوعية مش كمية أيش رح يكون الجواب‬ (population) ‫(أو‬sample) ‫الجواب هون رح يكون اما‬ Example : A study on all students with cancer and the symptoms they appear at Yarmouk university. This set of collected measurements is called: (a) Sample (b) parameter (c) population (d)statistics "Measures of Center" ‫تعبير عن مركز البيانات‬ (1) Arithmetic Mean or Average ‫ وهو مجموع القيم على عددهم‬: ‫المتوسط الحسابي‬. ‫اذا كان للعينة‬ 𝑥̅ ‫⚫ويرمز له بالرمز‬ ̅ → ‫اكس بار‬ 𝒙. ‫ اذا كان للمجتمع‬µ ‫⚫ ويرمز له بالرمز‬ µ → ‫ميو‬ :‫مالحظة‬ ‫اغلب الدراسات تكون حول العينة لصعوبة التعامل مع بيانات المجتمع كامل‬ ∑xi ̅= 𝒙 n 𝒏 → number of measurements ‫عدد القيم‬ ∑xi → sum of all the measurements ‫مجموع القيم كاملة‬ 20 STAT 101 , ‫السبيل‬ Data : x1 , x2 ,………….., xn ∑xi x1 ,+x2 ,………….,+xn ̅= 𝒙 = n n Example: Data: 10, 5, 7, 8, 12 ̅): Find the sample mean (𝒙 ∑xi 10+5+7+8+12 42 ANS: ̅= 𝒙 = = n 5 5 ̅ = 𝟖. 𝟒 𝒙 Remart of the mean : ‫خصائص المتوسط الحسابي‬ 1.The sum of deviation of data from the mean (𝑥̅ ) is zero ‫مجموع االنحرافات للبيانات = صفر‬ ∑(xi− 𝑥̅ ) = 0 , i = 1, 2 ……... n 2.Affected by outliers ‫يتأثر بالقيم الشاذة‬ 3.Use all data ‫نستخدم جميع البيانات للحصول على المتوسط الحسابي‬ Example: The mean of 11 observations is 35, if we add one of the measurement which equal 25. The mean will be: ANS: n=11 𝑥̅ = 35 ∑𝑥 ∑𝑥 ̅= 𝒙 → 35 = → ∑𝑥 = 385 n 11 21 ‫‪STAT 101‬‬ ‫‪,‬‬ ‫السبيل‬ ‫̅‬ ‫𝒙‬ ‫‪∑𝑥+25 385+25‬‬ ‫=‪2‬‬ ‫=‬ ‫‪n+1‬‬ ‫‪12‬‬ ‫‪𝑥̅ = 34.16‬‬ ‫‪(2) median‬‬ ‫الوسيط‬ ‫هو القياس االوسط عندما يتم ترتيب البيانات (تصاعديا )‬ ‫⚫طيب كيف بدنا نجد قيمة الوسيط )‪(median‬‬ ‫أوال‪:‬‬ ‫نرتب البيانات تصاعديا (من االصغر الى اكبر)‬ ‫ثانيا‪:‬‬ ‫نجد القيمة الموجودة في منتصف القيم يعني مثال عندي ‪ 9‬قيم بختار القيمة رقم ‪5‬‬ ‫النو قيمة الوسيط‬ ‫طيب لييييششششش ?‬ ‫عدد القيم الي على يمينها = عدد القيم الي على يسارها‬ ‫⚫ طيب أنا ما فهمت اعطيني قانون يخليني اعرف موقع قيمة الوسيط‬ ‫𝟏‪𝐧+‬‬ ‫=‪P‬‬ ‫موقع الوسيط → ‪p‬‬ ‫𝟐‬ ‫عدد القيم → ‪n‬‬ ‫انتبه هون ال )‪ (p‬مش قيمة الوسيط بل هو موقع الوسيط بالنسبة للبيانات المرتبة تصاعديا‬ ‫‪Example 1:‬‬ ‫‪Data: 5 , 7 ,2 , 5 , 10 , 11 , 23‬‬ ‫‪Find the median:‬‬ ‫‪ANS:‬‬ ‫‪n=7‬‬ ‫(رتب البيانات تصاعديا) ‪1) ordered the data‬‬ ‫‪2,5,5,7,10,11,23‬‬ ‫‪22‬‬ ‫‪STAT 101‬‬ ‫‪,‬‬ ‫‪n+1‬‬ ‫‪7+1‬‬ ‫السبيل‬ ‫=‪P‬‬ ‫=‬ ‫‪=4‬‬ ‫‪2‬‬ ‫‪2‬‬ ‫انتبه هون ال (‪ )4‬مش قيمة الوسيط بل هي موقع الوسيط في البيانات المرتبة‬ ‫‪ )2‬نذهب الى البيانات المرتبة ونجد القيمة رقم (‪)4‬‬ ‫‪Median = 7‬‬ ‫‪Example 2:‬‬ ‫‪The set:‬‬ ‫‪2, 4, 9, 8, 6, 5‬‬ ‫‪Find the median:‬‬ ‫‪ANS:‬‬ ‫‪n=6‬‬ ‫‪1) ordered the data‬‬ ‫‪2, 4, 5, 6, 8, 9‬‬ ‫‪n+1‬‬ ‫‪6+1‬‬ ‫=‪P‬‬ ‫=‬ ‫‪= 3.5‬‬ ‫‪2‬‬ ‫‪2‬‬ ‫طيب كيف هيك بدي اطلع الوسيط هل في عنصر موقعو ‪?? 3.5‬‬ ‫انتبه‪:‬‬ ‫عندما يكون الموقع عدد كسري بين رقمين نأخذ القيمتين المجاورتين له ثم نقسم‬ ‫مجموعهما على ‪2‬‬ ‫هون مثال هون عندي الموقع ‪ 3.5‬بين القيمتين ‪ 3‬و ‪4‬‬ ‫اذن مناخذ القيمتين 𝟑𝒙 و 𝟒𝒙 وبعدين منقسم مجموعهم على (‪)2‬‬ ‫‪23‬‬ STAT 101 , 𝒙𝟒 + 𝒙𝟑 5+6 ‫السبيل‬ Median = = 2 2 Median = 5.5 Example: The set: 5, 4, 10, 6, 8 Find the position of median: ANS: n=5 (median) ‫انتبه هون بدو الموقع مش ال‬ n+1 5+1 P= = 2 2 P=3 Remart of the median: ‫خصائص الوسيط‬ 1) The Median does not use all data ‫الوسيط ال يستخدم جميع البيانات‬ 2) The Median is not affected by outliers )‫الوسيط ال يتأثر كثيرا بالقيم الشاذة (المتطرفة‬ 24 STAT 101 , ‫السبيل‬ 3) symmetric (Symmetric) ̅ Median ≈ 𝒙 (skewed right) ̅ ≫ 𝒎𝒆𝒅𝒊𝒂𝒏 𝒙 (Skewed left) ̅ ≪ 𝒎𝒆𝒅𝒊𝒂𝒏 𝒙 25 ‫‪STAT 101‬‬ ‫‪,‬‬ ‫السبيلمالحظة ‪:‬‬ ‫اذا كان موجود قيم شاذة في المستوى الملتوي مثل ‪:‬‬ ‫)‪(skewed right OR skewed left‬‬ ‫يفضل استخدام الوسيط )‪ (median‬بدل المتوسط الحسابي )‪(mean‬‬ ‫‪(3) Mode :‬‬ ‫المنوال‬ ‫هو القيمة االكثر تكرار بين البيانات‬ ‫‪Example:‬‬ ‫‪Data set:‬‬ ‫‪5,5,7,2,5,10,17,10,11,5‬‬ ‫‪Find the mode:‬‬ ‫‪ANS:‬‬ ‫‪Mode=5‬‬ ‫طيب لو كان عنا قيمتين الهم نفس العدد من التكرارات كين بكون ال)‪(mode‬‬ ‫بهاي الحالة منوخذ القيمتين‬ ‫‪Example:‬‬ ‫‪Data set: 3,3,2,1,1,4,5,9‬‬ ‫‪Find the mode:‬‬ ‫‪ANS:‬‬ ‫‪Mode= 3 and 1‬‬ ‫طيب مثال لو كان جميع القيم بنفس التكرار بهاي الحالة بكون عندي)‪(no mode‬‬ ‫‪Example:‬‬ ‫‪Data set: 1,3,3,1,5,5,2,2 ; Find the mode:‬‬ ‫‪ANS:‬‬ ‫‪NO Mode‬‬ ‫‪26‬‬ ‫‪STAT 101‬‬ ‫‪,‬‬ ‫هسا في فكرة لطيفة بيجي عليها كل سنة سؤال بالكوزات وبالميد الزم نشرحها‬ ‫السبيل‬ ‫في حال اعطنا بالسؤال ال )‪( ⇔(deviatioin‬مجموع االنحرافات)‬ ‫وكان عاطيني المتوسط الحسابي ) ̅𝑥( وطلب مني اجد قيمة ال)‪(mode‬‬ ‫̅‬ ‫𝒙‪Mode=x-‬‬ ‫أكثر قيمة متكررة بال )‪Mode → (deviation‬‬ ‫قيمة المنوال المطلوب → ‪X‬‬ ‫المتوسط الحسابي → ̅‬ ‫𝒙‬ ‫‪Example:‬‬ ‫‪The mean of five observations was 5 and the deviation of the‬‬ ‫‪observations about their mean were:‬‬ ‫‪0,1,1, -4,2 Find the mode:‬‬ ‫‪ANS:‬‬ ‫‪𝑥̅ = 5‬‬ ‫اكثر قيمة متكررة بال )‪Mode → (deviation‬‬ ‫‪Mode=1‬‬ ‫̅𝑥‪Mode=x-‬‬ ‫‪1= x- 5‬‬ ‫‪X=6‬‬ ‫طيب هسا نفس الموضوع بس لو كان بالنسبة لل )‪ (median‬كيف بكون الحل ?‬ ‫̅𝑋‪Median =x-‬‬ ‫القيمة المتوسطة بين قيم ال )‪Median → (deviation‬‬ ‫قيمة الوسيط المطلوب → ‪X‬‬ ‫المتوسط الحسابي → ̅‬ ‫𝒙‬ ‫‪27‬‬ STAT 101 , Example: ‫السبيل‬ The mean of seven observations was 3 and the deviation of the observations about their mean were: 2 , -2 , 1 , -1 , 4 , -2 ,-2 Find the median: ANS: )‫ نقوم بترتيب القيم تصاعديا (من االصغر الى االكبر‬:‫اوال‬ -2, -2, -2, -1, 1, 2, 4 ‫ نقوم باختيار القيمة المتوسطة‬:‫ثانيا‬ Median of deviation = -1 ̅=𝟑 𝒙 Median =x-𝑥̅ -1=x-3 X=2 → sample median ‫( وعددها‬mode) ‫⚫ هذه الرسمات لوصف حاالت ال‬ ) ‫(منوال واحد‬ )‫(منوالين‬ )‫ منواالت او اكثر‬3 ( 28 STAT 101 , Exercise: ‫السبيل‬ 1) the ages at 5 randomly selected member of a club are as following: 42,52,57,63,51 ⚫ the sample mean is : (a) 21 (b) 60.5 (c) 52 (d) 53 ⚫ the sample median is : (a) 21 (b) 60.5 (c) 52 (d) 53 2) If the median of data set has a position equals to 13 and if we know that the sample size is odd then the sample size is equal to (a) 27 (b) 25 (c) 7 (d) 26 (median) ‫( بحيث حكالك انوموقع ال‬median) ‫ الحظ في هذا المثال عكسلك فكرة موجود‬- )‫ فما هو حجم العينة (عدد العناصر‬,, ‫ مع العلم انو عدد القيم للعينة مفرد‬13 ‫في الموقع رقم‬ n+1 P= 2 n+1 13 = → n=25 2 4) If we know the ∑𝟖𝒏=𝟏 𝒙𝒊 = 𝟒𝟎 find the sample mean: (a) 10 (b) 8 (c) 5 (d) 40 5) consider the following data : 12.5, 7.5, 4.5, 7.5, 8.6, 2.4 ⚫ The sample mean : (a) 7.17 (b) 8.13 (c) 7.5 (d) 8.2 ⚫ The sample median : (a) 7.17 (b) 8.13 (c) 7.5 (d) 8.2 29 STAT 101 , ‫السبيل‬ 6) The mean of the four observations was 6 and the deviation of these observations about their mean were : 2 , 0, 0, -2 ⚫ The mode value is : (a) 8 (b) 6 (c) 0 (d) 2 ⚫ The value of fourth observation : (a) 4 (b) 8 (c) 0 (d) 2 : ‫هون طريقة حلها‬ ̅ Fourth observation = x -𝒙 -2 = x – 6 X=4 )2024/2023 ‫كويز في مقاييس المركز (الفصل األول‬ 1] For a data set of size 17 observation , if the sum of the squares of the observations is 420 and the square of the sum of the observations is 320. Then the square of the sum of the observations from the mean is : (a) 1 (b) 0 (c) 628.68 (d) 25.1 (e) 108773.8 2] Consider the following sorted data: C,6,9,11,14 The mean is the same as median.Then the value of C is : (a) 4 (b) 0 (c) 6 (d) 5 (e) 8 (f) 10 30 STAT 101 , ‫السبيل‬ 3] Five student made the following marks on a test: Ali Sarah Mohammad Ahmad Hassan 60 60 70 75 90 If Sarahs mark change from a 60 to a 70 , which measurement would change : (a) Mean and Median (b) Mean and Mode (c) Mode and Median (d) Mean, median and Mode (e) Range and Mean (f) nothing change 4] The mean for ten observation is 22. if the sum of the first nine observations is 200, then 10th observation : (a)33 (b) 18.5 (c) 32 (d) 10 (e) 20 (f) 15 5] in stat 101 quiz ,all the student have the same marks , then one of the next is true : (a)The histogram is binomial (b) All the measurements of variability closed to zero (c) The dot plot is skewed (d) The data has the same measure of center and the same measure of variability (f) The distribution shape may be symmetric 31 STAT 101 , Measures of Variability ‫السبيل‬ ‫مقاييس التشتت‬ 1) Range (R): ‫المدى‬ ‫هي الفرق بين اكبر واصغر القياست‬ R = Max – Min Remart : 1) affected by outliers 2) The greater the range then the greater the variability ‫كلما زاد المدى زاد التشتت‬ Example : The data set: 5 , 12 , 6 , 8 , 14 Find the Range : ANS : R = Max – Min R = 14 – 5 R=9 2) The Variance : ‫التباين‬ Definition : is measure of variability that uses all the measurements. It measures the average deviation of the measurements about their mean.. ‫مقياس يستخدم لقياس انحراف القيم عن الوسط ومدى تشتت هذه القيم عن الوسط‬ ⚫ the variance of population of (N) : 𝟐 𝟐 ∑(𝒙𝒋 − µ) 𝝈 = 𝑵 32 STAT 101 , ⚫ the variance of sample of (n) : ‫السبيل‬ 𝟐 ̅) ∑(𝒙𝒋 −𝒙 𝒔𝟐 = 𝒏−𝟏 𝟐 𝟐 𝟐 (∑(𝒙𝒋 )) ̅ )𝟐 ∑(𝒙𝒋 ) −𝒏(𝒙 ∑(𝒙𝒋 ) − 𝒔𝟐 = = 𝒏 𝒏−𝟏 𝒏−𝟏 Remart : 1) affected by outliers 2) uses all data 3) The standard deviation : ) ‫(االنحراف المعياري‬ (variance) ‫هو الجذر التربيعي لل‬ ⚫ The standard deviation of population 𝝈 = √𝝈𝟐 ⚫ The standard deviation of sample 𝒔 = √𝒔𝟐 Remart : 1) affected by outliers 2) ‫( = وحدة قياس البيانات‬s) ‫وحدة قياس‬ 33 ‫‪STAT 101‬‬ ‫‪,‬‬ ‫‪Example :‬‬ ‫السبيل‬ ‫‪Data set : 5 , 10 , 3 , 4 , 12‬‬ ‫‪⚫Conclude the sample variance :‬‬ ‫‪ )1‬نحدد هل ال )‪ (variance‬للمجتمع ام للعينة‬ ‫⚫ في هذا المثال للعينة ‪:‬‬ ‫𝟐‬ ‫)̅‬ ‫𝒙‪∑(𝒙𝒋 −‬‬ ‫= 𝟐𝒔‬ ‫𝟏‪𝒏−‬‬ ‫‪ )2‬نجد قيمة ال ) ̅𝑥( ‪:‬‬ ‫‪∑xi‬‬ ‫‪5+10+3+4+12‬‬ ‫‪34‬‬ ‫=̅‬ ‫𝒙‬ ‫=‬ ‫=‬ ‫𝟖 ‪̅ = 𝟔.‬‬ ‫𝒙‬ ‫‪n‬‬ ‫‪5‬‬ ‫‪5‬‬ ‫‪x‬‬ ‫̅‬ ‫𝒙 ‪𝒙𝒋 −‬‬ ‫𝟐‬ ‫) ̅𝑥 ‪(𝑥𝑗 −‬‬ ‫‪5‬‬ ‫‪-1.8‬‬ ‫‪3.24‬‬ ‫‪ )3‬ننشأ جدول لتجميع البيانات ‪:‬‬ ‫‪10‬‬ ‫‪3.2‬‬ ‫‪10.24‬‬ ‫‪)4‬االن نطبق على القانون‪:‬‬ ‫‪3‬‬ ‫‪-3.8‬‬ ‫‪14.44‬‬ ‫‪4‬‬ ‫‪-2.8‬‬ ‫‪7.84‬‬ ‫‪12‬‬ ‫‪5.2‬‬ ‫‪27.04‬‬ ‫𝟐‬ ‫)̅‬ ‫𝒙‪∑(𝒙𝒋 −‬‬ ‫= 𝟐𝒔‬ ‫𝟏‪𝒏−‬‬ ‫𝟐‬ ‫‪3.24 + 10.24 + 14.44 + 7.84 + 27.04‬‬ ‫‪62.8‬‬ ‫= 𝒔‬ ‫=‬ ‫‪5−1‬‬ ‫‪4‬‬ ‫‪⚫ find the standard deviation :‬‬ ‫‪𝒔𝟐 = 15.7‬‬ ‫‪𝑠 = √𝑠 2‬‬ ‫‪𝑠 = √14.1 = 3.7549‬‬ ‫‪34‬‬ STAT 101 , Example: ‫السبيل‬ The deviation of data from to mean : 2.5 , 1.8 , -4.6 , -2.1 , c 1) find (c) ANS: Deviation = ∑(𝒙𝒋 ̅) = 0 −𝒙 2.5+1.8+(-4.6)+(-2.1)+c =0 -2.4+c=0 C = 2.4 2) find the variance ANS: 2 2 ∑(𝑥𝑗 −𝑥̅ ) (2.5)2 +(1.8)2 +(−4.6)2 +(−2.1)2 +(2.4)2 𝑠 = = 𝑛−1 5−1 40.82 𝑠2= 𝒔𝟐 = 𝟏𝟎. 𝟐𝟎𝟓 4 Example: For a data set of 5 observations measurement where 5 ∑𝑛=1(𝑥𝑖 )2 = 465 and ∑5𝑛=1 𝑥𝑖 =45 Find the standard deviation ANS: 5 ∑𝑛=1(𝑥𝑖 )2 45 𝑥̅ = = 𝑥̅ = 9 5 5 2 ∑(𝑥𝑗 ) −𝑛(𝑥̅ )2 465−5∗(9)2 60 𝑠 2= = 5−1 = 𝑠 2 = 15 𝑛−1 4 35 ‫‪STAT 101‬‬ ‫‪,‬‬ ‫السبيل‬ ‫‪𝑠 = √𝑠 2‬‬ ‫‪𝑠 = √15‬‬ ‫‪S=3.872‬‬ ‫‪Example :‬‬ ‫‪5‬‬ ‫‪n = 5 ,, 𝑠 2 = 5.7,, ∑𝑛=1(𝑥𝑖 )2 =95‬‬ ‫) ‪find the sample mean (positive‬‬ ‫‪ANS:‬‬ ‫‪2‬‬ ‫‪∑(𝑥𝑗 ) −𝑛(𝑥̅ )2‬‬ ‫=‪𝑠 2‬‬ ‫‪𝑛−1‬‬ ‫‪95−5∗(𝑥̅ )2‬‬ ‫=‪5.7‬‬ ‫‪4‬‬ ‫‪5.7*4=95-5*(𝑥̅ )2‬‬ ‫‪22.8=95-5*(𝑥̅ )2‬‬ ‫𝟒𝟒 ‪̅)𝟐 = 𝟏𝟒.‬‬ ‫𝒙(‬ ‫̅𝑥(*‪5‬‬ ‫‪)2‬‬ ‫‪= 72.2‬‬ ‫هسا في عنا مالحظة اخيرة بخصوص هذا الموضوع‬ ‫اذا كان بالسؤال كلمة )‪ (approximate‬او )‪(estimated‬بستخدم القانون ‪:‬‬ ‫𝑅‬ ‫=‪S‬‬ ‫‪n≈25‬‬ ‫‪4‬‬ ‫𝑅‬ ‫=‪S‬‬ ‫‪n≈10‬‬ ‫‪3‬‬ ‫𝑅‬ ‫=‪S‬‬ ‫‪n≈5‬‬ ‫‪2.5‬‬ ‫‪36‬‬ ‫‪STAT 101‬‬ ‫‪,‬‬ ‫‪Example:‬‬ ‫السبيل‬ ‫‪A set 25 measurments, and the range is 22,‬‬ ‫‪find the standard deviation.‬‬ ‫‪ANS:‬‬ ‫𝑅‬ ‫=‪S‬‬ ‫‪4‬‬ ‫‪22‬‬ ‫=‪S‬‬ ‫‪4‬‬ ‫‪S=5.5‬‬ ‫‪Notes:‬‬ ‫‪ )1‬دائما قيمة كل من 𝒔 و 𝟐𝒔 و ‪ R‬موجبة‬ ‫‪ )2‬كلما زاد قيمة كل من 𝒔 أو 𝟐𝒔 أو ‪ R‬يزداد مقدار التشتت‬ ‫‪ )3‬اذا كان 𝒔 أو 𝟐𝒔 أو ‪ R‬قيمتهن تساوي صفر‪ ,‬هذا يعني أن جميع قيم العينة متساوية‬ ‫‪Example:‬‬ ‫}‪Data set : { 8,8,8,8,8‬‬ ‫‪Find the variance.‬‬ ‫‪ANS: 𝑠 2 = 0‬‬ ‫‪37‬‬ ‫‪STAT 101‬‬ ‫‪,‬‬ ‫وهسا رح نتعرف على قاعدتين من خاللهم رح نتعرف على قوة البيانات من‬ ‫السبيل‬ ‫خالل االنحراف المعياري‬ ‫)‪(Tchepysheff Theorem and Empirical Rule‬‬ ‫وبهذول القاعدتين منقدر نتعرف على وصف البيانات بس هون احنا بحاجة لنكون عارفين‬ ‫قيم كل من ‪:‬‬ ‫‪n , S ,‬‬ ‫̅‬ ‫𝒙‬ ‫‪1) Tchepysheff Theorem:‬‬ ‫⚫نستخدم هذه القاعدة الي نوع من البيانات‬ ‫القيم الناتجة معنا بتكون تقريبية والدليل انو منكون كاتبين باالجابة )على االقل ‪(at least‬‬ ‫⚫ في قانون ثابت معنا لهذه القاعدة ‪:‬‬ ‫𝒙 (=)‪̅ ± ks‬‬ ‫𝒙(‬ ‫𝒙 ‪̅ – ks ,‬‬ ‫)‪̅ + ks‬‬ ‫𝒙 و ‪ s‬اما شو هاي )‪(k‬‬ ‫طيب احنا منعرف ̅‬ ‫عدد االنحرافات = ‪K‬‬ ‫هذا القانون يعبر عن فترة البيانات حسب عدد االنحرافات )‪(k‬‬ ‫⚫استخدام اخر ل)‪(k‬‬ ‫نستخدمها لمعرفة نسبة البيانات عن طريق القانون ‪:‬‬ ‫𝟏‬ ‫‪𝟏−‬‬ ‫𝟐𝒌‬ ‫⚫دائما قيمة )‪(k‬اكبر او تساوي (‪)1‬‬ ‫𝟏≥𝒌‬ ‫𝒙)‬ ‫) ‪̅ ± ks) → (data within k standard deviation of the mean‬‬ ‫والنسبة الي بتطلع معنا من القانون‬ ‫𝟏‬ ‫‪𝟏−‬‬ ‫𝟐𝒌‬ ‫𝒙)‬ ‫هي موجودة بالفترة‪̅ ± ks) :‬‬ ‫‪38‬‬ STAT 101 , ‫ مش مشكلة بعد االمثلة الك تكون راضي‬, ‫حاس حالك مش فاهم‬ ‫السبيل‬ Example: ̅ -2s 𝑿 ̅ 𝑿 ̅ +2s 𝑿 ⚫(𝐱̅ ± 2 s( → k=2 ⚫data within 2 standard deviation of the mean. 𝟏 ⚫contains at least : 𝟏− 𝒌𝟐 𝟏 𝟏 𝟏 𝟏− = 𝟏− = 𝟏− = 0.75 𝒌𝟐 (𝟐)𝟐 𝟒.: ‫ من خالل الفترة المبينة بالجدول حيث ان‬K=2 ‫في هذا المثال عرفنا انو قيمة‬ (k) → ‫تمثل عدد االنحرافات‬ Example: ̅ - 3s 𝒙 ̅ 𝑿 ̅ + 3s 𝑿 ⚫(𝐱̅ ± 3 s( → k=3 ⚫data within 3 standard deviation of the mean. 𝟏 ⚫contains at least : 𝟏− 𝒌𝟐 𝟏 𝟏 𝟏− = 𝟏− 𝒌𝟐 (𝟑)𝟐 𝟏 𝟏 − ≈ 0.89 𝟗 39 STAT 101 , Example: ‫السبيل‬ ̅ -s 𝑿 ̅ 𝑿 ̅ +s 𝑿 ⚫(𝐱̅ ± s( → k=1 ⚫data within 1 standard deviation of the mean. 𝟏 ⚫contains at least : 𝟏− 𝒌𝟐 𝟏 𝟏 𝟏− = 𝟏− = zero 𝒌𝟐 (𝟏)𝟐 ‫⚫تجربة عديمة الفائدة‬ (Tchepysheff Theorem) ‫هسا خلينا نوخذ كم مثال اخليك تفهم كل اشي حول ال‬ Example(1): some data set with 𝑥̃ = 120 and 𝑠 = 5 using Tchepysheff theorem approximately to find the proportion (percentage ‫)النسبة‬ of data in the interval (105,135). ‫ = ̃𝑥 وبطلب منا نسبة البيانات في الفترة‬120 ‫ = 𝑠 و‬5 ‫هو بهذا المثال اعطانا قيمة‬ )105,135( ANS: ( ̅x ± ks) → (𝑥 ̅- ks , 𝑥̅ + ks)=(105,135) 105 = 𝑥̅ – ks 135=𝑥̅ + ks 105 = 120 - K*5 135 =120+K*5 5*K = 15 5*K = 15 K=3 40 STAT 101 , The interval (105,135) contains at least : 1 − 1 ‫السبيل‬ 𝑘2 1 1 1− = 1− 𝑘2 (3)2 1 1− ≈ 0.89 9 Example(2): Sample mean of some data is 84 and standard deviation (s).The proportion (percentage ‫ )النسبة‬of data within is at least 75% and the interval width is 4.8 find (s): ANS: %75 = ‫) هو بحكيلي انو النسبة‬1( 1 75 1 25 1− = ≈ 𝑘2 100 𝑘2 100 100 𝑘2= 𝑘2= 4 25 𝐾=2 : ‫ منستنتج انو‬4.8= ‫) من خالل المعطى انو طول الفترة‬2( ‫طول الفترة = الحد االكبر من الفترة – الحد االصغر من الفترة‬ ̅ + ks) –( 𝒙 Width of interval = ( 𝒙 ̅ − ks) Width of interval =2*ks : ‫ يعني‬, ‫⚫هذا هو القانون الي بدي اوصلو‬ 𝟐∗𝟐∗𝒔 𝟒.𝟖 = S = 1.2 𝟒 𝟒 ‫(نحفظها‬k )‫( تعالوا اعطيكوا اكثر القيم استخداما لل‬k) ‫بعد ما عرفنا كيف نتعامل مع ال‬ K=1 → ( ̅𝐱 ± ks) → at least 0% of data K=2 → ( ̅𝐱 ±2* ks) → at least 75% of data K=3 → ( ̅𝐱 ± 3*ks) → at least 89% of data 41 STAT 101 , Example: ‫السبيل‬ Find the interval if you know 𝑥̅ = 120 , the variance=225 and the interval contains at least 89% of the data. ANS: 1 1− = 89% 𝑘2 ‫ بتكون‬%89 ‫احنا عرفنا انو لما تكون النسة‬ K=3 𝑠 = √𝑠 2 𝑠 = √225 𝑠 = 15 Interval: ̅ ± ks)=( 𝒙 (𝒙 ̅ – ks , 𝒙 ̅ + ks) ̅ ± ks)=( 120-3*15 , 120+3*15) (𝒙 ̅ ± ks) = ( 75 , 165) (𝒙 Example: If you know the number of observations in data set is 385 and the sample mean is 20 and standard deviation is 4 then find the number of measurement in (12 , 28 ). ANS: ‫في هذا المثال اعطانا عدد عناصر البيانات وعطانا فترة معينة وطلب منا عدد البياناتت‬ ‫الموجودة في هذه الفترة‬ : ‫هون في قانون سهل للحل‬ NUMBER = n * percentage n → ‫عدد البيانات الكلي‬ Percentage → ‫نسبة البيانات‬ 42 STAT 101 , ‫السبيل‬ :‫طريقة الحل‬ K ‫⚫ اوال نجد قيمة‬ ̅ – ks = 12 𝒙 20 – k*4 = 12 K =2 )Percentage( ‫⚫ ثانيا نجد ال‬ 𝟏 𝟏 𝟏− = 𝟏− 𝒌𝟐 (𝟐)𝟐 𝟏 𝟏− = 0.75 𝟒 NUMBER = n * percentage NUMBER = 385*0.75 = 288.75 “THE EMPERICAL RULE” Symmetric (mound shape) ‫هذه القاعدة تستخدم فقط في حالة كان شكل البيانات‬ ‫ انو ما عندي قانون معين عشان اجد نسبة البيانات في فترة معينة‬Tchepyshefff ‫هون بفرق عن‬ ‫⚫ال‬ given a distribution of measurements that is approximately mound- shaped: ⚫The interval µ   contains approximately 68% of the measurements. ⚫The interval µ 2 contains approximately 95% of the measurements. ⚫The interval µ 3 contains approximately 99.7% of the measurements 43 STAT 101 , ‫السبيل‬ ‫هاي الرسمة بتحددلك كل فترة كم نسبة البيانات فيها لو تفهمها باالول بعدين تحفظها بكون‬...... ‫افضل ألنو الحل رح يصير مباشر كمان شوي‬ K=? Percentage interval K =1 approximately 68% µ K=2 approximately 95% µ 2*  K=3 approximately 99.7% µ 3*  : ‫ اذا شفت بالسؤال‬EMPERICAL ‫ وال‬Tchepyshefff ‫بتسألني كيف بدي اميز اذا السؤال‬ at least Tchepyshefff approximately EMPERICAL RULE Example: Assume some data has a mound shape with mean 72 and standard deviation 7.6 44 STAT 101 , (1) using the empirical rule what interval contains nearly 95% of data.‫السبيل‬ ANS: )µ 2*  ( ‫ هي بالفترة‬95% ‫حكينا بالرسمة وبالجدول انو النسبة‬ Interval → ( µ -2*  , µ +2* ) (72-2*7.6 , 72+2*7.6) →( 56.8 , 87.2) (2) find the approximately the proportion (percentage ‫ )النسبة‬of data in : (𝑥̅ − 2.5 𝑠 , 𝑥̅ + 2.5 𝑠) ANS: K=2.5 )Tchepysheff theorem( ‫( منستخد قانون ال‬k)‫لما تكون قيمة ال‬ 𝟏 𝟏− 𝒌𝟐 𝟏 𝟏 𝟏− = 𝟏− 𝒌𝟐 (𝟐.𝟓)𝟐 𝟏 𝟏− = 0.84 𝟔.𝟐𝟓 Example: For a mound shape the 𝑥̅ = 120 and S=6 Find the proportion (percentage ‫)النسبة‬: 1) (108, 132) ANS: 𝑥̅ − 𝐾 ∗ 𝑆 = 108 𝑥̅ + 𝐾 ∗ 𝑆 = 132 120-6*K=108 120+6*K=132 6*K=12 6*K=12 K=2 K=2 Interval → (𝒙 ̅ + 𝟐 𝒔 ) → percentage (95%) ̅−𝟐𝒔, 𝒙 45 STAT 101 , 2) (120, 132) ‫السبيل‬ ANS: 𝑥̅ − 𝐾 ∗ 𝑆 = 120 𝑥̅ + 𝐾 ∗ 𝑆 = 132 120-6*K=120 120+6*K=132 6*K=0 6*K=12 K=0 K=2 Interval → (𝒙 ̅ + 𝟐 𝒔 ) → percentage (47.5%) ̅, 𝒙 ̅ + 𝟐 𝒔 ( ‫ الحظ هون الفترة‬,,, 47.5% ‫هون من وين جبت ال‬ ̅, 𝒙 (𝒙 ̅ + 𝟐 𝒔) ‫الي تعتبر نصف نسبة الفترة‬ ̅ − 𝟐𝒔 , 𝒙 (𝒙 3) (132, 138) 𝑥̅ − 𝐾 ∗ 𝑆 = 132 𝑥̅ + 𝐾 ∗ 𝑆 = 138 120-6*K=132 120+6*K=138 6*K= -12 6*K=18 K= -2 K=3 Interval → (𝒙 ̅ + 𝟑 𝒔 ) → percentage (2.35%) ̅+𝟐𝒔, 𝒙 4) (-∞ , 𝟏𝟎𝟐) ANS: 𝑥̅ − 𝐾 ∗ 𝑆 = −∞ 𝑥̅ + 𝐾 ∗ 𝑆 = 102 120-6*K=-∞ 120+6*K=102 6*K=-∞ 6*K=-18 K=-3 K= -∞ Interval → (− ∞ , 𝒙̅ − 𝟑 𝒔 ) → percentage( 0.15%) ̅̅̅̅̅̅ 46 ‫‪STAT 101‬‬ ‫‪,‬‬ ‫‪Example:‬‬ ‫السبيل‬ ‫‪A data set has 300 observations with mound shape , x̅ = 80 and s=7‬‬ ‫)‪) of data in (73, 87‬النسبة ‪1) find the proportion (percentage‬‬ ‫‪ANS:‬‬ ‫‪𝑥̅ − 𝐾 ∗= 73‬‬ ‫‪𝑥̅ + 𝐾 ∗ 𝑆 = 87‬‬ ‫𝟑𝟕‪80-7*K= -‬‬ ‫‪80+7*K=87‬‬ ‫‪7*K=7‬‬ ‫‪7*K=7‬‬ ‫‪K= 1‬‬ ‫‪K=1‬‬ ‫𝒙( → ‪Interval‬‬ ‫)‪̅ + 𝒔 ) → percentage (68%‬‬ ‫𝒙 ‪̅− 𝒔 ,‬‬ ‫‪2) approximately the number of data in the interval.‬‬ ‫‪ANS:‬‬ ‫عدد البيانات الكلي → ‪n‬‬ ‫نسبة البيانات → ‪Percentage‬‬ ‫‪NUMBER = n * percentage‬‬ ‫‪NUMBER = 300*0.68‬‬ ‫‪= 204‬‬ ‫‪Measures of Relative Standing‬‬ ‫مقاييس الموقع النسبي‬ ‫يقدم هذا القسم مقاييس الوضع النسبي‪ ،‬وهي أرقام توضح موقع قيم البيانات نسبة إلى القيم‬ ‫األخرى ضمن مجموعة البيانات‪.‬ويمكن استخدامها لمقارنة القيم من مجموعات بيانات‬ ‫مختلفة‪ ،‬أومقارنة القيم ضمن نفس مجموعة البيانات‪.‬المفهوم األكثر أهمية هو النتيجة ‪.z‬‬ ‫وسوف نناقش أيضا النسب المئوية والربيعية‪ ،‬باإلضافة إلى رسم بياني إحصائي جديد يسمى‬ ‫‪boxplot‬‬ ‫‪47‬‬ STAT 101 , (1) Z - Scores: ‫السبيل‬ ‫ يتم العثور على النتيجة‬Z ‫عن طريق تحويل قيمة إلى مقياس قياسي وتمثل عدد المعايير‬ : ‫ يتم حسابه على النحو التالي‬.‫االنحرافات التي تكون فيها قيمة البيانات من المتوسط‬ ̅ 𝒙−𝒙 Z(x) = 𝑺 Example: Scores on a test have a mean of 70 and a standard deviation of 11. Michelle has a score of 48. Convert Michelle's score to a z-score. ANS: ̅ 𝒙−𝒙 𝟒𝟖−𝟕𝟎 −𝟐𝟐 Z(x) = = = = -2 𝑺 𝟏𝟏 𝟏𝟏 ?? ‫ بالنسبة للبيانات‬Z score ‫هسا كيف بدنا نعبر عن موقع ناتج ال‬ ̅ Z(x) < 0 x is smaller than (below) 𝒙 ̅ Z(x) > 0 x is greater than (above) 𝒙 ̅ Z(x) = 0 x is equal 𝒙 Outlier unlikely/ unusual usual/likely/ordinary unlikely/ unusual outlier suspect outlier suspect outlier ̅ - 3s 𝑿 ̅ – 2s 𝑿 ̅ 𝑿 ̅ + 2s 𝑿 ̅ + 3s 𝑿 Z score ‫هذا الشكل بوصف نوع المشاهدات الناتجة من ال‬ 48 STAT 101 , ‫السبيل‬ : ‫وعنا ثالث انواع من المشاهدات‬ )usual( ‫ بكون نوع المشاهدة‬2-‫ و‬2 ‫ بين ال‬z score ‫⚫ لما يكون ناتج ال‬ 3-‫ و‬2-‫ أو بين ال‬3‫و‬2 ‫ بين ال‬Z score ‫⚫لما يكون ناتج ال‬ (unusual) ‫بكون نوع المشاهدة‬ (Outliers) ‫ بكون نوع المشاهدة‬3- ‫ أو أقل من‬3 ‫ أكبر من‬z score ‫لما يكون ناتج ال‬ ⚫ : Z score ‫االن خلينا نعبر عن موقع ال‬ EXAMPLE: 1 < Z(X) < 2 ANS: X is above the mean and between one and two standard of the mean ) 𝐱̅ + 𝐬 , 𝐱̅ + 𝟐 𝐬 ) 2 S ‫ و‬S ‫ أنها أكبر من ̅𝐱 وتقع بين‬X ‫يعبر عن‬ Example: Mound shape data 𝑥̅ = 140 , 𝑠 = 10 using (z-score) ,Explain the standing of: 1) x=152 ANS: 𝑥−𝑥̅ 152−140 12 Z(x) = = = = 1.2 𝑆 10 10 X=152 is above the mean and between one and two standard deviation of the mean → ) x̅ + s , x̅ + 2 s ) 49 STAT 101 , 2) obtain the z-score x=137, x=164, x=105 and identity their type. ‫السبيل‬ ANS: X=137 𝑥−𝑥̅ 137−140 −3 Z(x) = = = = -0.3 𝑆 10 10 TYPE → (Usual , likely , ordered ) X=164 𝑥−𝑥̅ 164−140 22 Z(x) = = = = 2.2 𝑆 10 10 TYPE → (Unusual , Unlikely, suspect outliers) X=105 𝑥−𝑥̅ 105−140 −35 Z(x) = = = = -3.5 𝑆 10 10 TYPE → (Outliers) Example: Scores on a test have a mean of 70 and a standard deviation of 11. Michelle has a score of 48. Convert Michelle's score to a z-score. ANS: ̅ 𝒙−𝒙 𝟒𝟖−𝟕𝟎 −𝟐𝟐 Z(x) = = = = -2 𝑺 𝟏𝟏 𝟏𝟏 X has a z-score of 2. This means that z-score of 48 was 2 standard deviations below the mean ̅ -2s (‫ يعني موقعها كان‬ 𝟐𝒔 ‫ كانت أقل من ال 𝒙̅ ب‬x ‫الحظ انو هون ال‬ (𝒙 (𝒌) ‫ تتناسب طرديا مع‬z-score ‫⚫نالحظ من هذا المثال أن قيمة‬ ‫( مع اشارتي الموجب والسالب‬k)‫ تساوي قيمة ال‬z-score ‫حيث أن قيمة‬ 50 STAT 101 , ‫السبيل‬ : ‫مثال‬ ̅ → z(x)= 0 X=𝑿 , ̅ +2s→ z(x)= 2 X=𝒙 ̅ + s → z(x)= 1 X=𝑿 , ̅ +3s→ z(x)= 3 X=𝒙 ̅ - 3s → z(x)= -3 X=𝑿 , ̅ -s→ z(x)= -1 X=𝒙 Example: a score on a test with a mean of 70 and a standard deviation of 8.the z-score to a score is 1.75.find the score … ANS: Z(X)=1.75 , S =8 , 𝑥̅ = 70 , X=? 𝑥−𝑥̅ 𝑋−70 Z(x) = =1.75= 𝑆 8 8*1.75 = X -70 14+70 = X X=84 Example: The deviation of four observations about mean were; 1, -2,0, -1 Find the z-score for the second observation. ANS: X= -2 ̅=𝟎 𝒙 𝟐 2 ̅) ∑(𝒙𝒋 −𝒙 (𝟏)𝟐 +(−𝟐)𝟐 +(𝟎)𝟐 +(−𝟏)𝟐 𝑠 = = 𝒏−𝟏 𝟒−𝟏 6 𝑠2 = = 2 → 𝑠 = √2 s=1.4 3 ̅ −𝟐−𝟎 Z(x) = = -1.4 𝟏.𝟒 51 ‫‪STAT 101‬‬ ‫‪,‬‬ ‫النسبة المئوية ‪Percentile:‬‬ ‫السبيل‬ ‫⚫هي مقياس اخر للمكانة النسبية‬ ‫⚫نفس مبدأ ال ‪ z-score‬النه بيعطيني نسبة المشاهدات بالنسبة المئوية‬ ‫⚫ مثال كان عندي مشاهدة معينة وبدي أعرف موقعها بين المشاهدات‬ ‫⚫ال ‪ Percentile‬بتخليني أعرف النسبة األقل من هاي المشاهدة‬ ‫‪𝑃70 = 70𝑡ℎ = 70%‬‬ ‫هون ال‪ 70%‬هي نسبة البيانات األقل من المشاهدة الي انا طالبها‬ ‫‪𝑃30 = 30𝑡ℎ = 30%‬‬ ‫طيب شو الخطوات عشان اعرف موقع هاي النسبة ‪:‬‬ ‫‪ )1‬رتب لبيانات تصاعديا (من االصغر الى االكبر)‬ ‫‪ )2‬نجد الموقع عن طريق القانون ‪:‬‬ ‫النسية‬ ‫=‪P‬‬ ‫)‪* (n+1‬‬ ‫𝟎𝟎𝟏‬ ‫هون انا بجد موقع القيمة مثال كان الناتج (‪ )4‬بروح على البيانات الي رتبهتا‬ ‫تصاعديا وبختار القيمة الرابعة من البيانات‬ ‫طيب لو كان الناتج من هذا القانون عدد كسري مثال ‪ P=4.8‬كيف نجد القيمة ?‬ ‫هون في قانون ثاني لالعداد الكسرية ‪:‬‬ ‫𝒙‬ ‫‪.‬‬ ‫𝒙( ‪= 𝒙 + 0.‬‬ ‫𝟏‪+‬‬ ‫) 𝒙‪-‬‬ ‫)𝟒𝒙 ‪𝒙𝟒.𝟖 = 𝒙𝟒 + 𝟎. 𝟖(𝒙𝟒+𝟏 −‬‬ ‫)𝟒𝒙 ‪𝒙𝟒.𝟖 = 𝒙𝟒 + 𝟎. 𝟖(𝒙𝟓 −‬‬ ‫‪Example:‬‬ ‫‪Data set: 8, 5, 1, 12, 10‬‬ ‫‪Find: 𝑝25 , 𝑝50‬‬ ‫‪52‬‬ ‫‪STAT 101‬‬ ‫‪,‬‬ ‫‪ANS:‬‬ ‫السبيل‬ ‫‪ )1‬رتب البيانات تصاعديا‬ ‫‪1, 5, 8, 10, 12‬‬ ‫‪ )2‬نجد موقع القيممة من خالل القانون ‪:‬‬ ‫النسية‬ ‫=‪P‬‬ ‫)‪* (n+1‬‬ ‫𝟎𝟎𝟏‬ ‫‪25‬‬ ‫= ‪⚫P‬‬ ‫)‪* (5+1‬‬ ‫‪100‬‬ ‫𝟏‬ ‫=‬ ‫‪* (6)= 1.5‬‬ ‫𝟒‬ ‫بما ان )‪ (P‬عدد كسري نتجه للقانون األخر ‪:‬‬ ‫𝒙‬ ‫‪.‬‬ ‫‪= 𝒙 + 0.‬‬ ‫𝒙(‬ ‫𝟏‪+‬‬ ‫) 𝒙‪-‬‬ ‫) ‪𝑥1.5 = 𝑥1 + 0.5(𝑥1+1 − 𝑥1‬‬ ‫)‪𝑥1.5 = 1 + 0.5(5 − 1‬‬ ‫‪𝑥1.5 = 1 + 3‬‬ ‫‪𝑝25 = 4‬‬ ‫‪50‬‬ ‫= ‪⚫P‬‬ ‫)‪* (5+1‬‬ ‫‪100‬‬ ‫‪1‬‬ ‫= ‪P‬‬ ‫)‪* (5+1‬‬ ‫‪=3‬‬ ‫‪2‬‬ ‫‪𝑝50 = 8‬‬ ‫االن نتجه للعنصر رقم ‪ 3‬من العناصر المرتبة تصاعديا‬ ‫‪Quartile:‬‬ ‫‪ →Lower quartile = 𝑝25‬الربع األول = 𝟏𝑸‬ ‫‪ →middle quartile = 𝑝50‬الربع الثاني= 𝟐𝑸‬ ‫‪ →upper quartile = 𝑝75‬الربع الثالث= 𝟑𝑸‬ ‫‪53‬‬ ‫‪STAT 101‬‬ ‫‪,‬‬ ‫‪Example:‬‬ ‫السبيل‬ ‫‪Data set ; 7,8,9,6,11,10,5‬‬ ‫‪Find :‬‬ ‫‪1) 𝑄1 , 2)𝑝60 , 3)Upper quartile‬‬ ‫نرتب البيانات تصاعديا‬ ‫‪5,6,7,8,9,10,11‬‬ ‫‪ANS:‬‬ ‫𝟓𝟐𝒑 = 𝟏𝑸 )‪1‬‬ ‫النسية‬ ‫=‪P‬‬ ‫)‪* (n+1‬‬ ‫‪100‬‬ ‫‪25‬‬ ‫=‪P‬‬ ‫‪* (7+1) =2‬‬ ‫‪100‬‬ ‫بما ان ‪ P=2‬نذهب للعناصر المرتبة تصاعديا ونأخذ القيمة الثانية من البيانات‬ ‫‪𝑄1 = 𝑝25 = 6‬‬ ‫𝟎𝟔𝒑 )‪2‬‬ ‫‪60‬‬ ‫=‪P‬‬ ‫‪* (7+1) = 4.8‬‬ ‫‪100‬‬ ‫بما ان)‪(p‬عدد كسري االن نتجه للقانون االخر ‪:‬‬ ‫𝑥‬ ‫‪.‬‬ ‫𝑥( ‪= 𝑥 + 0.‬‬ ‫‪+1‬‬ ‫) 𝑥‪-‬‬ ‫)‪𝑥4.8 = 𝑥4 + 0.8(𝑥4+1 − 𝑥4‬‬ ‫= ( ‪𝑥4.8 = 8 + 0.8(8 − 9‬‬ ‫‪8.8‬‬ ‫𝟓𝟕𝒑 = 𝟑𝑸 = ‪3) upper quartile‬‬ ‫‪75‬‬ ‫=‪P‬‬ ‫)‪* (7+1‬‬ ‫‪100‬‬ ‫‪3‬‬ ‫‪P= * (8) = 6‬‬ ‫‪4‬‬ ‫‪54‬‬ ‫‪STAT 101‬‬ ‫‪,‬‬ ‫السبيل‬ ‫االن نذهب للبيانات المرتبة تصاعديا ونختار القيمة السادسة‬ ‫‪𝑸𝟑 = 𝒑𝟕𝟓 =10‬‬ ‫مالحظة‪:‬‬ ‫القيمة الي اقل منها ‪ 60%‬والي اكبر منها ‪𝒑𝟔𝟎 → 40%‬‬ ‫القيمة الي اقل منها ‪ 35%‬والي اكبر منها ‪𝒑𝟑𝟓 → 65%‬‬ ‫⚫ فمنقدر نحكي عن 𝟎𝟔𝒑انها‪:‬‬ ‫‪⚫ less than 40% of the data‬‬ ‫‪⚫ more than 60% of the data‬‬ ‫وهذا ينطبق على باقي القيم‪................‬‬ ‫‪Five – Number‬‬ ‫‪min ,‬‬ ‫‪𝑄1 , 𝑄2 , 𝑄3‬‬ ‫‪, max‬‬ ‫أقل قيمة بالبيانات → ‪min‬‬ ‫أكبر قيمة بالبيانات → ‪max‬‬ ‫‪Range = max – min‬‬ ‫‪Ringe Quartile (IRQ)= 𝑄3 - 𝑄1‬‬ ‫‪Example:‬‬ ‫‪Data set : 25 , 4 , 18 , 11 , 13 , 20 , 8 , 11 , 9‬‬ ‫‪Find the five-number summary‬‬ ‫‪55‬‬ ‫‪STAT 101‬‬ ‫‪,‬‬ ‫السبيل) نرتب البيانات تصاعديا (من االصغر الى االكبر)‬ ‫‪1‬‬ ‫‪4 , 8 , 9 , 11 , 11 , 13 , 18 , 20 , 25‬‬ ‫‪ )2‬نجد قيمة كل من ‪ max‬و ‪min‬‬ ‫‪min = 4‬‬ ‫‪max = 25‬‬ ‫‪ )3‬نجد قيمة ‪ 𝑄1 = 𝑝25‬و ‪ 𝑄2 = 𝑝50‬و ‪𝑄3 = 𝑝75‬‬ ‫𝟓𝟐𝒑 = 𝟏𝑸‬ ‫النسية‬ ‫‪25‬‬ ‫=‪P‬‬ ‫→ )‪* (n+1‬‬ ‫‪* (9+1) =2.5‬‬ ‫‪100‬‬ ‫‪100‬‬ ‫𝑥‬ ‫‪.‬‬ ‫‪= 𝑥 + 0.‬‬ ‫𝑥(‬ ‫‪+1‬‬ ‫) 𝑥‪-‬‬ ‫)‪𝑥2.5 = 𝑥2 + 0.5(𝑥3 − 𝑥2‬‬ ‫→ )‪𝑥2.5 = 8+0.5(9-8‬‬ ‫‪𝑄1 = 8.5‬‬ ‫𝟎𝟓𝒑 = 𝟐𝑸‬ ‫النسية‬ ‫‪50‬‬ ‫=‪P‬‬ ‫→ )‪* (n+1‬‬ ‫‪* (9+1) =5‬‬ ‫‪100‬‬ ‫‪100‬‬ ‫االن نذهب للقيم المرتبة تصاعديا ونختار القيمة الخامسة‬ ‫‪𝑄2 = 11‬‬ ‫𝟓𝟕𝒑 = 𝟑𝑸‬ ‫النسية‬ ‫‪75‬‬ ‫=‪P‬‬ ‫→ )‪* (n+1‬‬ ‫‪* (9+1) =7.5‬‬ ‫‪100‬‬ ‫‪100‬‬ ‫واالن نتجه للقانون االخر ‪:‬‬ ‫𝑥‬ ‫‪.‬‬ ‫‪= 𝑥 + 0.‬‬ ‫𝑥(‬ ‫‪+1‬‬ ‫) 𝑥‪-‬‬ ‫) ‪𝑥7.5 = 𝑥7 + 0.5(𝑥8 − 𝑥7‬‬ ‫→( ‪𝑥7.5 = 18 + 0.5(20 − 18‬‬ ‫𝟗𝟏 = 𝟑𝑸‬ ‫‪56‬‬ ‫‪STAT 101‬‬ ‫‪,‬‬ ‫‪Five – Number‬‬ ‫السبيل‬ ‫‪min ,‬‬ ‫‪𝑄1 , 𝑄2 , 𝑄3‬‬ ‫‪, max‬‬ ‫‪4 , 8.5 , 11 , 19 , 25‬‬ ‫_ بدي اعطيك اكم شغلة يساعدنك بالحل ‪:‬‬ ‫‪⚫ 𝑸𝟐 = 𝒑𝟓𝟎 = Median‬‬ ‫يعني منقدر نطلع 𝟐𝑸 بنفس طريقة ال ‪ Median‬الي حكينا عنها ببداية هذا التشابتر‬ ‫⚫ اذا كان)‪ (P‬يساوي عدد كسري مثل ‪ P=2.35‬منقدر نوخذ‬ ‫} 𝟐𝒑 و 𝟑𝒑 ونجمعهم ثم نقسم مجموعهم على(‪{ )2‬‬ ‫‪ #‬هذا الحل غير دقيق لكن بسهل عليك حل الدوائر وما رح يجيبلك قيمتين قراب من بعض‬ ‫‪Example:‬‬ ‫‪Data set:‬‬ ‫‪1,3,5,8‬‬ ‫‪Find 𝑝47 :‬‬ ‫‪ANS:‬‬ ‫النسية‬ ‫‪47‬‬ ‫=‪P‬‬ ‫→ )‪* (n+1‬‬ ‫‪* (4+1) = 2.35‬‬ ‫‪100‬‬ ‫‪100‬‬ ‫‪𝒑𝟐 + 𝒑𝟑 3+5‬‬ ‫‪=4‬‬ ‫لو أخذنا ‪‬‬ ‫‪2‬‬ ‫‪2‬‬ ‫ولو عن طريق القانون ‪:‬‬ ‫𝒙‬ ‫‪.‬‬ ‫𝒙( ‪= 𝒙 + 0.‬‬ ‫𝟏‪+‬‬ ‫) 𝒙‪-‬‬ ‫) ‪𝑥2.35 = 𝑥2 + 0.35(𝑥3 − 𝑥2‬‬ ‫‪𝑥2.35 =3+0.35(5-3) = 3.7‬‬ ‫صحيح ان القيمتين غير متساويتين لكنهما متقاربتان لكن بسؤال الضع دائرة ما رح يجيبلك‬ ‫القيمتين ‪:‬فأنت بتوخذ أقرب قيمة لل(‪)4‬‬ ‫‪57‬‬ STAT 101 , ‫السبيل‬ Example: The five number summary 10 , 14 , 16 , 18 , 22 Find : 1)Range ANS: Range = max -min = 22-10 = 12 2)Range quartile (IRQ) ANS : IRQ = 𝑄3 - 𝑄1 = 18-14 = 4 THE BOX PLOT ‫مخطط الصندوق‬ Five – number summary ‫يعتمد على‬ : ‫ في عدة مهام منها‬Box plot ‫نستخدم ال‬ ‫) يستخدم في معرفة شكل التوزيع‬1 (symmetric / skewed right / skewed left) (outliers) ‫) معرفة اذا كان بالبيانات قيم مطرفة‬2 Box plot ‫⚫واالن خلينا نتعلم كيف نرسم‬ Five number summary ‫كل الي بحتاجو هو‬ 65, 70, 75, 80, 85, 90, 95 :‫مثال عندي القيم‬ Q1=70 (Q2 OR Median)=80 Q3=90 58 ‫‪STAT 101‬‬ ‫‪,‬‬ ‫السبيل‬ ‫‪ )1‬أول اشي برسم خط أعداد‬ ‫‪ )2‬بضع قيم ‪ 𝑄1‬و ‪ 𝑄3‬على خط االعداد وبرسم فوقهم مستطيل‬ ‫‪Q1=70‬‬ ‫‪Q3=90‬‬ ‫‪ )3‬بجيب ‪ 𝑄2‬وبضعها على خط االعداد وبضع بالمستطيل الي فوقها خط على مستواها‬ ‫قيمة‬ ‫‪70‬‬ ‫‪Q2=80‬‬ ‫‪90‬‬ ‫ممكن يتشكل عنا ‪ 3‬رسمات بال ‪Box plot‬‬ ‫طيب كيف بدي اميز اشكالهم تعالو شوفوا معي ‪:‬‬ ‫‪1) Symmetric‬‬ ‫‪59‬‬ ‫‪STAT 101‬‬ ‫‪,‬‬ ‫‪2) Skewed Right‬‬ ‫السبيل‬ ‫‪3)Skewed left‬‬ ‫)‪(Mean < median‬‬ ‫)‪(Mean = median‬‬ ‫) ‪( mean >median‬‬ ‫لحد االن عرفنا كيف نرسم ال ‪Box plot‬وكيف نميز شكل التوزيع‬ ‫ونقارن بين ‪ median‬و ‪Mean‬‬ ‫⚫هسا بدنا نعرف كيف اذا البيانات فيها قيم متطرفة ) ‪ (outliers‬أو ال‬ ‫‪ #‬أول أشي منطلع ال ‪-:‬‬ ‫)‪1) lower fence = 𝑸𝟏 - 1.5 ( IRQ‬‬ ‫)‪2) Upper fence = 𝑸𝟑 +1.5 ( IRQ‬‬ ‫‪60‬‬ ‫‪STAT 101‬‬ ‫‪,‬‬ ‫‪IQR = Q3 - Q1‬‬ ‫السبيل‬ ‫‪IQR = 90 - 70 = 20‬‬ ‫‪Lower fence = 70 - 1.5 * 20 = 40‬‬ ‫‪Upper fence = 90 + 1.5 * 20 = 120‬‬ ‫⚫وهسا بضيفهم عل الرسمة‬ ‫‪Lower fence‬‬ ‫‪Upper fence‬‬ ‫⚫بعدين بجيب جميع القيم الي بالمثال وبضيفهم على الرسمة‬ ‫‪40‬‬ ‫‪65‬‬ ‫‪70‬‬ ‫‪75‬‬ ‫‪80‬‬ ‫‪85‬‬ ‫‪90‬‬ ‫‪120‬‬ ‫⚫ بعد هيك منقارن البيانات ب ( ‪ ) upper fence‬و (‪)Lower fence‬‬ ‫اذا لقينا بالبيانات أي عنصر أقل من )‪ (lower fence‬أو أكبر من ال )‪(upper fence‬‬ ‫ال‬ ‫بكون هذا العنصر )‪(outlier‬‬ ‫‪ < Lower fence → outlier‬عنصر‬ ‫‪ > Upper fence‬عنصر‬ ‫‪→ outlier‬‬ ‫‪(No Outlier ) ‬‬ ‫طبعا ف بهذا المثال ما في قيم شاذة‬ ‫ومنستخدم النجمة (*) عشان نمثل ال )‪(outliers‬‬ ‫‪61‬‬ STAT 101 , ‫السبيل‬ ‫( وصار الزم نوخذ االمثلة الي بيجي مثلها‬Box plot) ‫وهيك منكون عرفنا كل افكار‬ ‫ال‬.......... ‫باالمتحان النو مستحيل يجي سؤال مثل هيك مع الرسم‬ Example: If you know the five-number summary are: 22, 24, 25, 28, 29 Answer the following questions: ⚫ The upper fence is : (a) 18 (b) 30 (c) 34 (d) 22 ⚫ For an outlier to exist, a number must be less than: (a) 18 (b) 30 (c) 34 (d) 22 : ‫بهذا السؤال بيحكيلك عشان يكون في قيم شاذة الوم يكون في عنصر اقل من‬ ⚫Which of the following values is considered an outlier? (a) 25.9 (b) 39 (c) 30 (d) 20 ⚫ the 𝒑𝟕𝟓 is : (a) 28 (b) 29 (c) 18 (d) 22 Example: Answer the following questions: 62 STAT 101 , ⚫ The Range quartile (IRQ) is : ‫السبيل‬ (a) 7 (b) 10.5 (c) 2 (d) 5 ⚫ The outlier is ; (a) 1 (b) 10.5 (c) 11.5 (d) none ⚫ The median is : (a) 7 (b) 5 (c) 2 (d) 5 Example : The five – number summary are ; 59 , 64.5 , 66 , 70 , 77 The shape of this data set is : (a) symmetric (b) skewed right (b) skewed left (c) none 63 STAT 101 , ‫أختبر نفسك‬ ‫السبيل‬ ⚫ The weights in kilogram of 5 students are: 51, 52, 57, 63, 42. Answer )1-3): 1) The sample mean is: (a) 53 (b) 60.5 (c) 52 (d) 7.78 2) An approximated value of S is: (a) 2.25 (b) 5.25 (c) 7.778 (d) 21 3) The median is: (a) 21 (b) 60.5 (c) 7.78 (d) 52 4) The five-number summary (0, 2, 5, 8, 30), if the data set contains exactly one outlier, then the outlier is: (a) 0 (b) 30 (c) 2 (d) 5 5) If the deviations of six observations from their mean are 2,- 3, -5, C, 3, 1, then the sample variance of these observations will be: (a) 6.4 (b) 8.8 (c)10.4 (d) 11.2 6) If the sample mean equals 324 and the sample variance equals 41, then the percent of observations inside the interval [298.4, 349.6] will be at least : (a) 94% (b) 89% (c) 56% (d) 84% 7) The third quartile of the data set (11, 10, 16, 10, 11, 12, 14, 15, 18, 13) will be: (a) 16.50 (b) 15.75 (c) 15.50 (d) 15.25 64 STAT 101 , 8) In a data set of 200 observations, the 35th percentile is 80. The ‫السبيل‬ number of observations greater than 80 is approximately: (a) 70 (b) 160 (c) 130 (d) 40 9) For a mound shape data, the proportion of data that falls in the interval (𝑥̃ + 𝑠 , 𝑥̃ − 3𝑠) is approximately: (a) 31.7% (b) 15.85% (c) 2.35% (d) 4.7% 10) If the z-score of an observation x is -1.7 , then the observation x falls ̅ ±s) (a) in (𝒙 ̅ –2s , 𝒙 (b) in( 𝒙 ̅) ̅, 𝒙 (c) below (𝒙 ̅ – 1.5s) ̅) (d) above (𝒙 11) 13. The five-number summary (0, 2, 5, 8, 10), the percentage of data the greater than 2 is : (a) 25% (b) 75% (c) 50% (d) 60% 12) 15. A data set with mean 5 and variance 81, then at least 11% of the observations lie in the interval : (a) (- 4.54, 14.54) (b) ( -80.86, 90.86) (c) (- 13, 23) (d) ( -22, 32) 13) If the average equals 3.29 with a standard deviation 0.95, then the z- score of x=1.77 is: (a) 1.6 (b) -1.6 (c) 1.7 (d) 5.32 14) if the five-Numbers summery of a set of data is as follows (2, 13, 25, 44, 85) then he shape of this data set is: (a) symmetric (b)skewed right 65 STAT 101 , (b) skewed left (d) none ‫السبيل‬ 15) If all values of a sample are same, then : (a) IQR = Range (b) IQR > Range (c) IQR < Range (d) none 16) if the sample mean equals 7.83 them the deviation of the value 7.5 is (a) -15.33 (b) -0.33 (c) 15.33 (d) 0.33 17) A set of data with n=380. the approximate number of observations between the lower quartile and 87𝑡ℎ percentile (𝑃87 ) is : (a) 87 (b) 95 (c) 236 (d)33 18) if the deviations of six observations from their mean are 2,- 3, -3, C, 3, 1, then the sample variance of these observations will be: (a) 10.4 (b) 11.2 (c) 8.8 (d) 6.4 19) The five-number summary of data set is :(34,67,81,92,135) Then the value upper -fence equals: (a) 54.5 (b) 104.5 (c) 129.5 (d) 29.5 20) If z-score =-2.9 for a given observation. Then this observation is considered as: (a) outlier (b) usual (c) unlikely (d) whisker 66 STAT 101 , ‫السبيل‬ 1 a 2 b 3 d 4 b 5 c 6 a 7 d 8 c 9 b 10 b 11 b 12 a 13 b 14 b 15 a 16 b 17 c 18 d 19 c 20 c 67 ‫‪STAT 101‬‬ ‫‪,‬‬ ‫‪Chapter 3‬‬ ‫السبيل‬ ‫”‪“Describing Bivariate Data‬‬ ‫وصف البيانات ثنائيه المتغير‬ ‫في الشابتر االول و الثاني قسنا الدراسات التي تتعلق بمتغير واحد ‪ ,‬في هذا الشابتر‬ ‫رح نحكي عن دراسه متغييرين‬ ‫‪.‬‬ ‫** الهدف من دراسه متغيرين (هدف الشابتر) معرفه ما اذا كان يوجد عالقه بين هذين‬ ‫المتغيرين و تحديدها ‪.‬‬ ‫** يطلق على الرسومات الخاصه بالبيانات الثنائيه اسم ‪Scatter plot‬‬ ‫مالحظه مهمه‪ :‬الشابتر يتحدث عن العالقات الخطيه فقط ( ‪(Linear‬‬ ‫**عند وجود خط مستقيم يلمس كل النقاط نسمي العالقه ‪Perfect linear‬‬ ‫‪positive‬‬ ‫عندما يكون الخط لالعلى‬ ‫‪negative‬‬ ‫عندما يكون الخط لالسفل‬ ‫‪Perfect linear‬‬ ‫‪positive‬‬ ‫‪Perfect linear‬‬ ‫‪negative‬‬ ‫‪68‬‬ ‫‪STAT 101‬‬ ‫‪,‬‬ ‫** ان النقاط التي ال تقع جميعها على نفس الخط نسمي العالقه ‪Strong linear‬‬ ‫السبيل‬ ‫‪Strong linear‬‬ ‫‪positive‬‬ ‫‪Strong linear‬‬ ‫‪negative‬‬ ‫**عندما تكون النقاط ليست على نفس الخط ومتفرقه بشكل متباعد تكون ‪Weak linear‬‬ ‫‪Weak linear‬‬ ‫‪positive‬‬ ‫‪69‬‬ ‫‪STAT 101‬‬ ‫‪,‬‬ ‫السبيل‬ ‫‪Weak linear‬‬ ‫‪negative‬‬ ‫‪no linear‬‬ ‫‪relationship‬‬ ‫‪Correlation Coefficient‬‬ ‫معامل االرتباط الخطي‬ ‫**يرمز ل معامل االرتباط الخطي ب ‪r‬‬ ‫** نستخدم معامل االرتباط لتحديد نوع العالقه عن طريق‬ ‫القيم‬ ‫**قانون معامل‬ ‫االرتباط‬ ‫𝑦𝑥𝑆‬ ‫=‪r‬‬ ‫𝑦𝑆 𝑥𝑆‬

Use Quizgecko on...
Browser
Browser