STAT101 Midterm Notes - PDF
Document Details
Uploaded by EvocativeCalcium
Yarmouk University
خالد عمر,محمد عبابنة, فريق تسال للهندسة الكهربائية
Tags
Summary
These notes cover STAT101 material, specifically focusing on describing data with graphs, variables, and experimental units. It also delves into different types of statistical representation and analysis.
Full Transcript
اﺣﺼﺎء 101 stat101 ﻣﺎﺩﺓ ﺍﻟﻤﻴﺪ ﺷﺮح اﻟﻤﺎدة ﻛﺎﻣﻠﺔ اﻋﺪاد ﺧﺎﻟﺪ ﻋﻤﺮ محمد عبابنة فريق تسال للهندسة الكهربائية STAT 101 , Chapter 1...
اﺣﺼﺎء 101 stat101 ﻣﺎﺩﺓ ﺍﻟﻤﻴﺪ ﺷﺮح اﻟﻤﺎدة ﻛﺎﻣﻠﺔ اﻋﺪاد ﺧﺎﻟﺪ ﻋﻤﺮ محمد عبابنة فريق تسال للهندسة الكهربائية STAT 101 , Chapter 1 السبيل Describing Data with Graphs " " وصف البيانات بإستخدام الرسوم البيانيه Variable: المتغير A variable is a characteristic that changes or varies over time and/or for different individuals or objects under consideration.. المتغير يعني الشيء الي بتغير مع مرور الوقت من شخص ل اخر لمختلف االفراد *مثال لما نعمل احصائيه للون الشعر على طالب كليه العلوم بنالقي منهم شعرهم اسود ومنهم شعرهم اشقر ف لون الشعر هون هو المتغير Example of variable: 1) Hair color لون الشعر 2) Blood type نوع الدمA+ B- O 3) Height and Weight الطول و الوزن Example 1: “The Blood type in students”. the variable is ……………... Ans: Blood type Example 2: ( )سنوات The mean weights of all the Students of Yarmouk university is 67kg. THE Variable is: a) Student b) 67kg c) university d) weights 1 STAT 101 , Experimental unit: وحده المعاينه السبيل Definition: is the individual or object on which a variable is measured. الفرد او الكائن التي يتم قياس المتغير عليه كيف يعنييي؟؟ هسا هون ايش المتغير ؟؟101 مثال لما اقلك بدنا نفحص زمره الدم لطالب شعبه احصاء صح زمره الدم طيب زمره الدم من مين لمين تغيرت ؟؟ من طالب ل طالب واحد صح ؟ ف وحده المعاينه هون رح يكون الطالب **مالحظه مهمه جدا ) يجب ان تكون وحده المعاينه قيمه ( مفرده Example: Hair color for 10 persons. The experimental unit is …………. ANS: person تذكر انو مفرد Example: An engineer wants to evaluate different types of engine oil used for cars based on certain car test score. 1( The variable is : a) cars b) test score c) types of engine oil d) engineer 2( The experimental unit is: )(سنوات a) Car test b) Test score c) engineer d) car 2 STAT 101 , measurement: القراءة (القياس) السبيل Definition: data value results when a variable is actually measured on experimental unit. نتائج قيمه البيانات (القيمه النهائيه للمتغير) **مثال لما اقلك انو عملنا احصائيه ع شعبه من شعب االحصاء و لقينا عندنا 10بنات و 8شباب ف هون شو حيكون ال measurement رح يكون الجواب النهائي الي هو 10بنات او 8شباب Example: When calculating the number of students studying major mathematics in the College of Science, the number was 200 students ANS: 1( The Variable is 1) Major 2) The experimental unit 2) Student 3) The measurement is 3) 200 students بعد ما عرفنا كيف نحدد المتغير ووحده المعاينه للمتغير تعالو نعرف كيف نتعامل مع البيانات Data: البيانات مثال لما بدنا نحسب نسبه المدخنين ب الجامعه احنا بنقدر نحسبها ع نوعين من البيانات اما اني اطلع النسبه عن طريق انو اعد المدخنين بالجامعه كامله(جميع العناصر)وهذا اسمه : مجتمع population is the set of all element (measurement) that belong to the scope of study. او انو نوخذ عينه من الجامعه مثال 200طالب و اطلع منهم النسبه وهاض االشي بنسميه (Sample: (subset in population عينه(:جزء من المجتمع ) 3 STAT 101 , Sample size(n) = حجم العينة السبيل Population size (N) = حجم المجتمع How many variables have you measured? كم عدد المتغيرات التي قمت بقياسها 1) univariate data: بيانات احاديه المتغير one variable is measured on a single experimental unit. متغير واحد مقاس على تجربه واحده Example: The height of student in YU عندنا متغير واحد الي هو الطول 2) Bivariate data: بيانات ثنائيه المتغير Two variable is measured on a single experimental unit. متغيران مقاسان على تجربه واحده Example: The height and Weight of student in YU عندنا متغيرين الوزن و الطول 3)Multivariate data: بيانات متعدده المتغيرات More than two variable اكثر من متغييرين يتم قياسهم على تجربه واحده Example: The blood group, the number of children and amount of income of 20 parents are measured يوجد لدينا ثالث متغييرات في هذا المثال يتم قياسهم على تجربه واحده 4 STAT 101 , السبيل نرجع نحكي شوي عن المتغيرهل المتغير الو انواع ؟؟ نعم ما هي انواع المتغير؟؟ Qualitative Quantitative نوعيه كميه Discrete Continuous ⚫ Qualitative: نوعيه المتغير الي ما بحتوي على ارقام و قيم عدديه مثل :لون الشعر ,مكان الوالده كمية ⚫Quantitative : يمكن التعبير عنها ب ارقام و اجراء عمليات حسابيه عليه مثل الطول ,العمر ,حجم العائله ويقسم الى نوعين اذا كان المتغير محدود 1) Discrete: كيف يعني؟؟ يعني عدد صحيح ال يمكن تجزئته مثل عدد افراد العائله 5 STAT 101 , 2)Continuous: السبيل يعني المتغير الي ممكن تجزئته يعني يمكن ان يحتوي على فواصل العمر او الوزن: عشريه مثل Example 1: The Major for 60 students is recorded. The data Type: )(سنوات (A)qualitative B) Discrete C) A student D) quantitative ** ننتبه انو هون المتغير هو التخصص ف التخصص نوعي مش شرط وجود رقم بالسؤال يعني المتغير عددي Example 2: The door chosen by mouse in a maze experiment (a, b and c). the data type: )(كتاب A) Mouse B) qualitative C) continuous (D) quantitative Example 4: The weights in kilogram of 5 students are: 51, 52, 57, 63, 42. The variable type is: (a) Discrete (b) Continuous (c) Qualitative (d) None Example 5: Number of consumers in a poll of 1000 who consider nutritional labeling on food products to be important. The variable type is: a) Discrete b) Continuous c)Qualitative d) poll 6 STAT 101 , number of اول ما تشوف بالسؤال:السبيل مالحظه تهكيريه * Discrete الجواب رح يكون “DATA” Univariate data Bivariate data Multivariate data Qualitative Qualitative Qualitative Quantitative Quantitative Quantitative Mixture Mixture (Qualitative and (Qualitative and quantitative) quantitative) Example 1: a random sample of 20 football players is selected. the height ( (الطولand preferred club in Jordan (النادي ) المفضلare measured, answer the following: ()سنوات 1) the type of data here is: Bivariate mixture ( عشان عنا متغيريينBivariate)هون احنا اخترنا ( عشان المتغيرين من نوعين مختلفيينmixture) واخترنا (height→quantitative) , (preferred club→qualitative) 2) the number 20 represent :)(يمثل sample size ()حجم العينة Example 2: “you asked 10 of your classmates about their degree “the data type is: a) univariate quantitative b) bivariate qualitative c) univariate qualitative d) discrete 7 STAT 101 , TYPES OF STATISTICS السبيل أنواع األحصائيات 1) Descriptive statistics: االحصاء الوضعي describing the data in sample by graphs and number.. وصف البيانات في العينة من خالل الرسومات واالرقام 2) Inferential statistics: )االحصاء االستقراري (االستداللي peducing information about the population bused on the sample تكوين معلومات مجتمع الدراسة على اساس العينة واستدالل ما يحتويه المجتمع من معلومات استنادا للمعلومات التي نحصل عليها Example: the number males in the data set is 2. (Descriptive statistics) then we say the number of females is 14. (Inferential statistics) 8 STAT 101 , السبيل Graphing Qualitative variables : في هذا الموضوع سنتعلم كيفيه التمييز بين الرسومات و خاصة بين Qualitative, Quantitative # Qualitative data: البيانات النوعيه : يوجد نوعين من الرسم يمكن تمثيل البيانات النوعيه من خاللها 1) Bar chart 2) Pie chart : ويتم قياس البيانات ب ثالث طرق 1. Frequency: عدد التكرار 2. Relative Frequency(RF): التكرار النسبي RF= Frequency / n 3. Percent: النسبه المئويه P= RF*100% # Bar chart خصائص ال 1) Qualitative data 2) Space between bars يوجد مسافات بين االعمده 3) Can not talk about shape of distribution and outliers 9 STAT 101 , Example: a random sample of size 10 dataset patients السبيل are observed for blood group data: A, O, AB, O, A, A, AB, O, B, O Summarize data in statistical table ANS: Blood Frequency Relative Percent group frequency O 4 RF=4/10=0.4 0.4*100%=40% A 3 RF=3/10=0.3 0.3 *100%=30% B 1 RF=1/10=0.1 0.1 *100%=10% AB 2 RF=2/10=0.2 0.2* 100%=20% Example: If you know the percent =21% Then the Relative Frequency is equal to: A) 21 B) 2.1 C 0.21 D) 0 Graphing Quantitative variables 1) Line chart “Time series data” بيانات مرتبطه بالزمن “trend” 2) Dot plots يرسم القياسات, يستخدم بالعاده لتمثيل بيانات ذات كميه قليله. كنقاط على محورالسينات بحسب تكرار كل قيمه 10 STAT 101 , Example: The set 4, 5, 5, 7, 6 السبيل 3) Bar chart and Pie chart 4) Relative frequency hostigram: الرسم البياني للتردد النسبي يستخدم لترتيب النسب على شكل. اعمده متالصقه #Relative frequency hostigram خصائص ال 1) for a quantitative data. 2) No space between bar 3) Shape of distribution and outliers Bar chart Pie chart 11 STAT 101 , السبيل ** اذا طلب مني بالسؤال القيمه المتطرفه ال Outlier بتكون القيمه البعيده عن كل القيم ?Example: the set {2,6,3,4,50} , find the outliers ANS: 50 Line chart 12 STAT 101 , Interpreting Graphs: Shape السبيل هاي الرسمات مهمات بيجي سؤال عليهم فالمطلوب منك تحفظ شكلهم واسمهم مع تعريفاتهم Mound shape and symmetric (mirror image) Skewed right: a few unusually large measurement Skewed left: a few unusually small measurement 13 STAT 101 , السبيل Bimodal: two local peaks Outlier 14 STAT 101 , السبيل اختبر نفسك The weights in kilogram of 5 students are: 51, 52, 57, 63, 42. Answer 1-3: 1) The variable being measured is: a) Weight b) Student c) Qualitative d) Univariate 2) The variable type is: a) Discrete b) Continuous c) Bivariate d) Qualitative 3) The experimental unit is: (a) A Student (b) 5 students (c) Weight (d) Quantitative 4) Identify the following quantitative variable as discrete or continuous. “Number of persons on a flight from Amman to Aqaba.” a) discrete b) continuous 5) The mean weight of all students of Yarmouk university is 67 Kg The value 67 is: (a) sample (b) parameter (c) population (d) variable 6) A random sample of 20 football players selected. The height is measured… The number 20 represents ()يمثل: a) measurement b)size of sample c) discrete d) type of variable 15 STAT 101 , 7) If we know that the variable is “time to failure of a computerالسبيل component”. Then the measurement of this variable is: a) bar chart b) discrete c) continuous d) almost 20 days 8) you asked a randomly fourteen student at Yarmouk university about their exams. Based on that study, you concluded that 85% of all student in Yarmouk university prefer online exams. That is an example of: a) Descriptive statistic b) statical inference c) population d) sample teachers are selected from Yarmouk university. for the 10 teachers the time (in hours) it takes to surf ( )تصفحin internet : 3,8, 2, 4,2,4,2,6,2 Answer (9-10): 9) the percent of (2): a) 0.6 b) 0.4 c) 40% d) 60% 10) the frequency of (4): a) 2 b) 0.2 c) 20% d) 0 In a set of 45 observations, the percent of category A is 40% ANSWER (11-13): 11) the frequency of category A is: a) 18 b) 60% c) 27 d) 40% 12) the percent of category B is: a) 18 b) 60% c) 27 d) 40% 16 STAT 101 , السبيل 13) the frequency of category B is: a) 18 b) 60% c) 27 d) 40% 14) If the manager of a grocery store wishes to display the sales trend for the past 12 months, the most effective type of graph will be: a) line chart b) bar chart c) pie chart d) dot plot 15) The variable “blood type” collected for patients in acertain hospital is considered as: a) qualitative b) discrete c) continuous d) quantitative 16) “you asked 10 of your classmates about their degree “the data type is: a) univariate quantitative b) bivariate qualitative c) univariate qualitative d) Discret 17) A high school teacher has a record of each student’s absence The result, in days are: 1,2,2,1,2,3,4,5,7,7,7,8,9,3,3,4,6,5,5,4,0,0,0,1,2,2,3,7,8,5 What can be said about the shape of distribution of the data: a) line chart b) bar chart c) pie chart d) dot plot 17 STAT 101 , ANS: السبيل 1 a 2 b 3 a 4 a 5 c 6 b 7 d 8 b 9 c 10 a 11 a 12 b 13 c 14 a 15 a 16 a 17 d 18 STAT 101 , Chapter 2 السبيل Describing Data with Numerical Measures بهذا التشابتر رح نقوم بوصف البيانات بطريقة رياضية أي عن طريق االرقام ,الن طريقة الرسم مش كثير دقيقة ورح نهتم بدراسة البيانات بالنسبة للمجتمع وللعينة والتمييز بينهم - A parameter: is a numerical descriptive measure calculated for a population. (.المعلمة) :هو مقياس وصفي محسوب للمجتمع اي انه يختص بدراسة )(population #كيف بنقدر أميز اذا ) (parameterأو ال ?? إذا أعطاني بالسؤال قيمة رقمية all+أو Population بكون )(parameter بكون)(parameter يعني أي قيمه عدديه تختص بدراسة المجتمع Example: The median height of all the football players is 1.64m. The value 1.64 is: هون كلمة ) (allتعني المجتمع كامل ANS: )(parameter - A statistic: is a numerical descriptive measure calculated for a sample. (االحصائية) :هي وصف عددي محسوب للعينة يعني مختص بعينة فقط وليس للمجتمع هون بكون (statistics) #كيف بقدر أميز اذا )(statisticsأو ال ?? إذا أعطاني بالسؤال : قيمة رقمية Sample + بكون ) (statistics 19 STAT 101 , Example: السبيل The average income for a sample of 345 employees is 450 JD. The value 450 is: ANS: (Statistic) ? طيب لو كان السؤال حول بيانات نوعية مش كمية أيش رح يكون الجواب (population) (أوsample) الجواب هون رح يكون اما Example : A study on all students with cancer and the symptoms they appear at Yarmouk university. This set of collected measurements is called: (a) Sample (b) parameter (c) population (d)statistics "Measures of Center" تعبير عن مركز البيانات (1) Arithmetic Mean or Average وهو مجموع القيم على عددهم: المتوسط الحسابي. اذا كان للعينة 𝑥̅ ⚫ويرمز له بالرمز ̅ → اكس بار 𝒙. اذا كان للمجتمعµ ⚫ ويرمز له بالرمز µ → ميو :مالحظة اغلب الدراسات تكون حول العينة لصعوبة التعامل مع بيانات المجتمع كامل ∑xi ̅= 𝒙 n 𝒏 → number of measurements عدد القيم ∑xi → sum of all the measurements مجموع القيم كاملة 20 STAT 101 , السبيل Data : x1 , x2 ,………….., xn ∑xi x1 ,+x2 ,………….,+xn ̅= 𝒙 = n n Example: Data: 10, 5, 7, 8, 12 ̅): Find the sample mean (𝒙 ∑xi 10+5+7+8+12 42 ANS: ̅= 𝒙 = = n 5 5 ̅ = 𝟖. 𝟒 𝒙 Remart of the mean : خصائص المتوسط الحسابي 1.The sum of deviation of data from the mean (𝑥̅ ) is zero مجموع االنحرافات للبيانات = صفر ∑(xi− 𝑥̅ ) = 0 , i = 1, 2 ……... n 2.Affected by outliers يتأثر بالقيم الشاذة 3.Use all data نستخدم جميع البيانات للحصول على المتوسط الحسابي Example: The mean of 11 observations is 35, if we add one of the measurement which equal 25. The mean will be: ANS: n=11 𝑥̅ = 35 ∑𝑥 ∑𝑥 ̅= 𝒙 → 35 = → ∑𝑥 = 385 n 11 21 STAT 101 , السبيل ̅ 𝒙 ∑𝑥+25 385+25 =2 = n+1 12 𝑥̅ = 34.16 (2) median الوسيط هو القياس االوسط عندما يتم ترتيب البيانات (تصاعديا ) ⚫طيب كيف بدنا نجد قيمة الوسيط )(median أوال: نرتب البيانات تصاعديا (من االصغر الى اكبر) ثانيا: نجد القيمة الموجودة في منتصف القيم يعني مثال عندي 9قيم بختار القيمة رقم 5 النو قيمة الوسيط طيب لييييششششش ? عدد القيم الي على يمينها = عدد القيم الي على يسارها ⚫ طيب أنا ما فهمت اعطيني قانون يخليني اعرف موقع قيمة الوسيط 𝟏𝐧+ =P موقع الوسيط → p 𝟐 عدد القيم → n انتبه هون ال ) (pمش قيمة الوسيط بل هو موقع الوسيط بالنسبة للبيانات المرتبة تصاعديا Example 1: Data: 5 , 7 ,2 , 5 , 10 , 11 , 23 Find the median: ANS: n=7 (رتب البيانات تصاعديا) 1) ordered the data 2,5,5,7,10,11,23 22 STAT 101 , n+1 7+1 السبيل =P = =4 2 2 انتبه هون ال ( )4مش قيمة الوسيط بل هي موقع الوسيط في البيانات المرتبة )2نذهب الى البيانات المرتبة ونجد القيمة رقم ()4 Median = 7 Example 2: The set: 2, 4, 9, 8, 6, 5 Find the median: ANS: n=6 1) ordered the data 2, 4, 5, 6, 8, 9 n+1 6+1 =P = = 3.5 2 2 طيب كيف هيك بدي اطلع الوسيط هل في عنصر موقعو ?? 3.5 انتبه: عندما يكون الموقع عدد كسري بين رقمين نأخذ القيمتين المجاورتين له ثم نقسم مجموعهما على 2 هون مثال هون عندي الموقع 3.5بين القيمتين 3و 4 اذن مناخذ القيمتين 𝟑𝒙 و 𝟒𝒙 وبعدين منقسم مجموعهم على ()2 23 STAT 101 , 𝒙𝟒 + 𝒙𝟑 5+6 السبيل Median = = 2 2 Median = 5.5 Example: The set: 5, 4, 10, 6, 8 Find the position of median: ANS: n=5 (median) انتبه هون بدو الموقع مش ال n+1 5+1 P= = 2 2 P=3 Remart of the median: خصائص الوسيط 1) The Median does not use all data الوسيط ال يستخدم جميع البيانات 2) The Median is not affected by outliers )الوسيط ال يتأثر كثيرا بالقيم الشاذة (المتطرفة 24 STAT 101 , السبيل 3) symmetric (Symmetric) ̅ Median ≈ 𝒙 (skewed right) ̅ ≫ 𝒎𝒆𝒅𝒊𝒂𝒏 𝒙 (Skewed left) ̅ ≪ 𝒎𝒆𝒅𝒊𝒂𝒏 𝒙 25 STAT 101 , السبيلمالحظة : اذا كان موجود قيم شاذة في المستوى الملتوي مثل : )(skewed right OR skewed left يفضل استخدام الوسيط ) (medianبدل المتوسط الحسابي )(mean (3) Mode : المنوال هو القيمة االكثر تكرار بين البيانات Example: Data set: 5,5,7,2,5,10,17,10,11,5 Find the mode: ANS: Mode=5 طيب لو كان عنا قيمتين الهم نفس العدد من التكرارات كين بكون ال)(mode بهاي الحالة منوخذ القيمتين Example: Data set: 3,3,2,1,1,4,5,9 Find the mode: ANS: Mode= 3 and 1 طيب مثال لو كان جميع القيم بنفس التكرار بهاي الحالة بكون عندي)(no mode Example: Data set: 1,3,3,1,5,5,2,2 ; Find the mode: ANS: NO Mode 26 STAT 101 , هسا في فكرة لطيفة بيجي عليها كل سنة سؤال بالكوزات وبالميد الزم نشرحها السبيل في حال اعطنا بالسؤال ال )( ⇔(deviatioinمجموع االنحرافات) وكان عاطيني المتوسط الحسابي ) ̅𝑥( وطلب مني اجد قيمة ال)(mode ̅ 𝒙Mode=x- أكثر قيمة متكررة بال )Mode → (deviation قيمة المنوال المطلوب → X المتوسط الحسابي → ̅ 𝒙 Example: The mean of five observations was 5 and the deviation of the observations about their mean were: 0,1,1, -4,2 Find the mode: ANS: 𝑥̅ = 5 اكثر قيمة متكررة بال )Mode → (deviation Mode=1 ̅𝑥Mode=x- 1= x- 5 X=6 طيب هسا نفس الموضوع بس لو كان بالنسبة لل ) (medianكيف بكون الحل ? ̅𝑋Median =x- القيمة المتوسطة بين قيم ال )Median → (deviation قيمة الوسيط المطلوب → X المتوسط الحسابي → ̅ 𝒙 27 STAT 101 , Example: السبيل The mean of seven observations was 3 and the deviation of the observations about their mean were: 2 , -2 , 1 , -1 , 4 , -2 ,-2 Find the median: ANS: ) نقوم بترتيب القيم تصاعديا (من االصغر الى االكبر:اوال -2, -2, -2, -1, 1, 2, 4 نقوم باختيار القيمة المتوسطة:ثانيا Median of deviation = -1 ̅=𝟑 𝒙 Median =x-𝑥̅ -1=x-3 X=2 → sample median ( وعددهاmode) ⚫ هذه الرسمات لوصف حاالت ال ) (منوال واحد )(منوالين ) منواالت او اكثر3 ( 28 STAT 101 , Exercise: السبيل 1) the ages at 5 randomly selected member of a club are as following: 42,52,57,63,51 ⚫ the sample mean is : (a) 21 (b) 60.5 (c) 52 (d) 53 ⚫ the sample median is : (a) 21 (b) 60.5 (c) 52 (d) 53 2) If the median of data set has a position equals to 13 and if we know that the sample size is odd then the sample size is equal to (a) 27 (b) 25 (c) 7 (d) 26 (median) ( بحيث حكالك انوموقع الmedian) الحظ في هذا المثال عكسلك فكرة موجود- ) فما هو حجم العينة (عدد العناصر,, مع العلم انو عدد القيم للعينة مفرد13 في الموقع رقم n+1 P= 2 n+1 13 = → n=25 2 4) If we know the ∑𝟖𝒏=𝟏 𝒙𝒊 = 𝟒𝟎 find the sample mean: (a) 10 (b) 8 (c) 5 (d) 40 5) consider the following data : 12.5, 7.5, 4.5, 7.5, 8.6, 2.4 ⚫ The sample mean : (a) 7.17 (b) 8.13 (c) 7.5 (d) 8.2 ⚫ The sample median : (a) 7.17 (b) 8.13 (c) 7.5 (d) 8.2 29 STAT 101 , السبيل 6) The mean of the four observations was 6 and the deviation of these observations about their mean were : 2 , 0, 0, -2 ⚫ The mode value is : (a) 8 (b) 6 (c) 0 (d) 2 ⚫ The value of fourth observation : (a) 4 (b) 8 (c) 0 (d) 2 : هون طريقة حلها ̅ Fourth observation = x -𝒙 -2 = x – 6 X=4 )2024/2023 كويز في مقاييس المركز (الفصل األول 1] For a data set of size 17 observation , if the sum of the squares of the observations is 420 and the square of the sum of the observations is 320. Then the square of the sum of the observations from the mean is : (a) 1 (b) 0 (c) 628.68 (d) 25.1 (e) 108773.8 2] Consider the following sorted data: C,6,9,11,14 The mean is the same as median.Then the value of C is : (a) 4 (b) 0 (c) 6 (d) 5 (e) 8 (f) 10 30 STAT 101 , السبيل 3] Five student made the following marks on a test: Ali Sarah Mohammad Ahmad Hassan 60 60 70 75 90 If Sarahs mark change from a 60 to a 70 , which measurement would change : (a) Mean and Median (b) Mean and Mode (c) Mode and Median (d) Mean, median and Mode (e) Range and Mean (f) nothing change 4] The mean for ten observation is 22. if the sum of the first nine observations is 200, then 10th observation : (a)33 (b) 18.5 (c) 32 (d) 10 (e) 20 (f) 15 5] in stat 101 quiz ,all the student have the same marks , then one of the next is true : (a)The histogram is binomial (b) All the measurements of variability closed to zero (c) The dot plot is skewed (d) The data has the same measure of center and the same measure of variability (f) The distribution shape may be symmetric 31 STAT 101 , Measures of Variability السبيل مقاييس التشتت 1) Range (R): المدى هي الفرق بين اكبر واصغر القياست R = Max – Min Remart : 1) affected by outliers 2) The greater the range then the greater the variability كلما زاد المدى زاد التشتت Example : The data set: 5 , 12 , 6 , 8 , 14 Find the Range : ANS : R = Max – Min R = 14 – 5 R=9 2) The Variance : التباين Definition : is measure of variability that uses all the measurements. It measures the average deviation of the measurements about their mean.. مقياس يستخدم لقياس انحراف القيم عن الوسط ومدى تشتت هذه القيم عن الوسط ⚫ the variance of population of (N) : 𝟐 𝟐 ∑(𝒙𝒋 − µ) 𝝈 = 𝑵 32 STAT 101 , ⚫ the variance of sample of (n) : السبيل 𝟐 ̅) ∑(𝒙𝒋 −𝒙 𝒔𝟐 = 𝒏−𝟏 𝟐 𝟐 𝟐 (∑(𝒙𝒋 )) ̅ )𝟐 ∑(𝒙𝒋 ) −𝒏(𝒙 ∑(𝒙𝒋 ) − 𝒔𝟐 = = 𝒏 𝒏−𝟏 𝒏−𝟏 Remart : 1) affected by outliers 2) uses all data 3) The standard deviation : ) (االنحراف المعياري (variance) هو الجذر التربيعي لل ⚫ The standard deviation of population 𝝈 = √𝝈𝟐 ⚫ The standard deviation of sample 𝒔 = √𝒔𝟐 Remart : 1) affected by outliers 2) ( = وحدة قياس البياناتs) وحدة قياس 33 STAT 101 , Example : السبيل Data set : 5 , 10 , 3 , 4 , 12 ⚫Conclude the sample variance : )1نحدد هل ال ) (varianceللمجتمع ام للعينة ⚫ في هذا المثال للعينة : 𝟐 )̅ 𝒙∑(𝒙𝒋 − = 𝟐𝒔 𝟏𝒏− )2نجد قيمة ال ) ̅𝑥( : ∑xi 5+10+3+4+12 34 =̅ 𝒙 = = 𝟖 ̅ = 𝟔. 𝒙 n 5 5 x ̅ 𝒙 𝒙𝒋 − 𝟐 ) ̅𝑥 (𝑥𝑗 − 5 -1.8 3.24 )3ننشأ جدول لتجميع البيانات : 10 3.2 10.24 )4االن نطبق على القانون: 3 -3.8 14.44 4 -2.8 7.84 12 5.2 27.04 𝟐 )̅ 𝒙∑(𝒙𝒋 − = 𝟐𝒔 𝟏𝒏− 𝟐 3.24 + 10.24 + 14.44 + 7.84 + 27.04 62.8 = 𝒔 = 5−1 4 ⚫ find the standard deviation : 𝒔𝟐 = 15.7 𝑠 = √𝑠 2 𝑠 = √14.1 = 3.7549 34 STAT 101 , Example: السبيل The deviation of data from to mean : 2.5 , 1.8 , -4.6 , -2.1 , c 1) find (c) ANS: Deviation = ∑(𝒙𝒋 ̅) = 0 −𝒙 2.5+1.8+(-4.6)+(-2.1)+c =0 -2.4+c=0 C = 2.4 2) find the variance ANS: 2 2 ∑(𝑥𝑗 −𝑥̅ ) (2.5)2 +(1.8)2 +(−4.6)2 +(−2.1)2 +(2.4)2 𝑠 = = 𝑛−1 5−1 40.82 𝑠2= 𝒔𝟐 = 𝟏𝟎. 𝟐𝟎𝟓 4 Example: For a data set of 5 observations measurement where 5 ∑𝑛=1(𝑥𝑖 )2 = 465 and ∑5𝑛=1 𝑥𝑖 =45 Find the standard deviation ANS: 5 ∑𝑛=1(𝑥𝑖 )2 45 𝑥̅ = = 𝑥̅ = 9 5 5 2 ∑(𝑥𝑗 ) −𝑛(𝑥̅ )2 465−5∗(9)2 60 𝑠 2= = 5−1 = 𝑠 2 = 15 𝑛−1 4 35 STAT 101 , السبيل 𝑠 = √𝑠 2 𝑠 = √15 S=3.872 Example : 5 n = 5 ,, 𝑠 2 = 5.7,, ∑𝑛=1(𝑥𝑖 )2 =95 ) find the sample mean (positive ANS: 2 ∑(𝑥𝑗 ) −𝑛(𝑥̅ )2 =𝑠 2 𝑛−1 95−5∗(𝑥̅ )2 =5.7 4 5.7*4=95-5*(𝑥̅ )2 22.8=95-5*(𝑥̅ )2 𝟒𝟒 ̅)𝟐 = 𝟏𝟒. 𝒙( ̅𝑥(*5 )2 = 72.2 هسا في عنا مالحظة اخيرة بخصوص هذا الموضوع اذا كان بالسؤال كلمة ) (approximateاو )(estimatedبستخدم القانون : 𝑅 =S n≈25 4 𝑅 =S n≈10 3 𝑅 =S n≈5 2.5 36 STAT 101 , Example: السبيل A set 25 measurments, and the range is 22, find the standard deviation. ANS: 𝑅 =S 4 22 =S 4 S=5.5 Notes: )1دائما قيمة كل من 𝒔 و 𝟐𝒔 و Rموجبة )2كلما زاد قيمة كل من 𝒔 أو 𝟐𝒔 أو Rيزداد مقدار التشتت )3اذا كان 𝒔 أو 𝟐𝒔 أو Rقيمتهن تساوي صفر ,هذا يعني أن جميع قيم العينة متساوية Example: }Data set : { 8,8,8,8,8 Find the variance. ANS: 𝑠 2 = 0 37 STAT 101 , وهسا رح نتعرف على قاعدتين من خاللهم رح نتعرف على قوة البيانات من السبيل خالل االنحراف المعياري )(Tchepysheff Theorem and Empirical Rule وبهذول القاعدتين منقدر نتعرف على وصف البيانات بس هون احنا بحاجة لنكون عارفين قيم كل من : n , S , ̅ 𝒙 1) Tchepysheff Theorem: ⚫نستخدم هذه القاعدة الي نوع من البيانات القيم الناتجة معنا بتكون تقريبية والدليل انو منكون كاتبين باالجابة )على االقل (at least ⚫ في قانون ثابت معنا لهذه القاعدة : 𝒙 (=)̅ ± ks 𝒙( 𝒙 ̅ – ks , )̅ + ks 𝒙 و sاما شو هاي )(k طيب احنا منعرف ̅ عدد االنحرافات = K هذا القانون يعبر عن فترة البيانات حسب عدد االنحرافات )(k ⚫استخدام اخر ل)(k نستخدمها لمعرفة نسبة البيانات عن طريق القانون : 𝟏 𝟏− 𝟐𝒌 ⚫دائما قيمة )(kاكبر او تساوي ()1 𝟏≥𝒌 𝒙) ) ̅ ± ks) → (data within k standard deviation of the mean والنسبة الي بتطلع معنا من القانون 𝟏 𝟏− 𝟐𝒌 𝒙) هي موجودة بالفترة̅ ± ks) : 38 STAT 101 , مش مشكلة بعد االمثلة الك تكون راضي, حاس حالك مش فاهم السبيل Example: ̅ -2s 𝑿 ̅ 𝑿 ̅ +2s 𝑿 ⚫(𝐱̅ ± 2 s( → k=2 ⚫data within 2 standard deviation of the mean. 𝟏 ⚫contains at least : 𝟏− 𝒌𝟐 𝟏 𝟏 𝟏 𝟏− = 𝟏− = 𝟏− = 0.75 𝒌𝟐 (𝟐)𝟐 𝟒.: من خالل الفترة المبينة بالجدول حيث انK=2 في هذا المثال عرفنا انو قيمة (k) → تمثل عدد االنحرافات Example: ̅ - 3s 𝒙 ̅ 𝑿 ̅ + 3s 𝑿 ⚫(𝐱̅ ± 3 s( → k=3 ⚫data within 3 standard deviation of the mean. 𝟏 ⚫contains at least : 𝟏− 𝒌𝟐 𝟏 𝟏 𝟏− = 𝟏− 𝒌𝟐 (𝟑)𝟐 𝟏 𝟏 − ≈ 0.89 𝟗 39 STAT 101 , Example: السبيل ̅ -s 𝑿 ̅ 𝑿 ̅ +s 𝑿 ⚫(𝐱̅ ± s( → k=1 ⚫data within 1 standard deviation of the mean. 𝟏 ⚫contains at least : 𝟏− 𝒌𝟐 𝟏 𝟏 𝟏− = 𝟏− = zero 𝒌𝟐 (𝟏)𝟐 ⚫تجربة عديمة الفائدة (Tchepysheff Theorem) هسا خلينا نوخذ كم مثال اخليك تفهم كل اشي حول ال Example(1): some data set with 𝑥̃ = 120 and 𝑠 = 5 using Tchepysheff theorem approximately to find the proportion (percentage )النسبة of data in the interval (105,135). = ̃𝑥 وبطلب منا نسبة البيانات في الفترة120 = 𝑠 و5 هو بهذا المثال اعطانا قيمة )105,135( ANS: ( ̅x ± ks) → (𝑥 ̅- ks , 𝑥̅ + ks)=(105,135) 105 = 𝑥̅ – ks 135=𝑥̅ + ks 105 = 120 - K*5 135 =120+K*5 5*K = 15 5*K = 15 K=3 40 STAT 101 , The interval (105,135) contains at least : 1 − 1 السبيل 𝑘2 1 1 1− = 1− 𝑘2 (3)2 1 1− ≈ 0.89 9 Example(2): Sample mean of some data is 84 and standard deviation (s).The proportion (percentage )النسبةof data within is at least 75% and the interval width is 4.8 find (s): ANS: %75 = ) هو بحكيلي انو النسبة1( 1 75 1 25 1− = ≈ 𝑘2 100 𝑘2 100 100 𝑘2= 𝑘2= 4 25 𝐾=2 : منستنتج انو4.8= ) من خالل المعطى انو طول الفترة2( طول الفترة = الحد االكبر من الفترة – الحد االصغر من الفترة ̅ + ks) –( 𝒙 Width of interval = ( 𝒙 ̅ − ks) Width of interval =2*ks : يعني, ⚫هذا هو القانون الي بدي اوصلو 𝟐∗𝟐∗𝒔 𝟒.𝟖 = S = 1.2 𝟒 𝟒 (نحفظهاk )( تعالوا اعطيكوا اكثر القيم استخداما للk) بعد ما عرفنا كيف نتعامل مع ال K=1 → ( ̅𝐱 ± ks) → at least 0% of data K=2 → ( ̅𝐱 ±2* ks) → at least 75% of data K=3 → ( ̅𝐱 ± 3*ks) → at least 89% of data 41 STAT 101 , Example: السبيل Find the interval if you know 𝑥̅ = 120 , the variance=225 and the interval contains at least 89% of the data. ANS: 1 1− = 89% 𝑘2 بتكون%89 احنا عرفنا انو لما تكون النسة K=3 𝑠 = √𝑠 2 𝑠 = √225 𝑠 = 15 Interval: ̅ ± ks)=( 𝒙 (𝒙 ̅ – ks , 𝒙 ̅ + ks) ̅ ± ks)=( 120-3*15 , 120+3*15) (𝒙 ̅ ± ks) = ( 75 , 165) (𝒙 Example: If you know the number of observations in data set is 385 and the sample mean is 20 and standard deviation is 4 then find the number of measurement in (12 , 28 ). ANS: في هذا المثال اعطانا عدد عناصر البيانات وعطانا فترة معينة وطلب منا عدد البياناتت الموجودة في هذه الفترة : هون في قانون سهل للحل NUMBER = n * percentage n → عدد البيانات الكلي Percentage → نسبة البيانات 42 STAT 101 , السبيل :طريقة الحل K ⚫ اوال نجد قيمة ̅ – ks = 12 𝒙 20 – k*4 = 12 K =2 )Percentage( ⚫ ثانيا نجد ال 𝟏 𝟏 𝟏− = 𝟏− 𝒌𝟐 (𝟐)𝟐 𝟏 𝟏− = 0.75 𝟒 NUMBER = n * percentage NUMBER = 385*0.75 = 288.75 “THE EMPERICAL RULE” Symmetric (mound shape) هذه القاعدة تستخدم فقط في حالة كان شكل البيانات انو ما عندي قانون معين عشان اجد نسبة البيانات في فترة معينةTchepyshefff هون بفرق عن ⚫ال given a distribution of measurements that is approximately mound- shaped: ⚫The interval µ contains approximately 68% of the measurements. ⚫The interval µ 2 contains approximately 95% of the measurements. ⚫The interval µ 3 contains approximately 99.7% of the measurements 43 STAT 101 , السبيل هاي الرسمة بتحددلك كل فترة كم نسبة البيانات فيها لو تفهمها باالول بعدين تحفظها بكون...... افضل ألنو الحل رح يصير مباشر كمان شوي K=? Percentage interval K =1 approximately 68% µ K=2 approximately 95% µ 2* K=3 approximately 99.7% µ 3* : اذا شفت بالسؤالEMPERICAL والTchepyshefff بتسألني كيف بدي اميز اذا السؤال at least Tchepyshefff approximately EMPERICAL RULE Example: Assume some data has a mound shape with mean 72 and standard deviation 7.6 44 STAT 101 , (1) using the empirical rule what interval contains nearly 95% of data.السبيل ANS: )µ 2* ( هي بالفترة95% حكينا بالرسمة وبالجدول انو النسبة Interval → ( µ -2* , µ +2* ) (72-2*7.6 , 72+2*7.6) →( 56.8 , 87.2) (2) find the approximately the proportion (percentage )النسبةof data in : (𝑥̅ − 2.5 𝑠 , 𝑥̅ + 2.5 𝑠) ANS: K=2.5 )Tchepysheff theorem( ( منستخد قانون الk)لما تكون قيمة ال 𝟏 𝟏− 𝒌𝟐 𝟏 𝟏 𝟏− = 𝟏− 𝒌𝟐 (𝟐.𝟓)𝟐 𝟏 𝟏− = 0.84 𝟔.𝟐𝟓 Example: For a mound shape the 𝑥̅ = 120 and S=6 Find the proportion (percentage )النسبة: 1) (108, 132) ANS: 𝑥̅ − 𝐾 ∗ 𝑆 = 108 𝑥̅ + 𝐾 ∗ 𝑆 = 132 120-6*K=108 120+6*K=132 6*K=12 6*K=12 K=2 K=2 Interval → (𝒙 ̅ + 𝟐 𝒔 ) → percentage (95%) ̅−𝟐𝒔, 𝒙 45 STAT 101 , 2) (120, 132) السبيل ANS: 𝑥̅ − 𝐾 ∗ 𝑆 = 120 𝑥̅ + 𝐾 ∗ 𝑆 = 132 120-6*K=120 120+6*K=132 6*K=0 6*K=12 K=0 K=2 Interval → (𝒙 ̅ + 𝟐 𝒔 ) → percentage (47.5%) ̅, 𝒙 ̅ + 𝟐 𝒔 ( الحظ هون الفترة,,, 47.5% هون من وين جبت ال ̅, 𝒙 (𝒙 ̅ + 𝟐 𝒔) الي تعتبر نصف نسبة الفترة ̅ − 𝟐𝒔 , 𝒙 (𝒙 3) (132, 138) 𝑥̅ − 𝐾 ∗ 𝑆 = 132 𝑥̅ + 𝐾 ∗ 𝑆 = 138 120-6*K=132 120+6*K=138 6*K= -12 6*K=18 K= -2 K=3 Interval → (𝒙 ̅ + 𝟑 𝒔 ) → percentage (2.35%) ̅+𝟐𝒔, 𝒙 4) (-∞ , 𝟏𝟎𝟐) ANS: 𝑥̅ − 𝐾 ∗ 𝑆 = −∞ 𝑥̅ + 𝐾 ∗ 𝑆 = 102 120-6*K=-∞ 120+6*K=102 6*K=-∞ 6*K=-18 K=-3 K= -∞ Interval → (− ∞ , 𝒙̅ − 𝟑 𝒔 ) → percentage( 0.15%) ̅̅̅̅̅̅ 46 STAT 101 , Example: السبيل A data set has 300 observations with mound shape , x̅ = 80 and s=7 )) of data in (73, 87النسبة 1) find the proportion (percentage ANS: 𝑥̅ − 𝐾 ∗= 73 𝑥̅ + 𝐾 ∗ 𝑆 = 87 𝟑𝟕80-7*K= - 80+7*K=87 7*K=7 7*K=7 K= 1 K=1 𝒙( → Interval )̅ + 𝒔 ) → percentage (68% 𝒙 ̅− 𝒔 , 2) approximately the number of data in the interval. ANS: عدد البيانات الكلي → n نسبة البيانات → Percentage NUMBER = n * percentage NUMBER = 300*0.68 = 204 Measures of Relative Standing مقاييس الموقع النسبي يقدم هذا القسم مقاييس الوضع النسبي ،وهي أرقام توضح موقع قيم البيانات نسبة إلى القيم األخرى ضمن مجموعة البيانات.ويمكن استخدامها لمقارنة القيم من مجموعات بيانات مختلفة ،أومقارنة القيم ضمن نفس مجموعة البيانات.المفهوم األكثر أهمية هو النتيجة .z وسوف نناقش أيضا النسب المئوية والربيعية ،باإلضافة إلى رسم بياني إحصائي جديد يسمى boxplot 47 STAT 101 , (1) Z - Scores: السبيل يتم العثور على النتيجةZ عن طريق تحويل قيمة إلى مقياس قياسي وتمثل عدد المعايير : يتم حسابه على النحو التالي.االنحرافات التي تكون فيها قيمة البيانات من المتوسط ̅ 𝒙−𝒙 Z(x) = 𝑺 Example: Scores on a test have a mean of 70 and a standard deviation of 11. Michelle has a score of 48. Convert Michelle's score to a z-score. ANS: ̅ 𝒙−𝒙 𝟒𝟖−𝟕𝟎 −𝟐𝟐 Z(x) = = = = -2 𝑺 𝟏𝟏 𝟏𝟏 ?? بالنسبة للبياناتZ score هسا كيف بدنا نعبر عن موقع ناتج ال ̅ Z(x) < 0 x is smaller than (below) 𝒙 ̅ Z(x) > 0 x is greater than (above) 𝒙 ̅ Z(x) = 0 x is equal 𝒙 Outlier unlikely/ unusual usual/likely/ordinary unlikely/ unusual outlier suspect outlier suspect outlier ̅ - 3s 𝑿 ̅ – 2s 𝑿 ̅ 𝑿 ̅ + 2s 𝑿 ̅ + 3s 𝑿 Z score هذا الشكل بوصف نوع المشاهدات الناتجة من ال 48 STAT 101 , السبيل : وعنا ثالث انواع من المشاهدات )usual( بكون نوع المشاهدة2- و2 بين الz score ⚫ لما يكون ناتج ال 3- و2- أو بين ال3و2 بين الZ score ⚫لما يكون ناتج ال (unusual) بكون نوع المشاهدة (Outliers) بكون نوع المشاهدة3- أو أقل من3 أكبر منz score لما يكون ناتج ال ⚫ : Z score االن خلينا نعبر عن موقع ال EXAMPLE: 1 < Z(X) < 2 ANS: X is above the mean and between one and two standard of the mean ) 𝐱̅ + 𝐬 , 𝐱̅ + 𝟐 𝐬 ) 2 S وS أنها أكبر من ̅𝐱 وتقع بينX يعبر عن Example: Mound shape data 𝑥̅ = 140 , 𝑠 = 10 using (z-score) ,Explain the standing of: 1) x=152 ANS: 𝑥−𝑥̅ 152−140 12 Z(x) = = = = 1.2 𝑆 10 10 X=152 is above the mean and between one and two standard deviation of the mean → ) x̅ + s , x̅ + 2 s ) 49 STAT 101 , 2) obtain the z-score x=137, x=164, x=105 and identity their type. السبيل ANS: X=137 𝑥−𝑥̅ 137−140 −3 Z(x) = = = = -0.3 𝑆 10 10 TYPE → (Usual , likely , ordered ) X=164 𝑥−𝑥̅ 164−140 22 Z(x) = = = = 2.2 𝑆 10 10 TYPE → (Unusual , Unlikely, suspect outliers) X=105 𝑥−𝑥̅ 105−140 −35 Z(x) = = = = -3.5 𝑆 10 10 TYPE → (Outliers) Example: Scores on a test have a mean of 70 and a standard deviation of 11. Michelle has a score of 48. Convert Michelle's score to a z-score. ANS: ̅ 𝒙−𝒙 𝟒𝟖−𝟕𝟎 −𝟐𝟐 Z(x) = = = = -2 𝑺 𝟏𝟏 𝟏𝟏 X has a z-score of 2. This means that z-score of 48 was 2 standard deviations below the mean ̅ -2s ( يعني موقعها كان 𝟐𝒔 كانت أقل من ال 𝒙̅ بx الحظ انو هون ال (𝒙 (𝒌) تتناسب طرديا معz-score ⚫نالحظ من هذا المثال أن قيمة ( مع اشارتي الموجب والسالبk) تساوي قيمة الz-score حيث أن قيمة 50 STAT 101 , السبيل : مثال ̅ → z(x)= 0 X=𝑿 , ̅ +2s→ z(x)= 2 X=𝒙 ̅ + s → z(x)= 1 X=𝑿 , ̅ +3s→ z(x)= 3 X=𝒙 ̅ - 3s → z(x)= -3 X=𝑿 , ̅ -s→ z(x)= -1 X=𝒙 Example: a score on a test with a mean of 70 and a standard deviation of 8.the z-score to a score is 1.75.find the score … ANS: Z(X)=1.75 , S =8 , 𝑥̅ = 70 , X=? 𝑥−𝑥̅ 𝑋−70 Z(x) = =1.75= 𝑆 8 8*1.75 = X -70 14+70 = X X=84 Example: The deviation of four observations about mean were; 1, -2,0, -1 Find the z-score for the second observation. ANS: X= -2 ̅=𝟎 𝒙 𝟐 2 ̅) ∑(𝒙𝒋 −𝒙 (𝟏)𝟐 +(−𝟐)𝟐 +(𝟎)𝟐 +(−𝟏)𝟐 𝑠 = = 𝒏−𝟏 𝟒−𝟏 6 𝑠2 = = 2 → 𝑠 = √2 s=1.4 3 ̅ −𝟐−𝟎 Z(x) = = -1.4 𝟏.𝟒 51 STAT 101 , النسبة المئوية Percentile: السبيل ⚫هي مقياس اخر للمكانة النسبية ⚫نفس مبدأ ال z-scoreالنه بيعطيني نسبة المشاهدات بالنسبة المئوية ⚫ مثال كان عندي مشاهدة معينة وبدي أعرف موقعها بين المشاهدات ⚫ال Percentileبتخليني أعرف النسبة األقل من هاي المشاهدة 𝑃70 = 70𝑡ℎ = 70% هون ال 70%هي نسبة البيانات األقل من المشاهدة الي انا طالبها 𝑃30 = 30𝑡ℎ = 30% طيب شو الخطوات عشان اعرف موقع هاي النسبة : )1رتب لبيانات تصاعديا (من االصغر الى االكبر) )2نجد الموقع عن طريق القانون : النسية =P )* (n+1 𝟎𝟎𝟏 هون انا بجد موقع القيمة مثال كان الناتج ( )4بروح على البيانات الي رتبهتا تصاعديا وبختار القيمة الرابعة من البيانات طيب لو كان الناتج من هذا القانون عدد كسري مثال P=4.8كيف نجد القيمة ? هون في قانون ثاني لالعداد الكسرية : 𝒙 . 𝒙( = 𝒙 + 0. 𝟏+ ) 𝒙- )𝟒𝒙 𝒙𝟒.𝟖 = 𝒙𝟒 + 𝟎. 𝟖(𝒙𝟒+𝟏 − )𝟒𝒙 𝒙𝟒.𝟖 = 𝒙𝟒 + 𝟎. 𝟖(𝒙𝟓 − Example: Data set: 8, 5, 1, 12, 10 Find: 𝑝25 , 𝑝50 52 STAT 101 , ANS: السبيل )1رتب البيانات تصاعديا 1, 5, 8, 10, 12 )2نجد موقع القيممة من خالل القانون : النسية =P )* (n+1 𝟎𝟎𝟏 25 = ⚫P )* (5+1 100 𝟏 = * (6)= 1.5 𝟒 بما ان ) (Pعدد كسري نتجه للقانون األخر : 𝒙 . = 𝒙 + 0. 𝒙( 𝟏+ ) 𝒙- ) 𝑥1.5 = 𝑥1 + 0.5(𝑥1+1 − 𝑥1 )𝑥1.5 = 1 + 0.5(5 − 1 𝑥1.5 = 1 + 3 𝑝25 = 4 50 = ⚫P )* (5+1 100 1 = P )* (5+1 =3 2 𝑝50 = 8 االن نتجه للعنصر رقم 3من العناصر المرتبة تصاعديا Quartile: →Lower quartile = 𝑝25الربع األول = 𝟏𝑸 →middle quartile = 𝑝50الربع الثاني= 𝟐𝑸 →upper quartile = 𝑝75الربع الثالث= 𝟑𝑸 53 STAT 101 , Example: السبيل Data set ; 7,8,9,6,11,10,5 Find : 1) 𝑄1 , 2)𝑝60 , 3)Upper quartile نرتب البيانات تصاعديا 5,6,7,8,9,10,11 ANS: 𝟓𝟐𝒑 = 𝟏𝑸 )1 النسية =P )* (n+1 100 25 =P * (7+1) =2 100 بما ان P=2نذهب للعناصر المرتبة تصاعديا ونأخذ القيمة الثانية من البيانات 𝑄1 = 𝑝25 = 6 𝟎𝟔𝒑 )2 60 =P * (7+1) = 4.8 100 بما ان)(pعدد كسري االن نتجه للقانون االخر : 𝑥 . 𝑥( = 𝑥 + 0. +1 ) 𝑥- )𝑥4.8 = 𝑥4 + 0.8(𝑥4+1 − 𝑥4 = ( 𝑥4.8 = 8 + 0.8(8 − 9 8.8 𝟓𝟕𝒑 = 𝟑𝑸 = 3) upper quartile 75 =P )* (7+1 100 3 P= * (8) = 6 4 54 STAT 101 , السبيل االن نذهب للبيانات المرتبة تصاعديا ونختار القيمة السادسة 𝑸𝟑 = 𝒑𝟕𝟓 =10 مالحظة: القيمة الي اقل منها 60%والي اكبر منها 𝒑𝟔𝟎 → 40% القيمة الي اقل منها 35%والي اكبر منها 𝒑𝟑𝟓 → 65% ⚫ فمنقدر نحكي عن 𝟎𝟔𝒑انها: ⚫ less than 40% of the data ⚫ more than 60% of the data وهذا ينطبق على باقي القيم................ Five – Number min , 𝑄1 , 𝑄2 , 𝑄3 , max أقل قيمة بالبيانات → min أكبر قيمة بالبيانات → max Range = max – min Ringe Quartile (IRQ)= 𝑄3 - 𝑄1 Example: Data set : 25 , 4 , 18 , 11 , 13 , 20 , 8 , 11 , 9 Find the five-number summary 55 STAT 101 , السبيل) نرتب البيانات تصاعديا (من االصغر الى االكبر) 1 4 , 8 , 9 , 11 , 11 , 13 , 18 , 20 , 25 )2نجد قيمة كل من maxو min min = 4 max = 25 )3نجد قيمة 𝑄1 = 𝑝25و 𝑄2 = 𝑝50و 𝑄3 = 𝑝75 𝟓𝟐𝒑 = 𝟏𝑸 النسية 25 =P → )* (n+1 * (9+1) =2.5 100 100 𝑥 . = 𝑥 + 0. 𝑥( +1 ) 𝑥- )𝑥2.5 = 𝑥2 + 0.5(𝑥3 − 𝑥2 → )𝑥2.5 = 8+0.5(9-8 𝑄1 = 8.5 𝟎𝟓𝒑 = 𝟐𝑸 النسية 50 =P → )* (n+1 * (9+1) =5 100 100 االن نذهب للقيم المرتبة تصاعديا ونختار القيمة الخامسة 𝑄2 = 11 𝟓𝟕𝒑 = 𝟑𝑸 النسية 75 =P → )* (n+1 * (9+1) =7.5 100 100 واالن نتجه للقانون االخر : 𝑥 . = 𝑥 + 0. 𝑥( +1 ) 𝑥- ) 𝑥7.5 = 𝑥7 + 0.5(𝑥8 − 𝑥7 →( 𝑥7.5 = 18 + 0.5(20 − 18 𝟗𝟏 = 𝟑𝑸 56 STAT 101 , Five – Number السبيل min , 𝑄1 , 𝑄2 , 𝑄3 , max 4 , 8.5 , 11 , 19 , 25 _ بدي اعطيك اكم شغلة يساعدنك بالحل : ⚫ 𝑸𝟐 = 𝒑𝟓𝟎 = Median يعني منقدر نطلع 𝟐𝑸 بنفس طريقة ال Medianالي حكينا عنها ببداية هذا التشابتر ⚫ اذا كان) (Pيساوي عدد كسري مثل P=2.35منقدر نوخذ } 𝟐𝒑 و 𝟑𝒑 ونجمعهم ثم نقسم مجموعهم على({ )2 #هذا الحل غير دقيق لكن بسهل عليك حل الدوائر وما رح يجيبلك قيمتين قراب من بعض Example: Data set: 1,3,5,8 Find 𝑝47 : ANS: النسية 47 =P → )* (n+1 * (4+1) = 2.35 100 100 𝒑𝟐 + 𝒑𝟑 3+5 =4 لو أخذنا 2 2 ولو عن طريق القانون : 𝒙 . 𝒙( = 𝒙 + 0. 𝟏+ ) 𝒙- ) 𝑥2.35 = 𝑥2 + 0.35(𝑥3 − 𝑥2 𝑥2.35 =3+0.35(5-3) = 3.7 صحيح ان القيمتين غير متساويتين لكنهما متقاربتان لكن بسؤال الضع دائرة ما رح يجيبلك القيمتين :فأنت بتوخذ أقرب قيمة لل()4 57 STAT 101 , السبيل Example: The five number summary 10 , 14 , 16 , 18 , 22 Find : 1)Range ANS: Range = max -min = 22-10 = 12 2)Range quartile (IRQ) ANS : IRQ = 𝑄3 - 𝑄1 = 18-14 = 4 THE BOX PLOT مخطط الصندوق Five – number summary يعتمد على : في عدة مهام منهاBox plot نستخدم ال ) يستخدم في معرفة شكل التوزيع1 (symmetric / skewed right / skewed left) (outliers) ) معرفة اذا كان بالبيانات قيم مطرفة2 Box plot ⚫واالن خلينا نتعلم كيف نرسم Five number summary كل الي بحتاجو هو 65, 70, 75, 80, 85, 90, 95 :مثال عندي القيم Q1=70 (Q2 OR Median)=80 Q3=90 58 STAT 101 , السبيل )1أول اشي برسم خط أعداد )2بضع قيم 𝑄1و 𝑄3على خط االعداد وبرسم فوقهم مستطيل Q1=70 Q3=90 )3بجيب 𝑄2وبضعها على خط االعداد وبضع بالمستطيل الي فوقها خط على مستواها قيمة 70 Q2=80 90 ممكن يتشكل عنا 3رسمات بال Box plot طيب كيف بدي اميز اشكالهم تعالو شوفوا معي : 1) Symmetric 59 STAT 101 , 2) Skewed Right السبيل 3)Skewed left )(Mean < median )(Mean = median ) ( mean >median لحد االن عرفنا كيف نرسم ال Box plotوكيف نميز شكل التوزيع ونقارن بين medianو Mean ⚫هسا بدنا نعرف كيف اذا البيانات فيها قيم متطرفة ) (outliersأو ال #أول أشي منطلع ال -: )1) lower fence = 𝑸𝟏 - 1.5 ( IRQ )2) Upper fence = 𝑸𝟑 +1.5 ( IRQ 60 STAT 101 , IQR = Q3 - Q1 السبيل IQR = 90 - 70 = 20 Lower fence = 70 - 1.5 * 20 = 40 Upper fence = 90 + 1.5 * 20 = 120 ⚫وهسا بضيفهم عل الرسمة Lower fence Upper fence ⚫بعدين بجيب جميع القيم الي بالمثال وبضيفهم على الرسمة 40 65 70 75 80 85 90 120 ⚫ بعد هيك منقارن البيانات ب ( ) upper fenceو ()Lower fence اذا لقينا بالبيانات أي عنصر أقل من ) (lower fenceأو أكبر من ال )(upper fence ال بكون هذا العنصر )(outlier < Lower fence → outlierعنصر > Upper fenceعنصر → outlier (No Outlier ) طبعا ف بهذا المثال ما في قيم شاذة ومنستخدم النجمة (*) عشان نمثل ال )(outliers 61 STAT 101 , السبيل ( وصار الزم نوخذ االمثلة الي بيجي مثلهاBox plot) وهيك منكون عرفنا كل افكار ال.......... باالمتحان النو مستحيل يجي سؤال مثل هيك مع الرسم Example: If you know the five-number summary are: 22, 24, 25, 28, 29 Answer the following questions: ⚫ The upper fence is : (a) 18 (b) 30 (c) 34 (d) 22 ⚫ For an outlier to exist, a number must be less than: (a) 18 (b) 30 (c) 34 (d) 22 : بهذا السؤال بيحكيلك عشان يكون في قيم شاذة الوم يكون في عنصر اقل من ⚫Which of the following values is considered an outlier? (a) 25.9 (b) 39 (c) 30 (d) 20 ⚫ the 𝒑𝟕𝟓 is : (a) 28 (b) 29 (c) 18 (d) 22 Example: Answer the following questions: 62 STAT 101 , ⚫ The Range quartile (IRQ) is : السبيل (a) 7 (b) 10.5 (c) 2 (d) 5 ⚫ The outlier is ; (a) 1 (b) 10.5 (c) 11.5 (d) none ⚫ The median is : (a) 7 (b) 5 (c) 2 (d) 5 Example : The five – number summary are ; 59 , 64.5 , 66 , 70 , 77 The shape of this data set is : (a) symmetric (b) skewed right (b) skewed left (c) none 63 STAT 101 , أختبر نفسك السبيل ⚫ The weights in kilogram of 5 students are: 51, 52, 57, 63, 42. Answer )1-3): 1) The sample mean is: (a) 53 (b) 60.5 (c) 52 (d) 7.78 2) An approximated value of S is: (a) 2.25 (b) 5.25 (c) 7.778 (d) 21 3) The median is: (a) 21 (b) 60.5 (c) 7.78 (d) 52 4) The five-number summary (0, 2, 5, 8, 30), if the data set contains exactly one outlier, then the outlier is: (a) 0 (b) 30 (c) 2 (d) 5 5) If the deviations of six observations from their mean are 2,- 3, -5, C, 3, 1, then the sample variance of these observations will be: (a) 6.4 (b) 8.8 (c)10.4 (d) 11.2 6) If the sample mean equals 324 and the sample variance equals 41, then the percent of observations inside the interval [298.4, 349.6] will be at least : (a) 94% (b) 89% (c) 56% (d) 84% 7) The third quartile of the data set (11, 10, 16, 10, 11, 12, 14, 15, 18, 13) will be: (a) 16.50 (b) 15.75 (c) 15.50 (d) 15.25 64 STAT 101 , 8) In a data set of 200 observations, the 35th percentile is 80. The السبيل number of observations greater than 80 is approximately: (a) 70 (b) 160 (c) 130 (d) 40 9) For a mound shape data, the proportion of data that falls in the interval (𝑥̃ + 𝑠 , 𝑥̃ − 3𝑠) is approximately: (a) 31.7% (b) 15.85% (c) 2.35% (d) 4.7% 10) If the z-score of an observation x is -1.7 , then the observation x falls ̅ ±s) (a) in (𝒙 ̅ –2s , 𝒙 (b) in( 𝒙 ̅) ̅, 𝒙 (c) below (𝒙 ̅ – 1.5s) ̅) (d) above (𝒙 11) 13. The five-number summary (0, 2, 5, 8, 10), the percentage of data the greater than 2 is : (a) 25% (b) 75% (c) 50% (d) 60% 12) 15. A data set with mean 5 and variance 81, then at least 11% of the observations lie in the interval : (a) (- 4.54, 14.54) (b) ( -80.86, 90.86) (c) (- 13, 23) (d) ( -22, 32) 13) If the average equals 3.29 with a standard deviation 0.95, then the z- score of x=1.77 is: (a) 1.6 (b) -1.6 (c) 1.7 (d) 5.32 14) if the five-Numbers summery of a set of data is as follows (2, 13, 25, 44, 85) then he shape of this data set is: (a) symmetric (b)skewed right 65 STAT 101 , (b) skewed left (d) none السبيل 15) If all values of a sample are same, then : (a) IQR = Range (b) IQR > Range (c) IQR < Range (d) none 16) if the sample mean equals 7.83 them the deviation of the value 7.5 is (a) -15.33 (b) -0.33 (c) 15.33 (d) 0.33 17) A set of data with n=380. the approximate number of observations between the lower quartile and 87𝑡ℎ percentile (𝑃87 ) is : (a) 87 (b) 95 (c) 236 (d)33 18) if the deviations of six observations from their mean are 2,- 3, -3, C, 3, 1, then the sample variance of these observations will be: (a) 10.4 (b) 11.2 (c) 8.8 (d) 6.4 19) The five-number summary of data set is :(34,67,81,92,135) Then the value upper -fence equals: (a) 54.5 (b) 104.5 (c) 129.5 (d) 29.5 20) If z-score =-2.9 for a given observation. Then this observation is considered as: (a) outlier (b) usual (c) unlikely (d) whisker 66 STAT 101 , السبيل 1 a 2 b 3 d 4 b 5 c 6 a 7 d 8 c 9 b 10 b 11 b 12 a 13 b 14 b 15 a 16 b 17 c 18 d 19 c 20 c 67 STAT 101 , Chapter 3 السبيل ”“Describing Bivariate Data وصف البيانات ثنائيه المتغير في الشابتر االول و الثاني قسنا الدراسات التي تتعلق بمتغير واحد ,في هذا الشابتر رح نحكي عن دراسه متغييرين . ** الهدف من دراسه متغيرين (هدف الشابتر) معرفه ما اذا كان يوجد عالقه بين هذين المتغيرين و تحديدها . ** يطلق على الرسومات الخاصه بالبيانات الثنائيه اسم Scatter plot مالحظه مهمه :الشابتر يتحدث عن العالقات الخطيه فقط ( (Linear **عند وجود خط مستقيم يلمس كل النقاط نسمي العالقه Perfect linear positive عندما يكون الخط لالعلى negative عندما يكون الخط لالسفل Perfect linear positive Perfect linear negative 68 STAT 101 , ** ان النقاط التي ال تقع جميعها على نفس الخط نسمي العالقه Strong linear السبيل Strong linear positive Strong linear negative **عندما تكون النقاط ليست على نفس الخط ومتفرقه بشكل متباعد تكون Weak linear Weak linear positive 69 STAT 101 , السبيل Weak linear negative no linear relationship Correlation Coefficient معامل االرتباط الخطي **يرمز ل معامل االرتباط الخطي ب r ** نستخدم معامل االرتباط لتحديد نوع العالقه عن طريق القيم **قانون معامل االرتباط 𝑦𝑥𝑆 =r 𝑦𝑆 𝑥𝑆