ОСНОВНИ ПОНЯТИЯ НА СТАТИСТИКАТА РЕЗЮМЕ PDF
Document Details
Tags
Summary
Документът съдържа основите на статистическата теория, в частност, разглежда понятието генерална съвкупност, генерални признаци и различните им типове. Примерите са свързани с работа, учещи и оценки в България.
Full Transcript
ПРАКТИКУМ ПО ПРИЛОЖНА СТАТИСТИКА ЧАСТ 1 СТАТИСТИЧЕСКИ МЕТОДИ ЗА АНАЛИЗ НА ЕДНА СТАТИСТИЧЕСКА ПРОМЕНЛИВА ПО ДАННИТЕ ОТ ЕДНА ИЗВАДКА ЛЕКЦИЯ №1: ОПИСАТЕЛНА СТАТИСТИКА НА ЕДНА СТАТИСТИЧЕСКА ПРОМЕНЛИВА 1. Поня...
ПРАКТИКУМ ПО ПРИЛОЖНА СТАТИСТИКА ЧАСТ 1 СТАТИСТИЧЕСКИ МЕТОДИ ЗА АНАЛИЗ НА ЕДНА СТАТИСТИЧЕСКА ПРОМЕНЛИВА ПО ДАННИТЕ ОТ ЕДНА ИЗВАДКА ЛЕКЦИЯ №1: ОПИСАТЕЛНА СТАТИСТИКА НА ЕДНА СТАТИСТИЧЕСКА ПРОМЕНЛИВА 1. Понятието генерална съвкупност. Съвкупност от обекти, които притежават някакъв общ признак или набор от признаци – количествени или качествени, се нарича генерална съвкупност. Пример 1: Съвкупността на работещите в даден отрасъл на промишлеността в България представлява генерална съвкупност. Пример 2: Съвкупността на учещите в дадено ВУ в България представлява генерална съвкупност. Фиг. 1. 2. Понятието генерален признак. Признаците, с които се характеризират обектите на една генерална съвкупност се наричат генерални признаци. Пример: Всеки елемент на генералната съвкупност от Пример 1 на предната точка се характеризира с признаците „пол”, „вид на образованието/ВО/“, „трудов разряд(1-7)/ТР/“ , „трудов стаж/ТС/“, „възраст“, „височина“, „тегло“. пол ВО ТР ТС възраст височина тегло Фиг. 2. 3. Основни типове генерални признаци. Класификация на различните генерални признаци според приеманите от тях стойности: ген. признак категориален числов номинален ординален дискретен интервален пол вид образование трудов разряд височина мъж основно 1 178 жена средно 3 182 жена висше 7 163 Фиг. 3. Генерален признак, който приема само две различни стойности, се нарича дихотомичен. Най-често дихотомичните признаци са категориални. Пример на такъв е признака „пол“, който приема само две стойности – „мъж“ и „жена“. Този тип променливи се срещат често в медицината и здравеопазването. За по-голямо удобство, преди да пристъпим към статистическа обработка на данните за тези променливи, действителните им стойности се кодират – едната стойност с 1, а другата – с 0. 4. Същност на генералните признаци. Генералните признаци, с които се характеризират различните обекти на една генерална съвкупност, представляват случайни величини. Като такива, те приемат своите стойности за обектите на изследваната генерална съвкупност с определена честота/вероятност/. По тази причина, генералните признаци се наричат статистически променливи. Съответствието между различните стойности на един генерален признак и честотата/вероятността/ с която ги приема за дадена генерална съвкупност, се нарича честотно/вероятностно/ разпределение на генералния признак/статистическата променлива/ върху въпросната генерална съвкупност. Върху различните генерални съвкупности един и същ генерален признак може да има различни честотни/вероятностни/ разпределения. Например, честотното разпределение на оценките от изпита на две различни групи – Х и Y, по една и съща дисциплина – ИТ. Нагледно, то може да се представи с таблица и с хистограма: Разпределение на оценките по ИТ в гр. Х Разпределение на оценките по ИТ в гр. Y Оценка 2 3 4 5 6 оценка 2 3 4 5 6 Честота 0,1 0,2 0,3 0,3 0,1 честота 0,1 0,1 0,3 0,3 0,2 30 30 25 25 Relative frequency (%) Relative frequency (%) 20 20 15 15 10 10 5 5 0 0 2 3 4 5 6 7 2 3 4 5 6 7 Y X 5. Основни генерални характеристики на генералните признаци. Отчитайки, че генералните признаци са случайни величини, основен интерес за статистиците и практиката представляват следните числови и честотни характеристики на същите: 1/Числовите характеристики на изследвания генералния признак: Характеристики на средната – средна стойност, медиана, мода; Характеристики на разсейването - размах, стандартно отклонение, дисперсия/вариация/ Характеристики на разпределението – асиметрия/skewness/, сплесканост/kurtosis/ и персентили. 2/ Честотните характеристики на стойностите от разпределението на изследвания генерален признак – абсолютен, относителен и процентен дял; абсолютно, относително и процентно разпределение на стойностите на изследвания генерален признак - кумулативно и некумулативно. 3/ Типът на честотното/вероятностното/ разпределение на изследваният генерален признак – нормално, симетрично, равномерно и т.н. Гореописаните характеристики на генералните признаци могат да се определят единствено на базата на изчерпателно изследване за същите и се наричат „генерални/действителни/ характеристики” на изследваният генерален признак. 6. Основни способи за определяне на генералните характеристики. Генералните характеристики на изследваните генерални признаци, могат да се определят по два начина – точно и приблизително. При точното определяне на интересуващите ни генерални характеристики, в статистическото изследване се включат всички елементи на изследваната генерална съвкупност. Такова изследване се нарича изчерпателно. То не винаги е възможно, а когато е възможно, обикновено е скъпо струващо и времеемко. Затова изчерпателните статистически изследвания са рядкост – реализират се само когато броят на елементите в изследваната генерална съвкупност е сравнително малък. Например, ако имате една студентска група и искате да намерите точната средна височина на студентите в нея, не е проблем да измерите височините на всички студенти в нея и да намерите средното им аритметично. При приблизителното определяне на интересуващите ни генерални характеристики, в статистическото изследване се включват само част от елементите на изследваната генерална съвкупност. Тази част се нарича „извадка”. Въз основа на стойностите на изследваният генерален признак върху елементите на извадката, се построяват оценки за интересуващите ни генерални характеристики. Тези оценки се наричат „извадкови/статистически, емпирични/“ характеристики на изследвания генерален признак. Това е основният метод за изработка на оценки за неизвестните генерални характеристики. Ген. точно определяне на ГХ изчерпателно изследване на Х Признак Х Ген. характ. на Х /ген. средна/ прибл. определяне на ГХ ограничено изследване на Х Ген. Съвкупност 7. Схема за реализиране на извадка от дадена генерална съвкупност. Репрезентативни извадки. Реализирането на извадка от дадена генерална съвкупност протича по следната схема: Генерална n съвкупност с N елемента случайно избрани елементи стойности на признака Х Ген. признак Х за случ. избраните n елемента на извадката (X1, X2, …, Xn) – сл. извадка за ст-стите на Х случаен избор /статистическа реализация на ген. признак Х/ на n елементи извадка Фиг. 4 Стойностите X1, X2, …, Xn на признака Х върху случайно избраните n елементи от изследваната генерална съвкупност се наричат случайна извадка за стойностите на признака Х, а техния брой n се нарича обем на извадката. Важно условие за валидността на статистическите оценки и заключения за признака Х е извадката за него да е представителна/репрезентативна/. Една извадка се нарича представителна/репрезентативна/, когато представлява адекватен “мини- модел” на генералната съвкупност. Това означава, че стойностите на изследвания признак Х върху изследваната генерална съвкупност и върху реализираната от нея извадка да имат приблизително еднакво честотно/вероятностно/ разпределение, т.е. приемат едни и същи стойности, с една и съща относително честота/вероятност/. За да бъде една извадка представителна, тя трябва да бъде случайна и с достатъчно голям обем. Една извадка е случайна, когато включваните в нея обекти на изследваната генерална съвкупност се избират случайно, а не селективно и преднамерено. 8. Таблично представяне на резултатите от статистическата реализация/извадка/ на един или повече генерални признаци. Данните за реализираната извадка или направените наблюдения, за един или повече генерални признаци, с които се характеризират елементите на дадена генерална съвкупност, се представят с помощта на таблици със следната структура: 1/ в първия стълб на тези таблици се отбелязва номера на елемента на извадката или номера на направеното наблюдение; 2/ в следващите стълбове на тези таблици се нанасят стойностите на изследваните генерални признаци за съответният на наблюдението елемент на изучаваната генерална съвкупност. Променлива Пол Ръст Брой точки употреба от теста на кафе номер на наблюдение 1. Мъж 182 35 Умерено 2. Жена 164 24 Много 3. Мъж 176 36 Малко номинална интервална дискретна ординална Както се вижда от приведената таблица, статистическото изследване може да обхваща както един, така и повече от един от признаците, с които се характеризират елементите на изследваната генерална съвкупност. 9. Основни типове характеристики на генералните признаци. Генералните признаци притежават два вида съответни характеристики – генерални/наричат се още действителни/ и статистически/наричат се още извадкови/, които на свой ред биват числови и честотни. Генералните характеристики на генералните признаци – числови и честотни, са неизвестни, а статистическите – числови и честотни, се определят въз основа на данните от представителна извадка за изследвания генерален признак. Тъй като представителната извадка представлява адекватен мини-модел на изследваният генерален признак, пресметнатите въз основа на нейните данни статистически характеристики се използват за оценка на съответните неизвестните генерални характеристики. реализиране на представителна извадка за Х с обем n ген. признак ген. характ. на Х стат. характ. на Х X1, X2, …., Xn Х /неизвестна/ оценка /известна/ ген. съвкупност предст. извадка за Х 10. Основни статистически/извадкови/ характеристики на генералните признаци. Статистическите/извадковите/ характеристики на генералните признаци – числови и честотни, са същите като техните генерални характеристики. Но понеже се пресмятат на базата на статистически данни за изследваният генерален признак Х/т.е. с данните от представителна извадка за Х/, се наричат статистически/извадкови/ характеристики на Х: 1/Статистически числови характеристики на изследвания генералния признак: Характеристики на средната – стат. средна стойност, стат. медиана, стат. мода; Характеристики на разсейването – стат. размах, стат. станд. отклонение, стат. дисперсия; Характеристики на разпределението – стат. асиметрия/skewness/, стат. сплесканост /kurtosis/ и стат. персентили. 2/ Статистически честотни характеристики на стойностите от разпределението на изследвания генерален признак –статистически абсолютен, относителен и процентен дял; статистическо абсолютно, относително и процентно разпределение на стойностите на изследвания генерален признак - кумулативно и некумулативно. 3/ Статистически закон на честотното/вероятностното/ разпределение на изследвания генерален признак – нормално, симетрично, равномерно и т.н.. 11. Основни статистически числови характеристики на генералните признаци. A/Статистически характеристики на средната: 1/Статистическа средна стойност/m/. Този показател има смисъл само за числови данни със съдържателен смисъл, т.е. за числови генерални признаци/променливи/ със съдържателни стойности. Пресмята се чрез намиране на средната стойност на данните от наблюдението, т.е. по формулата: ... X n m X1 X 2 , n където m е статистическата средна стойност на изследвания генерален признак, X1, X2, …, Xn – неговите наблюдавани стойности, а n – обема на извадката/т.е. броя на наблюденията/. Пример: Да допуснем, че в резултат на реализирането си, генералния признак Х е приел следните стойности: 3, 5, 4, 6, 2. Тогава за статистическата му средна ще имаме: 35 4 6 2 m 4 5 Статистическата средна стойност представлява оценка за неизвестната генерална средна на изследваният генерален признак. Тя е средна на извадковите стойности на изследваният генерален признак. 2/Статистическа медиана/me/. Този показател има смисъл за ординални и числови генерални признаци. Статистическата медиана има за стойност числото, което заема централно място във възходящото подреждане на данните за изследвания генерален признак. Това означава, че 50% от данните на признака лежат отляво на медианата и 50% - отдясно на нея. 50% me 50% xmin медиана xmax Следователно, медианата се явява процентна средна на възходящия ред от стойностите на изследвания генерален признак. Тя е среда на честотното разпределение, а не на стойностите на данните, както е при статистическата средна. За да намерим медианата на дадени числови данни, те първо трябва да се ранжират, т.е. подредят във възходящ ред, а след това и да се номерират. Номерът, който получава всяка стойност във възходящия ред се нарича ранг на тази стойност. В случай, че данните на извадката са нечетен брой n, има едно централно значение във възходящия ред и неговият ранг е равен на (n+1)/2. Пример: Изходен ред : 4, 6, 2, 8, 9. Възходящ ред: 2, 4, 6, 8, 9. Рангов ред: 1, 2, 3, 4, 5. Централен ранг: (5+1)/2=3. Централен елемент във възходящия ред е този, който има ранг 3, т.е. числото 6. Следователно медианата на изходния ред е 6. В случай, че данните на извадката са четен брой n, съществуват две централни значения във възходящия ред /значенията с рангове n/2 (n/2)+1/. Тогава за медиана се взема тяхното средно аритметично. Пример: Изходен ред: 5, 7, 1, 3, 8, 9. Възходящ ред: 1, 3, 5, 7, 8, 9. Рангов ред: 1, 2, 3, 4, 5, 6. Централни рангове: 3 и 4. Централни стойности във възходящия ред са тези, които имат рангове 3 и 4, т. е. 5 и 7. Следователно медианата на изходния ред е (5+7)/2=6. Статистическата медиана представлява оценка за неизвестната генерална медиана на изследвания генерален признак. 3/Статистическа мода/mo/. Този показател има смисъл за всякакви генерални признаци. Да намерим статистическата мода в един ред от данни, ще рече да намерим най-често срещащата се в този ред стойност – числова или категориална. Това означава, че статистическата мода е стойността с най-голяма абсолютна /относителна или процентна/ честота в извадковото разпределение на изследваният генерален признак. Пример: Да допуснем, че в резултат на реализирането си, статистическата променлива Х е приела следните стойности: 3, 5, 3, 6, 3. Тогава статистическата й мода ще е равна на числото 3. Статистическата мода представлява оценка за неизвестната генерална мода на изследвания генерален признак. Пресмятането на всички гореописани статистически характеристики на генералните признаци става автоматично с програмата Summary Statistics от статистически пакет MED CALC. B/Статистически характеристики на разсейването. 1/Статистически размах/d/. Този показател има смисъл само за числови и ранжирани ординални генерални признаци. Равнява се на разликата между най-голямата и най-малката наблюдавана стойност на реда с данни. xmin размах xmax Пример: Да допуснем, че в резултат на реализирането си, генералния признак Х е приел следните стойности: 3, 5, 4, 6, 2. Тогава статистическия размах на признака Х ще е равен на 6-2=4. Съдържателно, статистическият размах показва диаметъра на разсейване на данните от извадката. Статистическият размах представлява оценка за неизвестния генерален размах на изследвания генерален признак. 2/Статистическо стандартно отклонение/s/. Този показател има смисъл само за генерални признаци със съдържателни стойности. Пресмята се по формулата: 2 1 n s ( X m) , n 1i 1 i където m е статистическата средна стойност на изследвания генерален признак, Хi – неговите наблюдавани стойности, а n – обема на извадката/т.е. броят на наблюденията/. Пример: Да допуснем, че в резултат на реализирането си, генералният признак Х е приел следните стойности: 3, 5, 4, 6, 2. Вече знаем, че статистическата средна на признака Х е m=4. Тогава статистическото стандартно отклонение на признака Х ще е равно на: 1 1 10 S ((3 4) 2 (5 4) 2 (4 4) 2 (6 4) 2 (2 4) 2) (11 0 4 4) 2,5 1,58 5 1 4 4 Съдържателно, статистическото стандартно отклонение показва средно с колко се отклоняват наблюдаваните/извадковите/ стойности Х1, Х2,..., Хn на изследвания генерален признак X от неговата статистическа средна стойност m. Х Х1 Х3 m Хn Х2 Статистическото стандартно отклонение представлява оценка за неизвестното генерално стандартно отклонение на изследвания генерален признак. 3/Статистическа дисперсия/s2/. Този показател има смисъл само за генерални признаци със съдържателни стойности. Равнява се на квадрата на статистическото стандартно отклонение на изследвания признак, т.е на 2 s. Нарича се още статистическа вариация. Съдържателно, дисперсията показва средния квадрат на отклоненията на наблюдаваните стойности на изследвания признак X от неговата статистическа средна стойност m. Статистическата дисперсия представлява оценка за неизвестната генерална дисперсия на изследвания генерален признак. 4/Статистическо относителното стандартно отклонение на изследвания признак / Relative standard deviation. То е равно на частното между стандартното отклонение и средната на извадката, представя се в относителен и в процентен вид и служи за сравняване на вариациите на даден признак върху генерални съвкупности с различни средни на признака върху тях. Нарича се коефициент на вариация на признака. Пресмятането на всички гореописани статистически характеристики на генералните признаци става автоматично с програмата Summary Statistics от статистически пакет MED CALC. С/Статистически характеристики на разпределението. 1/Асиметрия или скосеност/Skewness/. Този показател има смисъл само за непрекъснати генерални признаци и служи за оценка на хоризонталното отклонение на разпределението на изследваният генерален признак от нормалното разпределение. За нормално и симетрично разпределените генерални признаци асиметрията е нула, а средната, модата и медианата съвпадат - фиг. 5 Когато стойността на статистическата асиметрия a е положителна, разпределението на изследваният генерален признак е скосено/изтеглено/ надясно, в сравнение с това на нормалното разпределение със същата средна и стандартно отклонение. В този случай средната стойност m е по- голяма от медианата me, която пък е по-голяма от модата mo на съответното разпределение – фиг.6. a=0 a>0 a0 a