Unitat 1 Introducció a l’Estadística PDF
Document Details
Uploaded by Deleted User
Universitat de València
Tags
Summary
Notes de classe sobre introducció a l'estadística, incloent temes com poblacions, mostres, tipus de variables, incertesa i disseny d'experiments. Les notes estan enfocades a estudis universitaris d'estadistica.
Full Transcript
Unitat 1 Introducció a l’Estadística Departament d’Estadística i Investigació Operativa Universitat de València Unitat 1: Introducció a l’Estadística 1.1.- Població, mostra i variables Conceptes bàsics 1.2....
Unitat 1 Introducció a l’Estadística Departament d’Estadística i Investigació Operativa Universitat de València Unitat 1: Introducció a l’Estadística 1.1.- Població, mostra i variables Conceptes bàsics 1.2.- Tipus de variables Variables quantitatives o numèriques Variables qualitatives o categòriques 1.3.- Introducció a la incertesa 1.4.- Disseny d’experiments Estadística. Departamento de Estadística e Investigación Operativa. 2 1.1 Població, mostra i variables Els estudis estadístics tenen com a principal objectiu conèixer característiques d’una certa població (ja siguen persones, productes o esportistes) Població (objectiu) → Conjunt d’ individus/ítems en el que l’estudi està interessat. En general, des d’un punt de vista pràctic, no podrem tindre informació de tota la població sinó sols d’una xicoteta part d’aquesta que anomenarem mostra Paràmetre d'interès → La característica de la població que es desitja estudiar (L’objectiu de l’estudi) Variable o atribut → Mesura o característica de cada individu que ens aporta informació sobre el paràmetre d’interés. Estadística. Departamento de Estadística e Investigación Operativa. 3 Un parell d’exemples Es desitja estudiar el temps (minuts per dia) que ocupen en fer esport les persones residents al País Valencià que practiquen qualsevol esport de forma activa (estan federats) aquest any. Població: Totes les persones residents al País Valencià en 2024. Individus y mostra: Els individus són cadascuna de les persones i la mostra és el conjunt de persones sobre les que tenim informació (no en tenim de totes les persones que representen la població). Paràmetre: Mitjana de minuts al dia d’esport practicat. Variable: Nombre de minuts al dia que passem fent esport. Desitgem ara conèixer l’esport practicat en el mateix context que l’exemple anterior: Població: ¿…? Individus/mostra: ¿…? Paràmetre: ¿…? Variable: ¿…? Estadística. Departamento de Estadística e Investigación Operativa. 4 Per què no estudiem tota la població? Estadística. Departamento de Estadística e Investigación Operativa 6 Per què no estudiem tota la població? Perquè és molt nombrosa (temps / diners) Perquè l’observació pot ser destructiva Exemple: Si hem de mesurar la quantitat d’algun metall pesat que conté el salmó hauríem de deixar de consumir i vendre alguns salmons per a triturar-los i analitzar-los. Porque la població es dinàmica (tot avança/ tot canvia) L’aigua dels rius, el material es desgasta amb el temps. Éssers vius: Afectats per una malaltia o crisi Alimentació en xiquets menuts Les persones també canviem amb el temps Estadística. Departamento de Estadística e Investigación Operativa 7 És la mostra representativa de la població? Població Objetiu → Grup que tenim intenció d’estudiar però ens resulta impossible conèixer per complet Població Mostrejada→ Grup del que realment extraiem la mostra, donada la impossibilitat (pràctica) d’accedir moltes ocasions a tota la població objectiu Població Mostrejada Mostreig Població Objetiu Mostra Estadística. Departamento de Estadística e Investigación Operativa. 8 És la mostra representativa de la població? A vegades la mostra no s’obté de la població objetiu, o el mecanisme de mostreig fa que tinga característiques diferents a la població. Per exemple: Estudi de la lactància: Mostra de les mares que acudeixen a l’atenció primària Estudi de les coliflors: Mostra dels cultius pròxims. En aquestes situacions, diem que la mostra està esbiaixada o no és representativa de la població. La falta de representativitat d’una mostra introduirà biax (discrepàncies) en les estimacions que obtingam del paràmetre d’interés a partir de las variables de la nostra mostra. Es recomanable utilitzar l’atzar (mostreig aleatori) per a seleccionar una mostra que siga representativa de la població Estadística. Departamento de Estadística e Investigación Operativa. 9 Exercici Problema 4. Es va a realitzar una enquesta d’opinió sobre l’atenció als pacients i el funcionament d’un centre hospitalari. Amb aquest objectiu, s’ha dissenyat un qüestionari que es distribuirà entre una mostra dels pacients del centre. El nombre de pacients atesos en aquest centre és d’uns 1400 per setmana, tenint en compte aquest fet, s’han fet 140 còpies del qüestionari. Han sorgit diferents estratègies d’obtenir la mostra: (a) Col·locar els 140 qüestionaris sobre el mostrador on es troba la persona encarregada de gestionar les reclamacions. (b) Donar el qüestionari als primers 20 pacients que abandonen el centre cada dia durant una setmana. (c) Donar el qüestionari a cada pacient el nombre d'admissió del qual acabe en 00, 20, 40, 60, 80 durant dos setmanes. (d) Fer una llista dels següents 1400 números d’ingrés, seleccionar 140 d’ells a l’atzar i donar el qüestionari als pacients amb els números d'ingrés seleccionats. Par a cadascuna de las anteriors estratègies descrius si veus cap problema amb la representativitat de la mostra ¿Se t’ocorre alguna possibilitat que faja que (c) siga pitjor que (d)? Estadística. Departamento de Estadística e Investigación Operativa. 10 Mostra Mostra → Conjunt de individus de la població en els quals s’observa/mesura la variable d’interés Tamany de la mostra → Nombre d’individus en la mostra Mostra → De forma similar, també anomenarem mostra al conjunt de dades que hem observat Exemple (continuació): Per a estudiar el percentatge de lactants s’ha preguntat als familiars de 20 nadons sobre la lactància, codificant les respostes amb 0 si obtenim un NO i amb un 1 si la resposta és un SÍ. Tamany de la mostra: 20 Mostra (variable): 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1 i 0 Estadística. Departamento de Estadística e Investigación Operativa. 11 Exercici (Part 1) Problema 2. Per a cadascuna de las següents situacions marca: la població objectiu, la població mostrejada, el paràmetre d’interés, la variable d’estudi i la mostra. (a) Un analista vol saber quants litres de sang, en mitja, es consumeixen setmanalment en qualsevol hospital espanyol. L’analista disposa d’una llista de tots els hospitals del país i ha decidit contactar amb aquells hospitals que estiguen situats exactament en les centenes de la llista. (b) Una investigadora vol conèixer si un nou producte curarà certa malaltia en les persones. Com ja ha comprovat que no es perjudicial, decideix provar a extraure una mostra aleatòria de pacients d’una clínica privada d’Ontinyent. (c) Es suposa la mateixa situació que a l’apartat (b) però encara no s’ha establert que el producte no siga perjudicial. Per tant, l’estudi es situa en una fase prèvia que es realitza amb primats. Estadística. Departamento de Estadística e Investigación Operativa. 12 Exercici (Part 2) Problema 2. Per a cadascuna de las següents situacions marca: la població objectiu, la població mostrejada, el paràmetre d’interés, la variable d’estudi i la mostra. (d) Un analista deu saber si cert producte (per exemple, una màscara facial de protecció) actua tan be como s'esperava. Per tant, agafa una mostra aleatòria de 100 individus dels 1256 que han provat aquesta màscara durant l’últim any em almenys 1 partit. (e) S'està provant cert tipus d’entrenament per a millorar la velocitat, que en aquest moment és molt costós perquè requereix nous aparells, per al seu possible ús en un futur. El mètode elegit per a provar la seva eficàcia consisteix en seleccionar 5 individus de 20 clubs d’atletisme diferents, que realitzen aquest entrenament i comparar els resultats obtesos amb els que s’obtenen amb els atletes que segueixen l’entrenament tradicional. Estadística. Departamento de Estadística e Investigación Operativa. 13 1.2 Tipus de variables Una variable és una característica observable que pren diferents valors entre diferents individus d’una població. La informació que disposem de cada individu de la mostra (atributs) es resumeix en les diferents variables, contingudes en la corresponent base de dades. Exemple: Suposem que la població són els individus de la Comunitat Valenciana. Les variables associades a cada individu podrien ser: Grup sanguini: A, B, AB, O Número de fills: {0,1,2,3,...} Sexe: M, H Nivell d’estudis: sense estudis, elemental, mitjà, superior Índex de massa corporal: [16,40] (excloent extrems) Estadística. Departamento de Estadística e Investigación Operativa. 14 Variables quantitatives Anomenem variables quantitatives o numèriques a aquelles que prenen valors numèrics Las variables numèriques es classifiquen en: Discretes: Sols poden prendre un nombre exacte de valores, generalment nombres naturals Nombre de fills {0,1,2,…} Nombre de taques en un plàtan de Canaries {0,1,2,…} Continues: Sense tenir en compte els efectes de redondejar, poden prendre qualsevol valor, sencer o no, dins d’un conjunt de valors (finit o no) Pes, temperatura, edat, viscositat, humitat, volum,... Estadística. Departamento de Estadística e Investigación Operativa. 15 Variables qualitatives Anomenem variables qualitatives o categòriques a aquelles que no prenen valores numèrics, sinó un conjunto de valores predeterminats (nivells o categories) Sexe {M, H} Grupo sanguini {A, AB, B, 0} + RH{+,-} Color d’una poma Intolerància al gluten {si, no} Escala de preferències {roina, regular, bona} Algunes vegades trobem variables categòriques guardades amb valors numèrics que indiquen les categories de la variable. En quest cas no hemos de confondre este tipus de variable amb una variable numèrica discreta. Sexe {1 = Home, 2 = Dona, 3 = No binari,...} Estadística. Departamento de Estadística e Investigación Operativa. 16 Fem un xicotet exercici I Per parelles, definiu una població concreta. Per exemple: Totes les persones usuàries habituals de la piscina municipal d’Ontinyent Després, definiu quin interés podeu tindre en eixa població (quin és l’objectiu que teniu): Per exemple: Voldríem saber que pensen de la piscina. Després, especifiqueu quina mostra recolliríeu. Per exemple: Preguntarem a 50 persones de forma aleatòria. Finalment, especifiqueu quines característiques (variables) són interessants Per exemple: Quina edat (nombre enter) i sexe (M/F) tenen i quin grau de satisfacció general tenen amb la piscina (puntuació de 0 a 10 amb decimals). Estadística. Departamento de Estadística e Investigación Operativa. 17 Fem un xicotet exercici I Per parelles, definiu una població concreta. Per exemple: Totes les persones usuàries habituals de la piscina municipal d’Ontinyent Després, definiu quin interés podeu tindre en eixa població (quin és l’objectiu que teniu): Per exemple: Voldríem saber que pensen de la piscina. Després, especifiqueu quina mostra recolliríeu. Per exemple: Preguntarem a 50 persones de forma aleatòria. Finalment, especifiqueu quines característiques (variables) són interessants Per exemple: Quina edat (nombre enter) i sexe (M/F) tenen i quin grau de satisfacció general tenen amb la piscina (puntuació de 0 a 10 amb decimals). Estadística. Departamento de Estadística e Investigación Operativa. 18 Fem un xicotet exercici II Ara necessite una parella voluntària que ens llegirà la població i tots junt endevinarem de forma progressiva que han anat dissenyant. ¿Alguna parella de voluntaris? Estadística. Departamento de Estadística e Investigación Operativa. 19 1.3 Introducció a la incertesa Hi ha situacions, o variables, deterministes en les que tots els individus de la població responen exactament de la mateixa manera davant dels mateixos estímuls/condicions Lleis del moviment en física (e = v t; …) Qualificació final d’una assignatura en funció de la nota obtinguda (0-5: suspens; 6-7: aprovat; …) Les variables deterministes, encara que varien, la seva variabilitat no es aleatòria sinó que ve provocada estrictament per altres factors que sí coneixem. Estadística. Departamento de Estadística e Investigación Operativa. 20 Aleatorietat Altres variables o situacions presenten aleatorietat. No tots els individus responen de la mateixa manera front als mateixos estímuls. Aquests valors no són perfectament previsibles Altura d’adolescents de 15 anys d’edat. En general, la informació que disposarem en qualsevol mostra serà un conjunto de variables aleatòries L’estadística és l’encarregada de convertir la informació de variables aleatòries en informació de paràmetres d’interés de la població L’estadística és la ciència encarregada de treballar en contexts que comporten aleatorietat/incertesa Estadística. Departamento de Estadística e Investigación Operativa. 21 Un exemple: Consum d’aliments amb soja Per a estimar el percentatge d’individus de certa població que consumeixen productes amb soja s’ha elegit una mostra aleatòria de tamany 100. En esta s’ha observat que 18 dels individus de la mostra eren consumidors d’aquests productes. Què podem dir sobre el percentatge de consumidors (π) en la població? ¿Podria ser del 50%? ¿Y del 10%? ¿Y del 25%? Estadística. Departamento de Estadística e Investigación Operativa. 22 Un exemple: Consum d’aliments amb soja Per a estimar el percentatge d’individus de certa població que consumeixen productes amb soja s’ha elegit una mostra aleatòria de tamany 100. En esta s’ha observat que 18 dels individus de la mostra eren consumidors d’aquests productes. Què podem dir sobre el percentatge de consumidors (π) en la població? ¿Podria ser del 50%? ¿Y del 10%? ¿Y del 25%? Són compatibles les dades observades amb π=50%? Potser no podem saber si π=50% exactament, però potser sí podríem descartar que ho fora Cóm? Estadística. Departamento de Estadística e Investigación Operativa. 23 Un exemple: Consum d’aliments amb soja Per a estimar el percentatge d’individus de certa població que consumeixen productes amb soja s’ha elegit una mostra aleatòria de tamany 100. En esta s’ha observat que 18 dels individus de la mostra eren consumidors d’aquests productes. Què podem dir sobre el percentatge de consumidors (π) en la població? ¿Podria ser del 50%? ¿Y del 10%? ¿Y del 25%? Són compatibles les dades observades amb π=50%? Potser no podem saber si π=50% exactament, però potser sí podríem descartar que ho fora Cóm? Tirem repetidament 100 vegades una moneda i anotem quantes cares ixen en cada tanda, si sempre eixiren més de 25, per exemple, en eixe cas no podríem admetre que π=50% j que sols hemos observat 18 “cares” Estadística. Departamento de Estadística e Investigación Operativa. 24 Exemple del consum de soja (continuació) Més ràpid i fàcil que llançar una moneda diverses voltes: Simulació utilitzant R-Commander datos