Συσχέτιση μεταξύ ποσοτικών χαρακτηριστικών PDF

Document Details

ManeuverableSugilite1563

Uploaded by ManeuverableSugilite1563

Ιατρική Σχολή ΕΚΠΑ

Βάνα Σύψα

Tags

statistical analysis quantitative data correlation medical statistics

Summary

Παρουσίαση σχετικά με τη συσχέτιση ποσοτικών χαρακτηριστικών. Η παρουσίαση εξετάζει διάφορες στατιστικές έννοιες και περιλαμβάνει παραδείγματα και διαγράμματα.

Full Transcript

Συσχέτιση μεταξύ ποσοτικών χαρακτηριστικών Βάνα Σύψα Καθηγήτρια Επιδημιολογίας και Ιατρικής Στατιστικής Εργ. Υγιεινής, Επιδημιολογίας και Ιατρικής Στατιστικής Ιατρική Σχολή, ΕΚΠΑ [email protected] ΣΤΑΤΙΣΤΙΚΗ Περ...

Συσχέτιση μεταξύ ποσοτικών χαρακτηριστικών Βάνα Σύψα Καθηγήτρια Επιδημιολογίας και Ιατρικής Στατιστικής Εργ. Υγιεινής, Επιδημιολογίας και Ιατρικής Στατιστικής Ιατρική Σχολή, ΕΚΠΑ [email protected] ΣΤΑΤΙΣΤΙΚΗ Περιγραφική στατιστική: Συνοπτική παρουσίαση δεδομένων Στατιστική συμπερασματολογία: Συναγωγή συμπερασμάτων για τη σχέση π.χ. μίας μεταβλητής με μία άλλη t-test κλπ X2-test Είδη μεταβλητών Συνεχείς ή ποσοτικές (quantitative) Π.χ. ηλικία, επίπεδα χοληστερόλης, ύψος Ποιοτικές (qualitative, categorical) Διχοτομικές: φύλο, κάπνισμα Ποιοτικές με >2 κατηγορίες: φυλή, ομάδα αίματος Πιθανά ερωτήματα σε μία έρευνα Ποσοτική έκβαση Παράγοντας (π.χ. επίπεδα χοληστερόλης) Ποιοτική έκβαση Παράγοντας (π.χ. καρκίνος του πνεύμονα: ναι/όχι) Υποθετικό παράδειγμα Ποσοτική Παράγοντας έκβαση Π.χ. Διαίτα (Α, Β) Απώλεια βάρους (kg) Φύλο (Α, Γ) Επίπεδα χοληστερόλης Π.χ. υπολογισμός μέσων επιπέδων χοληστερόλης σε άνδρες και γυναίκες Άνδρες  μέση τιμή=230 Γυναίκες  μέση τιμή=205 ΟΜΩΣ, αυτό σημαίνει ότι υπάρχει διαφορά στα επίπεδα χοληστερόλης μεταξύ ανδρών και γυναικών; Η παρατηρούμενη σχέση μεταξύ ενός παράγοντα και μίας έκβασης μπορεί να οφείλεται σε: 1. Συστηματικά σφάλματα (bias): συστηματικό λάθος στο σχεδιασμό ή τη διεξαγωγή της έρευνας που μπορεί να οδηγήσει σε υποεκτίμηση ή υπερεκτίμηση της μελετώμενης σχέσης  δεν θα ασχοληθούμε με αυτά 2. Τυχαία σφάλματα (random error): «τύχη» - απόρροια της μεταβλητότητας της δειγματοληψίας 3. Συγχυτικοί παράγοντες (confounding) Σφάλματα Η παρατηρούμενη σχέση μεταξύ ενός παράγοντα και μίας έκβασης μπορεί να οφείλεται σε: 1. Συστηματικά σφάλματα (bias): συστηματικό λάθος στο σχεδιασμό ή τη διεξαγωγή της έρευνας που μπορεί να οδηγήσει σε υποεκτίμηση ή υπερεκτίμηση της μελετώμενης σχέσης  δεν θα ασχοληθούμε με αυτά 2. Τυχαία σφάλματα (random error): «τύχη» - απόρροια της μεταβλητότητας της δειγματοληψίας 3. Συγχυτικοί παράγοντες (confounding) Τυχαία σφάλματα Ρίψη νομίσματος: 1000 φορές  περίπου 50% κορώνα 10 φορές ;;; 6/10 κορώνα  60%  όχι δίκαιο το νόμισμα; Πώς μπορώ να κρίνω αν η διαφορά που παρατηρώ οφείλεται στην τύχη ή όχι;  έλεγχος υποθέσεων Η λογική του ελέγχου υποθέσεων Στη νομική επιστήμη, εφαρμόζεται το κριτήριο της αθωότητας για τον κατηγορούμενο έως αποδείξεως του εναντίου Μηδενική υπόθεση: o κατηγορούμενος είναι αθώος Συλλέγονται δεδομένα προκειμένου να διερευνηθεί αν αυτά είναι συμβατά με αυτή την υπόθεση Αν είναι συμβατά δεν μπορώ να απορρίψω αυτή την υπόθεση και αθωώνω τον κατηγορούμενο Αν δεν είναι συμβατά, απορρίπτω τη μηδενική υπόθεση  ένοχος Σε αυτό τον έλεγχο μπορεί να υπεισέλθει κάποιο σφάλμα Σφάλμα τύπου ΙI Σφάλμα τύπου Ι Σφάλματα στον έλεγχο υποθέσεων Αποτέλεσμα Αλήθεια στον πληθυσμό στο δείγμα της Υπάρχει διαφορά Δεν υπάρχει μελέτης διαφορά Υπάρχει Σωστό Σφάλμα τύπου Ι διαφορά (Ισχύς) (a) Δεν υπάρχει Σφάλμα τύπου ΙΙ διαφορά Σωστό (β) Στατιστικές δοκιμασίες για τη διερεύνηση σχέσης μεταξύ 2 παραγόντων Παράγοντας 2 Παράγοντας 1 Ποσοτική Ποιοτική Ποιοτική t-test (όταν η ποιοτική έχει 2 επίπεδα, π.χ. Ναι/Όχι) X2-test Ποσοτική ? Παράδειγμα Σε μία έρευνα συλλέγονται, μεταξύ άλλων, τα εξής δεδομένα για τους συμμετέχοντες: Ηλικία (έτη) Φύλο Συστολική πίεση (mm Hg) Κάπνισμα (ναι/όχι) Πιθανά ερωτήματα Διαφέρουν τα επίπεδα διαστολικής πίεσης μεταξύ ανδρών και γυναικών; Πίεση: ποσοτική μεταβλητή Φύλο: ποιοτική μεταβλητή με 2 επίπεδα  t-test Διαφέρουν οι καπνιστικές συνήθειες μεταξύ ανδρών και γυναικών; Κάπνισμα: ποιοτική μεταβλητή Φύλο: ποιοτική μεταβλητή  X2 test Υπάρχει σχέση μεταξύ ηλικίας και διαστολικής πίεσης; Ηλικία: ποσοτική μεταβλητή Συστολική πίεση: ποσοτική μεταβλητή ? “Υπάρχει σχέση μεταξύ ηλικίας και διαστολικής πίεσης;”  Τι εννοούμε «σχέση»; Βαθμός συσχέτισης μεταξύ των δύο μεταβλητών (παρουσία ή απουσία συσχέτισης και, αν υπάρχει, πόσο «δυνατή» είναι) Αν υπάρχει συσχέτιση, μας ενδιαφέρει: Το είδος της συσχέτισης (γραμμική ή μη γραμμική) Ποια είναι η κατεύθυνσή της (θετική ή αρνητική) Πως εξαρτάται η μία μεταβλητή από την άλλη, Π.χ. αν αυξηθεί η ηλικία κατά 10 έτη, πόσο αναμένεται να αυξηθούν τα επίπεδα διαστολικής πίεσης; Συσχέτιση και ερευνητική μονάδα Οι δύο μεταβλητές των οποίων τη σχέση θέλουμε να εξετάσουμε μετριούνται στην ίδια ερευνητική ομάδα, η οποία μπορεί να είναι: Tο άτομο Π.χ. συστολική πίεση και ηλικία, χρόνια εκπαίδευσης και εισόδημα Οικογένεια Π.χ. ύψος πατέρα και ύψος παιδιού, χρόνια εκπαίδευσης γονέων και αριθμός παιδιών Ευρύτερες ομάδες Π.χ. θνησιμότητα από καρκίνο και κατά κεφαλή κατανάλωση καπνού σε ένα πληθυσμό Παράδειγμα Σε μελέτη για τη διερεύνηση της επίδρασης του μολύβδου στην σωματομετρική ανάπτυξη των παιδιών, μελετήθηκαν παιδιά σχολικής ηλικίας από τρεις περιοχές: Λαύριο, Ελευσίνα και Λουτράκι Το συνολικό δείγμα αποτελείτο από 522 παιδιά, 274 αγόρια και 248 κορίτσια ηλικίας 6-9 χρονών. Μέρος των δεδομένων παρουσιάζεται στον πίνακα που ακολουθεί (Kafourou et al, Archives of Environmental health, 1997; 52: 377- 383). Παράδειγμα (συνέχεια) Πιθανά ερωτήματα: Σχέση αναστήματος παιδιού με ανάστημα πατέρα Σχέση αναστήματος παιδιού με ηλικία παιδιού Σχέση αναστήματος παιδιού με επίπεδα μολύβδου Διάγραμμα συσχέτισης (ή στικτόγραμμα) του αναστήματος του πατέρα με το ανάστημα του παιδιού 200 190 Father's height 180 170 160 150 100 110 120 130 140 150 Children's height Αρχική διερεύνηση της σχέσης δύο ποσοτικών μεταβλητών Με διάγραμμα μπορούμε να έχουμε μία εικόνα για: Την ύπαρξη γραμμικής ή άλλης μορφής συσχέτισης Το βαθμό συμμεταβολής των 2 μεταβλητών Αν η συσχέτιση είναι θετική/αρνητική Διαγράμματα συσχέτισης: (α) θετική συσχέτιση, (β) αρνητική συσχέτιση, (γ) και (δ) απουσία συσχέτισης Τριχόπουλος Δ, Τζώνου Α, Κατσουγιάννη Κ. Βιοστατιστική Μη γραμμικές συσχετίσεις Μπορεί να υπάρχει σχέση μεταξύ δύο μεταβλητών η οποία όμως δεν είναι γραμμική π.χ. θνησιμότητα και θερμοκρασία G. Touloumi et al, International Journal of Epidemiology, 23:957-967,1994 Γραμμική (ευθύγραμμη) συσχέτιση Γραμμική (ευθύγραμμη) συσχέτιση Θα ασχοληθούμε με τη διερεύνηση ύπαρξης γραμμικών (ευθύγραμμων) συσχετίσεων Ένας δείκτης που αποτελεί μέτρο του βαθμού της γραμμικής σχέσης μεταξύ 2 ποσοτικών μεταβλητών είναι ο συντελεστής συσχέτισης Pearson. Προϋποθέσεις για τη χρήση του Οι δύο μεταβλητές είναι ποσοτικές Η κατανομή των τιμών των μεταβλητών είναι κανονική (ακριβώς ή κατά προσέγγιση) Η συλλογή των παρατηρήσεων και για τις δύο μεταβλητές έγινε τυχαία Ιδιότητες του συντελεστή συσχέτιση Ο συντελεστής συσχέτισης είναι καθαρός αριθμός (δεν έχει μονάδες) Παίρνει τιμές από -1 έως 1 Μετρά μόνο την ευθύγραμμη συσχέτιση Ερμηνεία του συντελεστή συσχέτιση Ερμηνεύουμε την τιμή του και το πρόσημό του Τιμές κοντά στο 0 δείχνουν ΑΠΟΥΣΙΑ συσχέτισης Τιμές κοντά στο 1 δείχνουν ΥΠΑΡΞΗ ευθύγραμμης συσχέτισης Όσο πιο κοντά στο +1  Τόσο πιο δυνατή ΘΕΤΙΚΗ ΣΥΣΧΕΤΙΣΗ Όσο πιο κοντά στο -1  Τόσο πιο δυνατή ΑΡΝΗΤΙΚΗ ΣΥΣΧΕΤΙΣΗ r=+1 r=+1 r=+0.8 r=+0.5 r=-1 r=-0.8 r=-0.5 r=-1 r=0 r=0 r=0 Στατιστική αξιολόγηση Το ερώτημα είναι αν υπάρχει συσχέτιση μεταξύ 2 μεταβλητών στον πληθυσμό ρ  συντελεστής συσχέτισης των 2 μεταβλητών στον πληθυσμό r  συντελεστής συσχέτισης των 2 μεταβλητών στο δείγμα Αξιολογούμε το r βασιζόμενοι σε ένα δείγμα π.χ. ηλικία και συστολική πίεση σε δείγμα 10 ατόμων  r=0.70 Είναι το εύρημα αυτό στατιστικά σημαντικό; Η0: ρ=0 Η1: ρ≠0 Παράδειγμα υπολογισμού και στατιστικής αξιολόγησης του συντελεστή συσχέτισης Pearson Συστολική αρτηριακή πίεση σε ζεύγη μονο-ωογενών διδύμων. (χ) (ψ) 1ος δίδυμος 2ος δίδυμος 15 12 14 14 14 11 10 13 13 δίδυμος 2οςδίδυμος 13 11 12 12 15 14 2ος 11 11 13 14 10 12 12 10 9 13 10 9 10 11 12 13 14 15 16 10 11 12 1oς δίδυμος 13 14 15 16 14 13 1oς δίδυμος r=0.474 (p=0.235)  Όχι στατιστικά σημαντική συσχέτιση Στατιστικές δοκιμασίες για τη διερεύνηση σχέσης μεταξύ 2 παραγόντων Παράγοντας 2 Παράγοντας 1 Ποσοτική Ποιοτική t-test X2-test Ποιοτική (όταν η ποιοτική έχει 2 επίπεδα, π.χ. Ναι/Όχι) Correlation Ποσοτική coefficient με αξιολόγησή του Σημείωση: Οι περισσότερες δοκιμασίες για ποσοτικά χαρακτηριστικά υποθέτουν την κανονική κατανομή των χαρακτηριστικών Παράδειγμα εφαρμογής σε στατιστικό πακέτο SPSS Σχετίζεται το ανάστημα του παιδιού με το ανάστημα του πατέρα; Εξάρτηση Εξάρτηση Όταν μας ενδιαφέρει η μελέτη της εξάρτησης της μιας μεταβλητής από την άλλη (εξαρτημένη μεταβλητή-ανεξάρτητη μεταβλητή) τότε μπορούμε να επιλέξουμε την παλινδρόμηση (εξάρτηση) Το εξαρτημένο μέγεθος θα πρέπει να κατανέμεται κανονικά Συσχέτιση και εξάρτηση Η διάκριση μεταξύ συσχέτισης και εξάρτησης (παλινδρόμησης) είναι περισσότερο εννοιολογική και λιγότερο στατιστική Εάν μας ενδιαφέρει η ένταση της σχέσης των δύο μεταβλητών, αρκεί η συσχέτιση (correlation coefficient) Εάν επιπλέον θέλουμε να «ποσοτικοποιήσουμε» πόσο επηρεάζει μία μεταβλητή την εξαρτημένη μας μεταβλητή  εξάρτηση Εξαρτημένη και ανεξάρτητη μεταβλητή Εννοιολογικά, ως ανεξάρτητη μεταβλητή θα πρέπει να επιλέγεται αυτή που αποτελεί αιτιολογικό/προγνωστικό παράγοντα για τα επίπεδα της άλλης μεταβλητής Π.χ. ηλικία και επίπεδα συστολικής αρτηριακής πίεσης Η ηλικία επηρεάζει τα επίπεδα συστολικής πίεσης Συστολική πίεση  Εξαρτημένη (Υ) Ηλικία  Ανεξάρτητη (Χ) Απλή γραμμική εξάρτηση (simple linear regression) Στην απλή εξάρτηση διερευνάται η σχέση μιας εξαρτημένης μεταβλητής με μία μόνο ανεξάρτητη μεταβλητή. Ποια είναι η λογική της; Προσπαθούμε να εκτιμήσουμε την ευθεία που χαρακτηρίζει «καλύτερα» τη σχέση μεταξύ της εξαρτημένης και ανεξάρτητης μεταβλητής Με βάση αυτή τη γραμμή μπορούμε να βρούμε κάθε τιμή της εξαρτημένης που αντιστοιχεί σε συγκεκριμένη τιμή της ανεξάρτητης. EΞΕΤΑΖΟΥΜΕ ΤΗ ΓΡΑΜΜΙΚΗ ΣΧΕΣΗ Εξίσωση ευθείας b = κλίση (slope) της ευθείας y y=α+b*x a=σταθερά (intercept) της ευθείας  το σημείο που τέμνει η ευθεία τον άξονα y στο x=0 x Μέθοδος εκτίμησης: Ευθεία ελαχίστων τετραγώνων (least squares) Αρχικά, τα δεδομένα έχουν Ποια ευθεία αναπαριστά καλύτερη τη την παρακάτω μορφή: σχέση αυτή; Εξίσωση ευθύγραμμης απλής εξάρτησης ^ Y = a + bX b: ο συντελεστής κλίσης της γραμμής εξάρτησης (regression coefficient) Ερμηνεία Ο b εκφράζει την κατά μέσο όρο μεταβολή (αύξηση ή μείωση ανάλογα με το πρόσημο) της εξαρτημένης μεταβλητής (Υ) όταν η ανεξάρτητη (Χ) μεταβληθεί (αυξηθεί) κατά μία μονάδα Π.χ. Ηλικία (Χ) και τριγλυκερίδια (Υ): έστω δύο άτομα, ο ένας 39 ετών και ο άλλος 40. Με βάση τη γραμμή εξάρτησης, πόσο αναμένεται να διαφοροποιούντα κατά μέσο όρο τα τριγλυκερίδιά τους; Ο συντελεστής εξάρτησης b μπορεί να είναι αρνητικός (αρνητική εξάρτηση) ή θετικός αριθμός (θετική εξάρτηση) ή να ισούται προς 0 (απουσία εξάρτησης). Έχει σαν μονάδες το λόγο των μονάδων της εξαρτημένης προς τις μονάδες της ανεξάρτητης μεταβλητής (μονάδες Υ ανά μονάδες Χ) Θετική εξάρτηση (α), αρνητική εξάρτηση (β) και απουσία εξάρτησης (γ) της y από την x b>0 b0 ή 0) ή αρνητικής συσχέτισης (b2 επίπεδα Δημιουργία ψευδομεταβλητών (dummy variables- indicator variables) Παράδειγμα: επάγγελμα πατέρα 1: Ανειδίκευτος / 2: Ειδικευμένος / 3: Πανεπιστημιακής μόρφωσης Η μεταβλητή έχει 3 επίπεδα  Δημιουργία 3 ψευδομεταβλητών 1. Ανειδίκευτος (Χ1) Εκτός ύλης, μόνο για την = 1 αν ο πατέρας είναι ανειδίκευτος κατανόηση πώς = 0 άλλο ερμηνεύουμε τα αποτελέσματα για τέτοιου 2. Ειδικευμένος (Χ2) είδους μεταβλητές = 1 αν ο πατέρας είναι ειδικευμένος = 0 άλλο 3. Πανεπιστημιακής μόρφωσης (Χ3) = 1 αν ο πατέρας έχει πανεπιστημιακή μόρφ. = 0 άλλο Πως εισάγουμε ποιοτικές μεταβλητές στο μοντέλο; Στο μοντέλο εισάγονται Κ-1 ψευδομεταβλητές, όπου Κ ο αριθμός των επιπέδων της ποιοτικής μεταβλητής. Αυτή που δεν εισέρχεται: κατηγορία αναφοράς (reference category) Εκτιμώνται τα bi για τη σύγκριση κάθε μίας κατηγορίας προς την κατηγορία αναφοράς, π.χ. ειδικευμένοι σε σχέση με ανειδίκευτους  ο συντελεστής b2 της Χ2 πανεπιστ. μόρφωσης σε σχέση με ανειδίκευτους  ο συντελεστής b3 της Χ3 Εκτός ύλης, μόνο για την κατανόηση πώς ερμηνεύουμε τα αποτελέσματα για τέτοιου είδους μεταβλητές Παράδειγμα Κατηγορία αναφοράς: Ανειδίκευτος Τα παιδιά των ειδικευμένων έχουν κατά μέσο όρο 1,49 cm υψηλότερο ανάστημα από τα παιδιά των ανειδίκευτων Τα παιδιά με πατέρα πανεπ. μόρφωσης έχουν κατά μέσο όρο 2 cm υψηλότερο ανάστημα από τα παιδιά των ανειδίκευτων Παράδειγμα 90 91 92 93 Παράδειγμα PrOH vs. EG: cryoprotectant agents Increasing dose of alkylating agents was identified by multivariate linear regression analysis as an independent predictor of a higher density of atretic follicles, whereas increasing age of the patient predicted a better outcome with less follicle atresia and a higher density of maturing follicles

Use Quizgecko on...
Browser
Browser