Στατιστικά Λάθη

Στατιστικά λάθη

Οι επιστήμονες του The Sciencing Team μπορούν να ελέγξουν την στατιστική εγκυρότητα της ερευνά σας και έχουν την εμπειρία να σας κατευθύνουν στην ολοκλήρωση της. Δείτε εδώ τις υπηρεσίες μας.

Οι τιμές σημαντικότητας  (P values), ο ‘χρυσός κανόνας’ της στατιστικής εγκυρότητας, δεν είναι τόσο αξιόπιστες όσο πολλοί επιστήμονες θεωρούν.

ΑΠΟ ΤΗΝ REGINA NUZZO

Για μία σύντομη στιγμή το 2010, ο Matt Motyl βρέθηκε στα πρόθυρα της επιστημονικής δόξας: είχε ανακαλύψει  ότι οι εξτρεμιστές βλέπουν κυριολεκτικά τον κόσμο άσπρο-μαύρο.

Τα αποτελέσματα ήταν ξεκάθαρα, λέει ο Motyl, διδακτορικός φοιτητής Ψυχολογίας του Πανεπιστημίου της Βιρτζίνια στο Σάρλοτσβιλ. Τα δεδομένα από μία έρευνα σχεδόν 2000 ατόμων φαίνεται να έδειξαν ότι οι πολιτικά μετριοπαθείς έβλεπαν τις αποχρώσεις του γκρι με περισσότερη ακρίβεια απ’ότι είτε οι αριστεροί είτε οι δεξιοί εξτρεμιστές. “Η πρόταση ήταν ελκυστική”, λέει, και “τα δεδομένα παρείχαν πλήρη στήριξη”. Η τιμή σημαντικότητας (τιμή P), ένας κοινός δείκτης της ισχύς των στατιστικών ενδείξεων, ήταν 0.01 – κάτι που ερμηνεύεται ως “πολύ σημαντικό”. Η δημοσίευση του σε κάποιο περιοδικό υψηλού αντικτύπου φαινόταν να είναι εφικτή για τον Motyl.

Αλλά μετά η πραγματικότητα παρενέβει. Ευαισθητοποιημένος  όσον αφορά τις αντιπαραθέσεις σχετικά με την αναπαραγωγιμότητα, ο Motyl και ο σύμβουλος του, Brian Nosek, αποφάσισαν να επαναλάβουν την έρευνα. Αξιοποιώντας επιπλέον στοιχεία, η τιμή P εμφανίστηκε ως 0.59 – που δεν πλησιάζει καν το συμβατικό επίπεδο σημαντικότητας, το 0.05. Η επίδραση είχε εξαφανιστεί, και μαζί της και τα όνειρα του Motyl για νεανική δόξα (1).

Όπως αποδείχθηκε, το πρόβλημα δεν προήλθε από τα δεδομένα ή από την ανάλυση του Motyl. Το αίτιο ήταν η εντυπωσιακά ασταθής φύση της τιμής P, η οποία δεν είναι ούτε όσο αξιόπιστη ούτε όσο αντικειμενική όσο πολλοί επιστήμονες πιστεύουν. “Οι τιμές σημαντικότητας δεν κάνουν τη δουλειά τους γιατί δεν μπορούν”, λέει ο Stephen Ziliak, οικονομολόγος του Πανεπιστημίου Ρούσβελτ στο Σικάγο του Ιλλινόι, και συχνός επικριτής του τρόπου που χρησιμοποιούνται οι στατιστικές.

Για πολλούς επιστήμονες αυτό είναι ιδιαίτερα ανησυχητικό, εν μέσω και των προβληματισμών αναφορικά με την αναπαραγωγιμότητα. Το 2005, ο επιδημιολόγος John Ioannidis του Πανεπιστημίου Στάνφορντ της Καλιφόρνια ανέφερε ότι τα περισσότερα δημοσιευμένα ευρήματα είναι λάθος (2)· από τότε, μία σειρά από υψηλού επιπέδου προβλήματα επαναλήψεων έχει αναγκάσει τους επιστήμονες να αναθεωρήσουν τον τρόπο που αξιολογούν τα αποτελέσματα.

Την ίδια ώρα, οι στατιστικολόγοι ψάχνουν να βρουν καλύτερους τρόπους να διαβάζουν τα δεδομένα έτσι ώστε να βοηθήσουν τους επιστήμονες να μην χάνουν σημαντικές πληροφορίες  ή να μην παρασύρονται από πιθανά σφάλματα. “Άλλαξε την στατιστική σου φιλοσοφία και ξαφνικά θα δεις διαφορετικά πράγματα να γίνονται σημαντικά” λέει ο Steven Goodman, γιατρός και στατιστικολόγος στο Στάνφορντ. “Τότε οι ‘κανόνες’ που μας έδωσε ο Θεός δεν προέρχονται πλέον από τον Θεό. Δίνονται σε εμάς από εμάς τους ίδιους μέσω της μεθοδολογίας που υιοθετούμε”.

Εκτός πλαισίου

Οι τιμές σημαντικότητας είχαν πάντα επικριτές. Στις εννέα σχεδόν δεκαετίες ύπαρξης τους έχουν συγκριθεί με τα κουνούπια (εκνευριστικές και αδύνατον να απομακρυνθούν), με τα καινούρια ρούχα του αυτοκράτορα (γεμάτες με εμφανή προβλήματα που όλοι αγνοούν) και με το εργαλείο της ‘αποστειρωμένης διανοούμενης τσουγκράνας’ που ατιμάζει την επιστήμη αλλά την αφήνει χωρίς τέκνα (3). Ένας ερευνητής πρότεινε να μετονομαστεί  η μεθοδολογία σε ‘έλεγχος στατιστικών υποθέσεων και συμπερασματολογίας’ (Statistical Hypothesis Inference Testing), πιθανότατα για το ακρωνύμιο που θα αποκτούσε. 

Η ειρωνεία είναι ότι όταν τη δεκαετία του 1920 ο Βρετανός στατιστικολόγος Ronald Fischer εισήγαγε την τιμή της σημαντικότητας δεν στόχευε αυτή να είναι απόλυτα καθοριστική.  Αποσκοπούσε απλά στο να χρησιμοποιείται ως ένας άτυπος τρόπος για να κρίνει κανείς αν οι ενδείξεις ήταν σημαντικές, με την παραδοσιακή έννοια: αν δηλαδή θα δικαιολογούσαν μία δεύτερη ματιά. Η ιδέα ήταν να κάνεις ένα πείραμα και μετά να δεις αν τα αποτελέσματα ήταν σύμφωνα με αυτό που μία τυχαία πιθανότητα θα έβγαζε. Οι ερευνητές θα έφτιαχναν πρώτα μία ‘μηδενική υπόθεση’ την οποία θα ήθελαν να διαψεύσουν, όπως για παράδειγμα να μην υπάρχει καμία συσχέτιση ή καμία διαφορά μεταξύ δύο γκρουπ. Μετά θα έπαιζαν τον δικηγόρο του διαβόλου και, υποθέτοντας ότι αυτή η μηδενική υπόθεση ήταν όντως αληθινή, θα υπολόγιζαν τις πιθανότητες να βγάλουν αποτελέσματα τουλάχιστον όσο ακραία όσο ήταν και αυτά που είχαν παρατηρηθεί . Αυτή η πιθανότητα ήταν η τιμή P. Όσο μικρότερη ήταν, σύμφωνα με τον Fischer, τόσο μεγαλύτερη ήταν και η πιθανότητα η ψεύτικη μηδενική υπόθεση να ήταν λάθος.

Παρά την προφανή ακρίβεια της τιμής σημαντικότητας, ο Fischer ευελπιστούσε αυτή να αποτελεί ένα μόνο μέρος μίας ρευστής, μη αριθμητικής διαδικασίας που θα συνδύαζε δεδομένα και πρωτύτερη γνώση για να οδηγήσει σε επιστημονικά συμπεράσματα. Σύντομα όμως μπλέχτηκε μέσα σε ένα κίνημα που επιζητούσε η στοιχειοθετημένη λήψη αποφάσεων να είναι όσο πιο ενδελεχή και αντικειμενική γινόταν. Επικεφαλής αυτού του κινήματος στα τέλη της δεκαετίας του 1920 ήταν οι ζηλόφθονες αντίπαλοι του Fischer, ο Πολωνός μαθηματικός Jerzy Neyman και ο Βρετανός στατιστικολόγος Egon Pearson, οι οποίοι παρουσίασαν ένα εναλλακτικό πλαίσιο ανάλυσης δεδομένων που συμπεριλάμβανε τη στατιστική ισχύ, τα θετικά σφάλματα, τα αρνητικά σφάλματα και πολλές άλλες έννοιες που γνωρίζουμε από τις εισαγωγικές τάξεις της Στατιστικής. Άφησαν την τιμή σημαντικότητας επιδεικτικά απ’ έξω.

Αλλά καθώς οι αντίπαλοι μάχονταν – ο Neyman αποκάλεσε μέρος της δουλειάς του Fischer μαθηματικά “χειρότερη από άχρηστη”· ο Fischer αποκάλεσε την προσέγγιση του Neyman “παιδιάστικη” και “τρομακτική για την πνευματική ελευθερία στη Δύση” – άλλοι ερευνητές έχασαν την υπομονή τους και ξεκίνησαν να γράφουν εγχειρίδια Στατιστικής για επιστήμονες που ασχολούνται με την εφαρμοσμένη έρευνα. Και επειδή πολλοί από τους συγγραφείς δεν ήταν στατιστικολόγοι και δεν μπορούσαν να κατανοήσουν πλήρως καμία από τις δύο προσεγγίσεις, δημιούργησαν ένα υβριδικό σύστημα που στρίμωχνε την εύκολη στον υπολογισμό τιμή σημαντικότητας του Fischer με το καθησυχαστικά σχολαστικό, βασισμένο σε κανόνες, σύστημα των Neyman και Pearson. Τότε είναι που η τιμή P του 0.05 κατοχυρώθηκε ως ‘στατιστικά σημαντική’, για παράδειγμα. “Η τιμή σημαντικότητας ποτέ δεν προοριζόταν να χρησιμοποιηθεί με τον τρόπο που χρησιμοποιείται σήμερα”, λέει ο Goodman.

Τι σημαίνουν όλα αυτά;

Μία από τις συνέπειες όλου αυτού είναι η έντονη σύγχυση όσον αφορά το τι σημαίνει η τιμή P (4). Θυμηθείτε την μελέτη του Motyl σχετικά με τους πολιτικούς εξτρεμιστές. Οι περισσότεροι επιστήμονες θα κοίταγαν την αρχική τιμή σημαντικότητας του 0.01 και θα έλεγαν ότι οι πιθανότητες σφάλματος είναι μόλις 1%. Θα έκαναν όμως λάθος. Η τιμή σημαντικότητας δεν μπορεί να το πει αυτό: το μόνο που μπορεί να κάνει είναι να συνοψίσει τα δεδομένα υιοθετώντας μία συγκεκριμένη αρνητική υπόθεση. Δεν μπορεί να λειτουργήσει ανάποδα και να διατυπώσει προτάσεις για την υποκείμενη πραγματικότητα. Αυτό απαιτεί μία άλλη μορφή πληροφορίας: τις πιθανότητες μία πραγματική επίδραση να υπήρχε εκεί εξαρχής. Το να το αγνοήσεις αυτό είναι σαν να ξυπνάς με πονοκέφαλο και να συμπεραίνεις ότι πάσχεις από μία σπάνια μορφή καρκίνου του εγκεφάλου – πιθανό μεν, αλλά τόσο αμφίβολο που να χρειάζεται πολλές περισσότερες αποδείξεις για να αντικαταστήσει μία άλλη, πιο καθημερινή εξήγηση, όπως είναι για παράδειγμα μία αλλεργική αντίδραση. Όσο πιο απίθανη είναι η υπόθεση – τηλεπάθεια, εξωγήινοι, ομοιοπαθητική – τόσο μεγαλύτερη είναι η πιθανότητα ένα συναρπαστικό εύρημα να είναι λανθασμένο, ανεξάρτητα από την τιμή σημαντικότητας. Αυτές είναι δύσκολες έννοιες, αλλά κάποιοι στατιστικολόγοι έχουν προσπαθήσει να εισαγάγουν μετατροπές βασισμένες σε γενικούς εμπειρικούς κανόνες (βλ. ‘πιθανή αιτία’).  Σύμφωνα με ένα αρκετά διαδεδομένο υπολογισμό (5), μία τιμή σημαντικότητας του 0.01 αντιστοιχεί σε μία πιθανότητα σφάλματος του 11% τουλάχιστον, το οποίο εξαρτάται και από την υποκείμενη πιθανότητα να υπάρχει μία πραγματική επίδραση· μία τιμή σημαντικότητας του 0.05 ανεβάζει αυτή την πιθανότητα στο 29%. Οπότε τα ευρύματα του Motyl είχαν πιθανότητες μεγαλύτερες από μία στις δέκα να είναι εσφαλμένα. Αντιστοίχως, η πιθανότητα επανάληψης του αρχικού αποτελέσματος δεν ήταν στο 99%, όπως οι περισσότεροι θα υπέθεταν, αλλά περισσότερο κοντά στο 73% – ή μόλις 50% αν ήθελε να βγάλει ένα ακόμη ‘πολύ σημαντικό’ αποτέλεσμα (6,7). Με άλλα λόγια, η αδυναμία του να επαναλάβει το αποτέλεσμα ήταν τόσο απροσδόκητη όσο θα ήταν αν είχε επιλέξει την κορώνα ενός νομίσματος και στρίβοντας το έβγαιναν γράμματα.

Οι επικριτές των τιμών P διαμαρτύρονται επίσης για τον τρόπο που μπορούν οι τιμές σημαντικότητας να ενθαρρύνουν την ασαφή σκέψη. Ένα βασικό παράδειγμα είναι η τάση τους να εκτρέπουν την προσοχή από το πραγματικό μέγεθος μιας επίδρασης. Πέρσι, για παράδειγμα, μία μελέτη περισσότερων από 19000 ατόμων έδειξε (8) ότι αυτοί που γνωρίζουν τους συζύγους τους διαδικτυακά έχουν λιγότερες πιθανότητες να χωρίσουν (p < 0.002) και περισσότερες πιθανότητες να έχουν μία πολύ ευτυχισμένη συζυγική ζωή (p < 0.001), σε σύγκριση με αυτούς που γνωρίζονται εκτός διαδικτύου (δες Nature http://doi.org/rcg; 2013). Αυτό μπορεί να είχε ακουστεί εντυπωσιακό, όμως οι επιδράσεις ήταν στην ουσία ελάχιστες: οι διαδικτυακές γνωριμίες έριχναν τον δείκτη των διαζυγίων από το 7.67% στο 5.96% και ίσα που ακούμπαγαν τον δείκτη της ευτυχίας ανεβάζοντας τον από το 5.48 στο 5.64 σε μία κλίμακα 7 βαθμίδων. Το να στηρίζεσαι σε αμελητέες τιμές P και να αγνοείς το μεγαλύτερο ερώτημα είναι σαν να πέφτεις στην παγίδα της ‘ελκυστικής βεβαιότητας της σημαντικότητας’, λέει ο Geoff Cummimg, επίτιμος ψυχολόγος του πανεπιστημίου Λα Τρομπ στην Μελβούρνη της Αυστραλίας. Αλλά η σημαντικότητα δεν είναι δείκτης πρακτικής σημασίας, τονίζει: “Θα έπρεπε να ρωτάμε ‘Πόση επίδραση υπάρχει;’, όχι αν ‘Υπάρχει επίδραση;’”.

P-hacking

Η χειρότερη πλάνη είναι πιθανότατα το είδος της αυταπάτης για την οποία ο ψυχολόγος Uri Simonsohn του πανεπιστημίου της Πενσυλβάνια και οι συνάδελφοι του έχουν κάνει δημοφιλές τον όρο P-hacking,επίσης γνωστός και ως data-dredging, snooping, fishing, significance-chasing και double-dipping. “P-hacking”, λέει ο Simonsohn, σημαίνει “ να δοκιμάζεις πολλά πράγματα μέχρι να καταλήξεις στο επιθυμητό αποτέλεσμα” – ακόμη και ασυνείδητα. Αυτός πιθανόν να είναι και ο πρώτος στατιστικός όρος που να ανέβηκε σαν ορισμός στο διαδυκτιακό Urban Dictionary, με παραδείγματα που λένε πολλά: “Αυτά τα εύρηματα αποκτήθηκαν μέσω του P-hacking, οι συγγραφείς απέρριψαν μία από τις προϋποθέσεις έτσι ώστε η συνολική τιμή του P να είναι κάτω από το.05” και “Αυτή είναι P-hacker, πάντα παρακολουθεί τα δεδομένα καθώς συλλέγονται”.

Αυτές οι πρακτικές έχουν ως αποτέλεσμα οι ανακαλύψεις να μετατρέπονται από ερευνητικές μελέτες – οι οποίες θα έπρεπε να αντιμετωπίζονται με σκεπτικισμό – σε φαινομενικά ισχυρές επιβεβαιώσεις που όμως διαλύονται κατά την επανάληψη. Οι προσομοιώσεις του Simonsohn έχουν δείξει (9) ότι οι αλλαγές ορισμένων αποφάσεων κατά την ανάλυση των δεδομένων μπορούν να αυξήσουν τον δείκτη των θετικών σφαλμάτων κατά 60%. Το P-hacking είναι ιδιαιτέρως πιθανό, λέει, στο σημερινό κλίμα το οποίο βρίθει από μελέτες που ψάχνουν μικρές επιδράσεις κρυμμένες σε θορυβώδη δεδομένα. Είναι δύσκολο να εντοπίσουμε πόσο διαδεδομένο είναι το πρόβλημα αυτό, ο Simonsohn όμως πιστεύει ότι είναι αρκετά σοβαρό. Κατά τη διάρκεια μίας ανάλυσης (10) βρήκε αποδείξεις ότι πολλές δημοσιευμένες εργασίες πάνω στην Ψυχολογία παρουσίαζαν τιμές P που περιφέρονταν ύποπτα γύρω από το 0.05, όπως και θα περίμενε κανείς αν οι ερευνητές ‘ψάρευαν’ για σημαντικές τιμές P μέχρι να καταφέρουν να βρουν μία.

ΤΟ ΠΑΙΧΝΙΔΙ ΤΩΝ ΑΡΙΘΜΩΝ

Παρά τις κριτικές, οι μεταρρυθμίσεις προχωρούν αργά. “Το βασικό πλαίσιο έχει μείνει φαινομενικά απαράλλαχτο από την εποχή που ο Fischer, ο Neyman και ο Pearson το παρουσίασαν” λέει ο Goodman. Ο John Campbell, σήμερα ψυχολόγος στο πανεπιστήμιο της Μινεσότα στην Μινεάπολη, εξέφρασε τις αντιρρήσεις του το 1982, όταν ήταν υπεύθυνος ύλης στο Journal of Applied Psychology: “Είναι σχεδόν αδύνατον να τραβήξεις τους συγγραφείς μακριά από τις τιμές σημαντικότητας τους, και όσα περισσότερα μηδενικά υπάρχουν μετά την υποδιαστολή τόσο περισσότερο προσκολλούν οι άνθρωποι σε αυτές” (11). Το 1989, όταν ο Kenneth Rothman του πανεπιστημίου της Βοστώνης στην Μασαχουσέτη ξεκίνησε το έντυπο Epidemiology, έκανε ό,τι περνούσε από το χέρι του για να αποθαρρύνει τη χρήση της τιμής P στις σελίδες του. Όμως άφησε το έντυπο το 2001, και έκτοτε οι τιμές P επανήλθαν.

Ο Ioannidis αυτή την περίοδο κάνει εξόρυξη δεδομένων από την βάση PubMed προσπαθώντας να πάρει μία ιδέα του τρόπου με τον οποίο συγγραφείς από πολλούς διαφορετικούς τομείς χρησιμοποιούν τις τιμές P και άλλα στατιστικά στοιχεία. “Μία γρήγορη ματιά σε ένα δείγμα προσφάτως  δημοσιευμένων μελετών”, λέει, “αποδεικνύει ότι οι τιμές P εξακολουθούν να είναι πολύ, πολύ δημοφιλείς”.

Οποιαδήποτε μεταρρύθμιση θα πρέπει να εισχωρήσει σε μία βαθιά εδραιωμένη κουλτούρα. Θα πρέπει να αλλάξει τον τρόπο που διδάσκεται η Στατιστική. Αλλά τουλάχιστον οι ερευνητές παραδέχονται ότι υπάρχει πρόβλημα, λέει ο Goodman. “Το καμπανάκι είναι ότι τόσα πολλά από τα δημοσιευμένα ευρήματα μας δεν είναι αληθινά”. Η δουλειά ερευνητών όπως είναι ο Ioannidis δείχνουν τη σχέση μεταξύ των θεωρητικών στατιστικών αντιρρήσεων και των πραγματικών δυσκολιών, τονίζει ο Goodman. “Τα προβλήματα που οι στατιστικολόγοι είχαν προβλέψει είναι αυτά ακριβώς που βλέπουμε τώρα. Απλά δεν έχουμε ακόμα όλες τις λύσεις”.

Οι στατιστικολόγοι έχουν προτείνει μία σειρά από μέτρα που θα μπορούσαν να βοηθήσουν. Για να αποφύγουν την παγίδα του να βλέπουν τα αποτελέσματα ως σημαντικά ή μη σημαντικά, για παράδειγμα, ο Cumming πιστεύει ότι οι ερευνητές θα πρέπει πάντα να αναφέρουν τα μεγέθη των επιδράσεων και τα διαστήματα εμπιστοσύνης. Αυτά φανερώνουν αυτό που μία τιμή P δεν μπορεί: τη σημασία και τη σχετική σημαντικότητα της επίδρασης.

Πολλοί στατιστικολόγοι υποστηρίζουν επίσης την αντικατάσταση της τιμής P με μεθόδους που κάνουν χρήση του κανόνα του Bayes: ένα θεώρημα του 18ου αιώνα το οποίο περιγράφει το πως να εκλαμβάνει κανείς την πιθανότητα ως αληθοφάνεια ενός αποτελέσματος, αντί για την ενδεχόμενη συχνότητα αυτού του αποτελέσματος. Αυτό προϋποθέτει μία κάποια υποκειμενικότητα – κάτι το οποίο οι πρωτοπόροι της Στατιστικής προσπαθούσαν να αποφύγουν. Όμως το πλαίσιο του Bayes κάνει σχετικά εύκολο για τους παρατηρητές το να μπορούν να ενσωματώνουν αυτά που γνωρίζουν για τον κόσμο στα πορίσματα τους, και να υπολογίζουν το πως οι πιθανότητες αλλάζουν όταν εμφανίζονται νέα στοιχεία.

Άλλοι υποστηρίζουν μία πιο οικουμενική προσέγγιση, παροτρύνοντας τους ερευνητές να δοκιμάζουν διαφορετικές μεθόδους στην ίδια ομάδα δεδομένων. Ο Stephen Senn, στατιστικολόγος στο Κέντρο Ερευνών Δημοσίας Υγείας της πόλης του Λουξεμβούργου, το παρομοιάζει αυτό με το να χρησιμοποιείς ένα ρομπότ καθαρισμού πατωμάτων το οποίο δεν μπορεί να βρει τρόπο να φύγει από μία γωνία· κάθε μέθοδος ανάλυσης δεδομένων θα χτυπήσει κάποια στιγμή στον τοίχο, και θα χρειαστεί η χρήση κοινής λογικής για να ξεκολλήσει η διαδικασία. Αν οι διάφορες μέθοδοι επιφέρουν διαφορετικές απαντήσεις, λέει , “αυτό είναι μία ένδειξη ότι πρέπει να γίνουμε πιο δημιουργικοί και να βρούμε τις αιτίες”, κάτι που θα μας οδηγούσε σε μία καλύτερη κατανόηση της υποκείμενης πραγματικότητας.

Ο Simonsohn υποστηρίζει ότι μία από τις δυνατότερες προφυλάξεις για τους επιστήμονες είναι να παραδέχονται τα πάντα. Παροτρύνει τους συγγραφείς να μαρκάρουν τα γραπτά τους ως ‘P-certified, not P-hacked’, προσθέτοντας το εξής: “Αναφέρουμε τον τρόπο με τον οποίο καθορίσαμε το μέγεθος του δείγματος μας, όλες τις εξαιρέσεις δεδομένων (αν υπάρχουν), όλες τις παραποιήσεις και όλα τα μέτρα της μελέτης”. Αυτή η κοινοποίηση, ελπίζει, θα αποθαρρύνει την χρήση του P-hacking, ή τουλάχιστον θα προειδοποιεί τους αναγνώστες για τυχόν παρατυπίες και θα τους αφήνει να κρίνουν αναλόγως.

Μία παρόμοια ιδέα που έχει τραβήξει την προσοχή τελευταία είναι η διεπίπεδη ανάλυση, ή αλλιώς ‘προ-καταγεγραμμένη επανάληψη’ λέει ο πολιτικός επιστήμονας και στατιστικολόγος Andrew Gelman του πανεπιστημίου Κολούμπια της Νέας Υόρκης. Σύμφωνα με αυτή τη μέθοδο, οι διερευνητικές και οι επιβεβαιωτικές αναλύσεις προσεγγίζονται διαφορετικά και διαχωρίζονται με σαφήνεια. Αντί να κάνουν τέσσερις διαφορετικές μικρές μελέτες και να ανακοινώνουν τα αποτελέσματα σε μία εργασία, για παράδειγμα, οι ερευνητές θα μπορούσαν να κάνουν πρώτα δύο μικρές διερευνητικές μελέτες, συγκεντρώνοντας πιθανά ενδιαφέροντα ευρήματα χωρίς να ανησυχούν πολύ για τυχόν σφάλματα. Έπειτα, βασιζόμενοι σε αυτά τα αποτελέσματα, οι συγγραφείς θα αποφάσιζαν με ποιον τρόπο ακριβώς θα επιβεβαίωναν αυτά τα ευρήματα και θα έκαναν προ-εγγραφή των προθέσεων τους σε μία βάση δεδομένων όπως είναι το Open Science Framework (https://osf.io). Μετά θα διενεργούσαν τις επαναληπτικές μελέτες και θα δημοσίευαν τα αποτελέσματα δίπλα από αυτά των διερευνητικών μελετών. Αυτή η προσέγγιση επιτρέπει την ελευθερία και την προσαρμοστικότητα στις αναλύσεις, λέει ο Gelman, ενώ προϋποθέτει αρκετά επιμελή εργασία που θα βοηθήσει στη μείωση του αριθμού των σφαλμάτων που δημοσιεύονται.  

Γενικότερα, οι ερευνητές θα πρέπει να κατανοήσουν τα όρια της συμβατικής Στατιστικής, λέει ο Goodman. Θα πρέπει να ενισχύσουν τις αναλύσεις τους με στοιχεία επιστημονικής κρίσης αναφορικά με την αληθοφάνεια μίας πρότασης  και τους περιορισμούς της μελέτης, πράγματα που συνήθως αφήνονται για το τμήμα/κεφάλαιο της συζήτησης: αποτελέσματα παρόμοιων ή ίδιων πειραμάτων, προτεινόμενοι μηχανισμοί, κλινική γνώση, κτλ.. Ο στατιστικολόγος Richard Royall της Σχολής Δημόσιας Υγείας Μπλούμπεργκ του Τζον Χόπκινς στην Βαλτιμόρη του Μέριλαντ λέει ότι υπάρχουν τρεις ερωτήσεις που θα πρέπει να κάνει ένας επιστήμονας μετά από μία μελέτη: ‘ Ποια είναι τα στοιχεία;’ ‘Τι θα πρέπει να πιστέψω;’ και ‘Τι θα πρέπει να κάνω;’. Μία μέθοδος δεν μπορεί να δώσει απαντήσεις για όλα αυτά τα ερωτήματα, λέει ο Goodman: “Οι αριθμοί θα έπρεπε να είναι αυτό με το οποίο ξεκινά μία επιστημονική συζήτηση, όχι αυτό με το οποίο τελειώνει”.

Η Regina Nuzzo είναι ανεξάρτητη συγγραφέας και αναπληρώτρια καθηγήτρια Στατιστικής του Πανεπιστημίου Γκάλοντετ στην στην Ουάσινγκτον, Π.Κ..

  1. Nosek, B. A., Spies, J. R. & Motyl, M. Perspect. Psychol. Sci. 7, 615–631 (2012).
  2. Ioannidis, J. P. A. PLoS Med. 2, e124 (2005).
  3. Lambdin, C. Theory Psychol. 22, 67–90 (2012).
  4. Goodman, S. N. Ann. Internal Med. 130, 995–1004 (1999).
  5. Goodman, S. N. Epidemiology 12, 295–297 (2001).
  6. Goodman, S. N. Stat. Med. 11, 875–879 (1992).
  7. Gorroochurn, P., Hodge, S. E., Heiman, G. A., Durner, M. & Greenberg, D. A. Genet. Med. 9, 325–321 (2007).
  8. Cacioppo, J. T., Cacioppo, S., Gonzagab, G. C., Ogburn, E. L. & VanderWeele, T. J. Proc. Natl Acad. Sci. USA 110, 10135–10140 (2013).
  9. Simmons, J. P., Nelson, L. D. & Simonsohn, U. Psychol. Sci. 22, 1359–1366 (2011).
  10. Simonsohn, U., Nelson, L. D. & Simmons, J. P. J. Exp. Psychol. http://dx.doi.org/10.1037/a0033242 (2013).
  11. Campbell, J. P. J. Appl. Psych. 67, 691–700 (1982).

Για την πηγή: https://go.nature.com/2qPdLIT

Leave A Reply