Δεν βρίσκω πού είναι η απαξίωση και πού ο αφορισμός. Δεν χρειάζεται να φορτίζουμε την ατμόσφαιρα σε κάθε νήμα με ακραίες λέξεις. Δεν είναι απαξίωση ο ρεαλισμός. Είπα ότι είναι χρήσιμος μπούσουλας αλλά τίποτα παραπάνω. Αυτό δεν είναι απαξιωτικό ούτε αφοριστικό. Θέτω την πρακτική του αξία σε ορθές βάσεις. Αν θέλεις όμως να επεκταθώ στο γιατί πιστεύω αυτό που πιστεύω, ευχαρίστως.
Τα τεστ του OECD, λοιπόν, είναι καταρτισμένα με ένα μοντέλο που κουμπώνει καλά στα εκπαιδευτικά συστήματα συγκεκριμένων χωρών (γι' αυτό και τα πάνε τόσο καλά οι μαθητές τους σ' αυτά τα τεστ). Δεδομένου ότι χρειάζονται αρκετά χρόνια για να δούμε τα πραγματικά θετικά, αρνητικά ή ουδέτερα αποτελέσματα που μπορεί να έχει η αναπροσαρμογή ενός εκπαιδευτικού συστήματος στην βάση των αποτελεσμάτων της ίδιας χώρας στον διαγωνισμό (δηλαδή με σκοπό την βελτίωση), δεν μπορούμε να εκτιμήσουμε την όποια ειδική χρησιμότητά του παρά μόνο κοιτώντας το θεωρητικό και μεθοδολογικό του υπόβαθρο.
Ε, λοιπόν, το μεθοδολογικό υπόβαθρο, όπως είπα, δεν πολυστέκει (κι αυτό το λέω έχοντας στο παρελθόν διαβάσει ολόκληρη την μεθοδολογία, που είναι ούτε λίγο ούτε πολύ καμμιά 500αριά σελίδες -ναι, τόσες είναι). Δεν είναι δυνατόν να γίνουν άμεσες συγκρίσεις διαφορετικών εκπαιδευτικών συστημάτων με ένα κοινό τεστ, γιατί πολύ απλά κάποιο εκπαιδευτικό σύστημα θα είναι a priori καλύτερα προσαρμοσμένο σ' αυτόν τον τύπο τεστ από άλλα. Κι αυτό είναι πιο σημαντικό απ' όσο ακούγεται. Γιατί μπορεί ο OECD να με διαβεβαιώνει ότι είναι σκοπός της μεθόδου ανάπτυξης των τεστ να λαμβάνουν υπόψιν τα διαφορετικά και ιδιαίτερα πολιτισμικά χαρακτηριστικά κάθε χώρας, της γλώσσας της, του βιοτικού της επιπέδου και τα λοιπά, αλλά δεν βλέπω πώς ακριβώς επιτυγχάνεται αυτό σε τόσο διαφορετικά συστήματα εκτός κι αν έχουν βρει την φιλοσοφική λίθο των τεστ. Κάτι σαν το unobtainium της μηχανικής. Και δεν είμαι μόνος μου σ' αυτό. Παρόμοιες αμφιβολίες για το εύρος του δείγματος είχαν και συνεχίζουν να έχουν πολλοί άλλοι, από καθηγητές πανεπιστημίων ως ιδρύματα, ειδικούς της εκπαίδευσης, σοβαρά ΜΜΕ και άλλοι.
Για παράδειγμα, οι Έλληνες μαθητές φαίνεται να τα πήγαν πολύ καλά το 2006 στο πρώτο σκέλος του τεστ αλλά χάλια στο τελευταίο, λόγω πίεσης χρόνου. Πριν προλάβει κανείς να φέρει αντιρρήσεις, μαθητές άλλων χωρών, μαθημένοι να τεστάρονται αλλιώς, δεν αντιμετώπισαν παρόμοια προβλήματα. Άλλες χώρες δίνουν έμφαση σε τεστ μικρότερης διάρκειας σε σχέση με την ύλη, άλλες πάλι δίνουν έμφαση σε διαφορετικό τρόπο συμπλήρωσης των ερωτήσεων, π.χ. προσπερνώντας τις δύσκολες ερωτήσεις.
Ένα άλλο παράδειγμα που κάνει δύσκολη την σύγκριση είναι η γλώσσα. Σε μεγάλο βαθμό, η απόδοση του μαθητή θα εξαρτηθεί από το πόσο καλά θα κατανοήσει την ερώτηση. Μιας και είμαστε σε μεταφραστικό φόρουμ, δεν χρειάζεται να μπω σε λεπτομέρειες για την δυσκολία μετάφρασης των ερωτήσεων· την ποιότητα της οποίας πιστοποιεί ποιος; Ακόμα όμως κι αν η μετάφραση αξίζει βραβείο, ο τρόπος διατύπωσης είναι πολύ σημαντικός παράγοντας στην κατανόηση. Οι γλωσσοκοινωνικές διαφορές συνιστούν υπολογίσιμο εμπόδιο, εδώ. Μια διατύπωση που δεν ταιριάζει σωστά στην γλωσσική κουλτούρα της κάθε χώρας θα δημιουργήσει προβλήματα κατανοησιμότητας. Κοινώς, αν ο μαθητής έχει συνηθίσει σε άλλου είδους διατυπώσεις θα έχει χαμηλότερη απόδοση. Αυτού του είδους το πρόβλημα το παραδέχεται και ο ίδιος ο ΟΟΣΑ.
Επιπροσθέτως, υπάρχουν άλλοι δυο σημαντικότατοι παράγοντες μεθοδολογικής αστάθειας. Ο ένας έχει να κάνει με το πόσο ενδιαφέρει την χώρα η απόδοση σε ένα τεστ τέτοιου τύπου (για την ιστορία, η Φινλανδία το 2006 είχε response rate 100%). Η αύξηση της απόδοσης σε ένα οποιοδήποτε τεστ εξαρτάται -πέραν των άλλων παραγόντων- από το πόσο προσπαθείς να μπεις στην λογική του. Αυτό συνήθως σημαίνει ότι γίνεσαι με τον καιρό καλύτερος σ' αυτό το τεστ αλλά όχι καλύτερος γενικά. Το ότι τα πήγα φέτος καλύτερα σε ένα ίδιου τύπου τεστ απ' ό,τι πέρσι, σημαίνει πολύ περισσότερο ότι προσαρμόστηκα καλύτερα σ' αυτόν τον τύπο τεστ παρά ότι βελτιώθηκαν οι δεξιότητές μου. Μάλιστα όταν μιλάμε για τεστ που ζητείται η σωστή απάντηση, πιο πιθανό είναι να μειωθούν οι δημιουργικές τάσεις του ατόμου παρά να αυξηθούν.
Ο άλλος παράγοντας έχει να κάνει με την ανομοιότητα των δειγμάτων (μεταξύ χωρών). Σε χώρες που οι ταξικές διαφορές είναι μικρότερες, το δείγμα, όσο καλά κι αν είναι επιλεγμένο, θα παρουσιάζει μεγάλο βαθμό ομοιογένειας, με αποτέλεσμα ο μέσος όρος (που λαμβάνεται υπόψιν για την κατάταξη της χώρας) να έχει μικρή απόκλιση από το ελάχιστο και το μέγιστο, σε αντίθεση με τις χώρες όπου οι ταξικές διαφορές είναι μεγάλες.
Υπάρχει κι ένα τελευταίο που αφορά την ομοιότητα του τεστ. Δεν ξέρω τι έγινε στα τεστ μετά το 2006, πάντως εκείνην την χρονιά οι ερωτήσεις που έπαιξαν δεν ήταν ίδιες για όλες τις χώρες, πράγμα που διαστρεβλώνει το αποτέλεσμα. Σε κάποιες χώρες κάποιες ερωτήσεις δεν συμπεριλήφθηκαν καν ενώ σε άλλες χώρες διαγράφηκαν ερωτήσεις μετά το τεστ, για λόγους καλύτερης συγκρισιμότητας των αποτελεσμάτων. Αυτό όμως οδηγεί σε ακόμα μεγαλύτερο μπέρδεμα για την συγκριτική απόδοση. Εξάλλου δεν καταλαβαίνω τον λόγο που έγινε κάτι τέτοιο αφού η μεθοδολογία των τεστ τους βασίζεται σε IRT (Item Response Theory). Για να ολοκληρωθεί η βαθμολογία, η μέθοδος που χρησιμοποιήθηκε ήταν η εξομοίωση -ναι, εξομοίωση- βαθμολογιών στις ερωτήσεις που παραλήφθηκαν. Στην ουσία χρησιμοποίησαν ένα μοντέλο στατιστικής διαβάθμισης που λέγεται Rasch, το οποίο δίνει "plausible values" για ένα σετ πραγματικών τιμών (σκορ μαθητών). Όμως μια τέτοια μέθοδος δεν μπορεί να συνδυάζεται με ερωτήσεις κυμαινόμενης δυσκολίας μεταξύ χωρών, σαν αυτές του PISA (δηλαδή οι ίδιες ερωτήσεις να παρουσιάζουν διαφορετικό βαθμό δυσκολίας ανάμεσα σε δυο χώρες).
Τέλος -αλήθεια, τέλος- το συγκεκριμένο τεστ του ΟΟΣΑ είναι συγκριτικό. Δηλαδή δεν είναι αληθινές βαθμολογίες αυτές που βγάζει το μοντέλο αλλά συγκριτικές, πράγμα που ισοπεδώνει τελείως τις διαφορές που δεν αποτυπώνονται λόγω ψαλιδίσματος = 2 σωστές απαντήσεις σκοράρουν το ίδιο, ενώ πρακτικά δυο σωστές απαντήσεις δείχνουν στην καλύτερη περίπτωση ότι τα δύο άτομα είναι ίσα ως προς την απάντηση και όχι το ένα ως προς το άλλο. Για να το πω πιο απλά, όταν δυο άτομα απαντήσουν σωστά ότι 4+5=9 δεν σημαίνει ότι έχουν ίσες μαθηματικές ικανότητες αλλά ίσες μαθηματικές ικανότητες ως προς αυτήν την ερώτηση. Στην πράξη ο ένας μπορεί να έχει πολύ μεγαλύτερες μαθηματικές ικανότητες που το ταβάνι της τυποποιημένης απάντησης (ή του περιορισμένου εύρους απαντήσεων) ψαλιδίζει. Αν ο ένας απ' τους δυο μπορεί να αποδείξει φορμαλιστικά την πράξη, θα πάρει πάλι ίδιους πόντους με αυτόν που απλώς έχει γράψει "=9".
Επαναλαμβάνω, γιατί μπορεί να το έχει ξεχάσει ο αναγνώστης μέχρι να φτάσει ως εδώ, ότι βρίσκω "χρήσιμο μπούσουλα" το τεστ του ΟΟΣΑ. Αλλά μέχρι εκεί. Το βλέπω όπως βλέπω τα τεστ IQ.