Thesaurus Linguae Graecae: Συνέντευξη της Μαρίας Παντελιά στη City Press

nickel

Administrator
Staff member
Η συνέντευξη της Μαρίας Παντελιά στην Αγάθα Ζαρακοβίτου δημοσιεύτηκε στην εφημερίδα City Press της Πέμπτης 2 Ιουλίου (σελ. 20). Ευχαριστώ τον tsioutsiou για την επισήμανση και την Αλεξάνδρα για τη δακτυλογράφηση.

Η Αθηναία που κρατά το κλειδί του θησαυρού
Συνέντευξη στην Αγάθα Ζαρακοβίτου

Φύλακας μιας ανεπανάληπτης «κιβωτού» της Ελληνικής Γραμματείας, που πλέον «διαχέεται» σε όλο το Διαδίκτυο, η κυρία Μαρία Παντελιά δραστηριοποιείται κυριολεκτικά στην άλλη άκρη του πλανήτη.
Πρόκειται για μια βέρα Αθηναία, που μεγάλωσε στην οδό 3ης Σεπτεμβρίου και αποφοίτησε από το Αρσάκειο. Όμως, εδώ και 27 χρόνια ζει στην Καλιφόρνια, όπου εργάζεται ως Καθηγήτρια Κλασικών Σπουδών στο Πανεπιστήμιο της πόλης Irvine. Από το 1996, διευθύνει το πρόγραμμα Thesaurus Linguae Graecae (TLG), του «Θησαυρού της Ελληνικής Γλώσσας», που επιτρέπει με τη βοήθεια της πληροφορικής τον εντοπισμό οποιασδήποτε εμφάνισης κάθε λέξης της ελληνικής γλώσσας μέσα στα συμφραζόμενα. Η κ. Παντελιά μίλησε αποκλειστικά στο ΑΘΗΝΑ984FreePress, με την ευκαιρία της συμμετοχής της στο 2ο Συνέδριο του Δήμου Αθηναίων, «Η Ελλάδα στον κόσμο, Βυζαντινές Σπουδές», το οποίο συγκέντρωσε επιστήμονες από όλο τον κόσμο.


— Τι ακριβώς είναι το TLG;
— Είναι ένα πρόγραμμα ψηφιοποίησης όλων των ελληνικών κειμένων που έχουν διασωθεί από την αρχαιότητα μέχρι σήμερα. Ξεκίνησε το 1972, σε μία εποχή που οι φιλόλογοι δεν ήξεραν καν τη χρήση της ηλεκτρικής γραφομηχανής. Η Marianne McDonald, φοιτήτρια τότε στο Πανεπιστήμιο της Καλιφόρνιας, διέθεσε για τον σκοπόν αυτόν ένα εκατομμύριο δολάρια, ποσό αστρονομικό για εκείνη την εποχή, και έτσι δημιουργήθηκε το Ινστιτούτο και άρχισε το συγκεκριμένο πρόγραμμα. Σήμερα, έχουμε ψηφιοποιήσει όλα τα κείμενα από τον Όμηρο μέχρι την Άλωση της Κωνσταντινουπόλεως τον 15ο αιώνα και πλέον συνεχίζουμε με κείμενα που ξεπερνούν αυτό το χρονικό όριο. Το 60% των κειμένων που έχουμε είναι απ’ τη Βυζαντινή περίοδο. Υπάρχουν πολλά κενά γιατί από εκείνη την περίοδο δεν διαθέτουμε πολλές έγκριτες εκδόσεις. Και αυτό ακριβώς επισημάνθηκε στο 2ο Συνέδριο του Δήμου Αθηναίων.

— Πώς έφθασε η Marianne McDonald να εμπνευσθεί και να εμψυχώσει αυτό το φιλόδοξο σχέδιο;
— Είναι η κόρη του ιδρυτή της εταιρείας Zenith. Ήθελε να γράψει τη διατριβή της με θέμα «Όροι ευτυχίας στον Ευριπίδη». Υπήρξαν, στο παρελθόν, στο εξωτερικό —και κυρίως στην Ευρώπη— πολλές αποτυχημένες προσπάθειες καταγραφής των εκατομμυρίων λέξεων της ελληνικής γλώσσας. Έτσι, το 1972 η Marianne McDonald σκέφτηκε ότι με τα κομπιούτερ που υπήρχαν εκείνη την εποχή —που δεν ήταν τα micro computer που γνωρίζουμε εμείς σήμερα— θα μπορούσε να γίνει καλύτερα η καταγραφή των κειμένων. Μία άλλη ευτυχής συγκυρία ήταν ότι ο πρώτος Διευθυντής του Κέντρου, που ήταν καθηγητής Κλασικών Σπουδών, υπήρξε συμφοιτητής του David Packard, του γιου του συνιδρυτή της εταιρείας Hewlett-Packard, και μέσω αυτής της προσωπικής τους γνωριμίας, τον έπεισε να ασχοληθεί με το πρόγραμμα.
Τροποποίησε, λοιπόν, έναν υπολογιστή που είχε ήδη η εταιρεία, τον HP-1000, για να μπορεί να διαβάζει ελληνικά. Και αυτό ήταν κάτι το πρωτοποριακό και απίστευτο συγχρόνως για την εποχή, γιατί τότε οι υπολογιστές δεν μπορούσαν να «διαβάσουν» ελληνικά! Επίσης, δημιούργησε μια σειρά προγραμμάτων, τα οποία είχαν τη δυνατότητα να επεξεργάζονται την ελληνική γλώσσα.
Έφτιαξε στην ουσία έναν κώδικα που επέτρεπε στο πρόγραμμα να καταγράφει τα κείμενα με λατινικούς χαρακτήρες και αυτοί κατόπιν να μετατρέπονται σε ελληνικούς. Αυτός ήταν ο λεγόμενος «Κώδικας Β», ο οποίος χρησιμοποιείται ακόμα και σήμερα.
Το 1985, με τη βοήθεια του ιδίου, το TLG κυκλοφόρησε τον πρώτο ψηφιακό δίσκο στην ιστορία των υπολογιστών που δεν περιείχε μουσική. Περιείχε ελληνικά κείμενα! Εκτός απ’ αυτό, δημιούργησε έναν μικρό υπολογιστή — λένε μάλιστα ότι τον έφτιαξε στο γκαράζ του σπιτιού του— ο οποίος είχε τη δυνατότητα να διαβάζει τα συγκεκριμένα CD του TLG. Οπότε, τα πανεπιστήμια μπορούσαν να αγοράσουν αυτό το κομπιούτερ, αλλά και το CD, και έτσι να έχουν πρόσβαση σε όλα τα κείμενα που είχε ψηφιοποιήσει το Ερευνητικό μας Κέντρο. Τότε, ήταν περίπου 50 εκατομμύρια ελληνικές λέξεις. Τώρα πια δεν βγάζουμε CD, καθώς όλο το υλικό βρίσκεται στο Διαδίκτυο, στη διεύθυνση www.tlg.uci.edu. Έχουμε τώρα 105 εκατομμύρια ελληνικές λέξεις*, 3.962 συγγραφείς και περίπου 15.000 κείμενα.

— Πόσα άτομα βρίσκονται πίσω από αυτή την προσπάθεια;
— Έχουμε οκτώ ερευνητές και προγραμματιστές. Η ψηφιοποίηση γίνεται στην Κίνα. Στέλνουμε μέσω ταχυδρομείου τα βιβλία και οι Κινέζοι, που δεν ξέρουν ελληνικά, καταγράφουν τα κείμενα. Όταν ξεκίνησε το πρόγραμμα έστειλαν δείγματα στην Κορέα, στις Φιλιππίνες και στην Ελλάδα, για να δουν ποιος θα κάνει τα περισσότερα λάθη. Οι Έλληνες έκαναν τα περισσότερα, γιατί διάβαζαν τα κείμενα, θεωρούσαν ότι κάτι δεν ήταν σωστό και το διόρθωναν. Είχαν άποψη για τα κείμενα, ενώ οι άλλοι δεν είχαν, απλώς έγραφαν ό,τι έβλεπαν. Γι’ αυτό και τα τελευταία 20 χρόνια, η πληκτρολόγηση γίνεται στην Κίνα. Επίσης ιδιαίτερο ενδιαφέρον παρουσιάζει το γεγονός ότι η δακτυλογράφηση γίνεται στα λατινικά και, όταν εμείς παίρνουμε τα κείμενα, τα μετατρέπουμε στα ελληνικά.

— Πώς είναι να ζει μια Αθηναία επί τόσα πολλά χρόνια στην Αμερική;
— Η Καλιφόρνια μου θυμίζει πολύ τη χώρα μας. Υπάρχει εκεί μεγάλη ελληνική κοινότητα. Ο καιρός και το φυσικό περιβάλλον της μοιάζει πολύ με της Αθήνας, αλλά από την άποψη της κουλτούρας τα πράγματα είναι εντελώς διαφορετικά. Είναι μάλλον φανερό πως μετά από τόσα χρόνια στην Αμερική νιώθω πιο άνετα εκεί.

— Πώς βλέπετε σήμερα την Αθήνα; Πόσο πολύ έχει αλλάξει;
— Όταν ήμουν φοιτήτρια, η Αθήνα ήταν μια κάπως διαφορετική πόλη, οι ανθρώπινες σχέσεις πολύ πιο στενές. Παρόλο όμως που σήμερα η Αθήνα έχει εξελιχτεί σε μια μεγαλούπολη, δεν μπορώ να βρω ιδιαίτερες αλλαγές.


* 105 εκατομμύρια ελληνικές λέξεις σημαίνει ότι το σύνολο των έργων που έχει καταγράψει το TLG περιέχει 105.000.000 λέξεις, όπως το κείμενο της συνέντευξης έχει συνολικά 693 λέξεις ή το συνολικό έργο του Σέξπιρ 884.647 λέξεις.
 
Έχει ιδέα κανένας για το πού βρίσκεται η διεπαφή για τις αναζητήσεις; Το αποτολμήσαμε τις προάλλες και πρέπει να είχαμε χαμηλά επίπεδα καφεΐνης γιατί όλο στη σελίδα για συνδρομές πέφταμε :)
 
Αυτό έψαχνα, ναι. Επειδή όμως δεν είναι μάννα εξ ουρανού, δε δίνεις και τη διαδικασία, δηλαδή από ποιόν σύνδεσμο βρίσκουμε τη σελίδα αυτή; (Αυτές τις μέρες ο καφές αρνείται να με πιάσει και το μυαλό, λόγω ενός ποιοτικού έλεγχου έχει κολλήσει)
 

Zazula

Administrator
Staff member
Μη νομίζεις, ούτε κι εγώ είχε χρειαστεί μέχρι τώρα να ψάξω κάτι στο TLG, οπότε θα σου πω ακριβώς τι έκανα όταν είδα το μήνυμά σου: Πήγα στο σύνδεσμο που δίνεται στο άρθρο (http://www.tlg.uci.edu/), έκανα κλικ στο Abridged Online TLG (κάτω από το Non-Subscribers, σκεπτόμενος ότι, αφού εσύ έβλεπες συνεχώς για συνδρομές, μάλλον στα πεδία τού Subscribers πήγαινες), έκανα κλικ στο στο Try out the TLG κάτω μέρος της νέας σελίδας, έκανα κλικ στο ENTER τής αριστερής στήλης στο νέο παράθυρο που άνοιξε (αφού σκόπευα να χρησιμοποιήσω Unicode και όχι πολυτονική γραμματοσειρά — ή πόσο μάλλον Beta Code που τον αγνοώ πλήρως!), στην αριστερή στήλη είδα το Advanced κάτω από το Text Search και είπα μπίνγκο!
 
Ολε! Σ' ευχαριστώ πολύ για τον κόπο και τις πληροφορίες! Μερικές φορές η λύση σε κοιτάει να ΈΤΣΙ και χορεύει μπροστά στα μάτια σου κι εσύ βλέπεις τον ορίζοντα :)

Καλό υπόλοιπο ΣΚ!
 

nickel

Administrator
Staff member
Εγώ έβαλα την υποσημείωση στη συνέντευξη της Παντελιά, για τα 105 εκατομμύρια λέξεις, μήπως βρεθεί κάποιος που δεν τα πάει καλά με τα νούμερα και καταλάβει άλλ’ αντ’ άλλων. Αλλά φαίνεται ότι τα νούμερα δεν θα πάψουν εύκολα να μας πονοκεφαλιάζουν. Έτσι, δύο άνθρωποι σε τρεις επιστολές επικαλούνται τα 105 εκατομμύρια λέξεων που περιέχουν τα συγγράμματα του TLG για να κάνουν συγκρίσεις με την αριθμητική τρικυμία που υπάρχει στο μυαλό τους. Την ίδια αξία θα είχε το επιχείρημα ότι η αγγλική γλώσσα είναι πιο πλούσια επειδή ο ιστότοπος του BBC έχει 6.720.000 σελίδες με ένα δισεκατομμύριο λέξεις. (Οι σελίδες είναι έγκυρη στατιστική, οι λέξεις είναι αυθαίρετη δική μου εικασία.)

Οι επιστολές, για όποιον δεν βαριέται:
Επιστολή στην Καθημερινή της 14/8/2009
Επιστολή στην Ελευθεροτυπία της 19/8/2009
Επιστολή στο Βήμα της 19/8/2009

Ο Σαραντάκος συνεχίζει τον άγονο αγώνα («άγονος» βάσει του άλλου λεχθέντος περί «αήττητης»).

Τα τωρινά νούμερα λένε (για το TLG):
105.000.000 λέξεις στο σύνολο των κειμένων που έχει καταγράψει το TLG (Αυτό το νούμερο θα αυξάνεται συνεχώς. Οι λέξεις κάθε νέου κειμένου που θα καταγράφεται ψηφιακά στη βάση θα προστίθενται σ’ αυτόν τον αριθμό, ακόμα κι αν δεν προστίθεται ούτε ένα καινούργιο λήμμα.)
220.000 λέξεις-λήμματα
1,5 εκατομμύριο λεκτικοί τύποι

Και υπενθυμίζουμε: τα νούμερα δεν δείχνουν ότι η ελληνική είναι φτωχή γλώσσα. Το αντίθετο. Αλλά τα επαναλαμβάνουμε για να μην ακούγονται τερατολογίες.
 
Όταν είχες αναρτήσει το αρχικό άρθρο είχα σκεφτεί να γράψω ότι η απρόσεχτη διατύπωση της Παντελιά θα δώσει λαβή σε κακοπροαίρετους για παρερμηνείες, αλλά δεν το έγραψα τελικά κι έτσι έχασα την ευκαιρία να δειχτώ προφητικός. Τελοσπάντων, αν και καμιά όρεξη δεν έχω να επιδίδομαι σε άγονους αγώνες (προτιμώ τα μακροβούτια, εδώ που βρίσκομαι), η επιστολή στο Βήμα δεν μπορεί να μείνει αναπάντητη και επιπλέον δίνει την ευκαιρία να ειπωθούν πέντε σωστά πράγματα (π.χ. τα νούμερα που έβαλες με μπολντ).

Ξανάρχισα να μαζεύω υπογραφές για μια συλλογική απάντηση, αν και βέβαια η θερινή περίοδος δεν προσφέρεται και τόσο. Όσοι πιστοί όμως, ας εκδηλωθούν (με ηλεμήνυμα).
 
Θησαυρός Ελληνικής Γλώσσας

Αν το έχουμε βάλει ήδη κάπου αλλού, συγχωρήστε με καθώς δεν παρακολουθούσα πολύ το φόρουμ λόγω εορτών. Αν όχι, δείτε το, είναι ενδιαφέρον.


Μαρία Παντελιά Φύλακας μιας ανεπανάληπτης «κιβωτού» της Ελληνικής Γραμματείας
Καλιφόρνια: Μια Αθηναία κρατά το κλειδί του θησαυρού της Ελληνικής γλώσσας
Δημοσιεύτηκε στις 28 December 2010 από τον Τάκη Πετρόπουλο


Φύλακας μιας ανεπανάληπτης «κιβωτού» της Ελληνικής Γραμματείας, που πλέον «διαχέεται» σε όλο το Διαδίκτυο, η κυρία Μαρία Παντελιά δραστηριοποιείται στην άλλη άκρη του πλανήτη. Πρόκειται για μια βέρα Αθηναία, που αποφοίτησε από το Αρσάκειο. Εδώ και 27 χρόνια ζει στην Καλιφόρνια, όπου εργάζεται ως Καθηγήτρια Κλασικών Σπουδών στο Πανεπιστήμιο της πόλης Irvine. Από το 1996, διευθύνει το πρόγραμμα Thesaurus Linguae Graecae (TLG), του «Θησαυρού της Ελληνικής Γλώσσας», που επιτρέπει με τη βοήθεια της πληροφορικής τον εντοπισμό οποιασδήποτε εμφάνισης κάθε λέξης της ελληνικής γλώσσας μέσα στα συμφραζόμενα. Το TLG είναι ένα πρόγραμμα ψηφιοποίησης όλων των ελληνικών κειμένων που έχουν διασωθεί από την αρχαιότητα μέχρι σήμερα. Ξεκίνησε το 1972 με χορηγό την Marianne McDonald, φοιτήτρια τότε στο Πανεπιστήμιο της Καλιφόρνιας, ο οποία διέθεσε για τον σκοπό αυτόν ένα εκατομμύριο δολάρια, ποσό αστρονομικό για εκείνη την εποχή, και έτσι δημιουργήθηκε το Ινστιτούτο και άρχισε το συγκεκριμένο πρόγραμμα. Σήμερα, έχουν ψηφιοποιηθεί όλα τα κείμενα από τον Όμηρο μέχρι την Άλωση της Κωνσταντινουπόλεως τον 15ο αιώνα και πλέον συνεχίζουν με κείμενα που ξεπερνούν αυτό το χρονικό όριο. Υπάρχουν πολλά κενά γιατί από εκείνη την περίοδο δεν διαθέτουν πολλές έγκριτες εκδόσεις.
Το 1985, το TLG κυκλοφόρησε τον πρώτο ψηφιακό δίσκο στην ιστορία των υπολογιστών που δεν περιείχε μουσική. Περιείχε ελληνικά κείμενα! Οπότε, τα πανεπιστήμια μπορούσαν να αγοράσουν το CD και έτσι να έχουν πρόσβαση σε όλα τα κείμενα που είχε ψηφιοποιήσει το Ερευνητικό Κέντρο. Τότε, ήταν περίπου 50 εκατομμύρια ελληνικές λέξεις. Τώρα, όλο το υλικό βρίσκεται στο Διαδίκτυο, στη διεύθυνση www.tlg.uci.edu. Υπάρχουν 105 εκατομμύρια ελληνικές λέξεις, 3.962 συγγραφείς και περίπου 15.000 κείμενα
 

Attachments

  • 51_984_freepress-pantelia.pdf
    142.3 KB · Views: 329
Top