ρίζες και Σώματα κειμένων (Corpora)

Costas · Dec 29, 2009

Έχω ξαναπεί τον πόνο μου (που δεν είναι βέβαια μόνο δικός μου) για το ότι ψάχνεις μια λέξη στα λεξικά μας και δε βρίσκεις τις λέξεις που τη συνοδεύουν συνήθως: ρήματα, προθέσεις κλπ. Τελικά, αν δεν είσαι φυσικός ομιλητής, είσαι αρκετά αβοήθητος. Κι αν είσαι, κινείσαι σε κλίμα αβεβαιότητας, αν σε τσιμπήσει μύγα και θελήσεις να τσεκάρεις αυτό που σου 'ρχεται αυθόρμητα στο στόμα (και, ακόμα χειρότερα, στη γραφίδα). Τελευταίο παράδειγμα, το ρίζες. Μου 'ρθε "έπιασε ρίζες". Προβληματίστηκα. Άνοιξα:

ΛΚΝ: βγάζω/ρίχνω ρίζες, ριζώνω.
ΛΝΕΓ: √0 = 0.

Αν τώρα πάω στο ριζώνω, βρίσκω:

ΛΚΝ: αποκτώ, βγάζω ρίζες, ριζοβολώ.
ΛΝΕΓ: βγάζω ρίζες, ριζοβολώ.

Αν τώρα πάω στο ριζοβολώ, βρίσκω:

ΛΚΝ: βγάζω, απλώνω ρίζες.
ΛΝΕΓ: βγάζω, αναπτύσσω ρίζες.

Συγκεφαλαιώνω: συγκεντρώνονται αμέσως ή εμμέσως, και μετά από χρονοβόρα περιήγηση, τα εξής:

βγάζω, ρίχνω, αποκτώ, απλώνω, αναπτύσσω ρίζες.

Ούτε πιάνω, ούτε πετάω ρίζες.

Πάω τώρα στο γούγλη, που ευτυχώς υπάρχει κι αυτός πια, και κάνω μια εξαιρετικά πρωτόγονη 'έρευνα'. Ψάχνω τα ρήματα στον αόριστο, γ' ενικό πρόσωπο, ως πιο κοινό, και την όλη έκφραση σε εισαγωγικά:

Ρήματα λεξικών
έβγαλε ρίζες: 871
έριξε ρίζες: 8
απέκτησε/απόκτησε/απόχτησε ρίζες: 142 [135+6+1]
άπλωσε ρίζες: 234
ανέπτυξε ρίζες: 88

Ρήματα εκτός λεξικών
πέταξε ρίζες: 46
έπιασε ρίζες: 47

Αν τα βάλετε όλα αυτά μαζί, προκύπτει ένα αλαλούμ, με μπόλικη αυθαιρεσία και προχειρότητα. Και στο μεταξύ, αντί να βγάζω το ψωμάκι μου μεταφράζοντας, χάνω την ώρα μου κυκλοφορώντας από το ένα λεξικό στο άλλο, από τη ρίζα στο ριζώνω, από το ριζώνω στο ριζοβολώ, μετά στο γούγλη κλπ. Πολλή κούραση. Μακάρι κάποιος να σκεφτεί να φτιάξει ένα λεξικό έτσι όπως μου χρειάζεται.

tsioutsiou† · Dec 29, 2009

Με μια κουβέντα, έβγαλες ρίζες μέχρι να βρεις μια άκρη :)

Leximaniac · Dec 29, 2009

Η πρώτη κίνησή σου σε τέτοια αμφιβολία (μετά τα λεξικά) είναι να πας σε σώματα κειμένων όπως το ΕΘΕΓ και το ΣΕΚ. Έχουν αρκετό υλικό και όντας «κλειστά» δεν περιλαμβάνουν προφορικές ή μη «αποδεκτές» χρήσεις της γλώσσας.

Βέβαια το Google παραμένει πολύ καλό εργαλείο αλλά πρέπει να βάλει κανείς πολλά κριτήρια στο πλαίσιο αναζήτησης για να μην λάβει 30000000 άσχετα αποτελέσματα και να πρέπει να περάσει ώρες, όπως έκανες εσύ, για να βρει κάτι που πραγματικά θα τον βοηθήσει.

Το ζήτημα με τα λεξικά που έχουμε ως τώρα τουλάχιστον είναι ότι δεν έχουν συμβουλευθεί σώματα κειμένων και άρα δεν περιέχουν όλα όσα θα έπρεπε. Επίσης πολλές φορές ακόμα και τα παραδείγματά τους είναι κόπι/πέιστ από τον έναν στον άλλο. Κανονικά θα έπρεπε οι ορισμοί να είναι πιο επικοινωνιακοί και πιο διαφωτιστικοί, δηλαδή να μην περιμένει κανείς να διαβάσει τα παραδείγματα για να δει τη γραμματική χρήση της λέξης. Πού θα πάει όμως... κάποτε θα φτιαχτεί και ένα τέτοιο λεξικό.

daeman · Dec 29, 2009

Από τις ρίζες μου, με αφορμή τα όσα γράφεις, Κώστα, που κατά καιρούς μας έχουν ταλαιπωρήσει όλους. :)

Ο φυσικός ομιλητής:
Πολλοί καιροί με δέρνουνε,
μα οι κλώνοι μου δε σπούνε,
γιατί 'χω ρίζες δυνατές
βαθιά και με κρατούνε.

Ο επίμονος, υπομονετικός αναζητητής:
Η ελπίδα κι αν θα ξεραθεί,
ανθίζει και βλαστίζει,
όταν νερό τσ' υπομονής
τη ρίζα της ποτίζει.

Ο απηυδισμένος μεταφραστής (εδώ αυτοσχεδιάζουμε ;)):
Ρίζωσα στην καρέκλα μου
να ψάχνω στο ιντερνέτι
του "πιάνω ρίζες" για να βρω
αν είν' η χρήση ντρέτη.

Ανάθεμα στα λεξικά,
ο-ρίζουν, δεν ο-ρίζουν,
συχνά τα παραδείγματα
σωστά δεν κουλαντρίζουν.

Στον γκούγκλη απευθύνθηκα,
χρήσιμο εργαλείο,
μα, ψάξε ψάξε, πέταξα
ρίζες και στο γραφείο.

Λεξικογράφοι, φίλοι μας,
βοηθάτε μας, αν θέτε,
ρίζες ετυμολογικές
μονάχα μη μας λέτε.

Δώστε μας χρήση, σύναψη,
παράδειγμα ωραίο,
μη γίνει το μετάφρασμα
άστοχο και μοιραίο.

Ώσπου να βγει το λεξικό
το πλήρες να μας σώσει,
φοβούμαι ο κακορίζικος
θα τα 'χω κακαρώσει.

Απόπειρα για ριζίτικο, άλλη ώρα, γιατί πλάκωσε δουλειά και πρέπει να ριζώσω πάλι μπροστά στην οθόνη.

Costas · Dec 29, 2009

Είσαι και πρώτος!

tsioutsiou† · Dec 29, 2009

Στιχουργική ριζοβελονιά

nickel · Dec 29, 2009

Δεύτερος, τρίτος, και καταϊδρωμένος:

Πρώτα, ένα γρήγορο σχόλιο για τις ρίζες: Έριξα μια ματιά στην Κιβωτό της νεοελληνικής γλώσσας, που θα μπορούσε να είναι το εργαλείο που ζητάς, αλλά δεν νομίζω ότι ήθελε ο Πλακιάς να φτιάξει ένα τόσο φιλόδοξο έργο. Στο λήμμα ρίζα δεν έχει ούτε μία από τις συμφράσεις που βρήκες μόνος σου, Κώστα. Τη σύμφραση που ήθελες να επικυρώσεις τη βρήκα στο λήμμα ριζώνω του ΠαπΛεξ: 1. (για φυτό) πιάνω ρίζες, ριζοβολώ, απλώνω τις ρίζες μου και στηρίζομαι.

Έχω τα τρία συμφραστικά λεξικά της αγγλικής: το πρώτο του είδους BBI Dictionary of English Word Combinations, το μάλλον αδιάφορο LTP Dictionary of Selected Collocations και το χορταστικό Oxford Collocations Dictionary for Students of English.

Από το τρίτο δίνω εδώ το λήμμα root για να δεις τι μπορείς να περιμένεις από ένα λεξικό 900 σελίδων. Παρότι είναι εξαιρετικά βοηθήματα, ομολογώ ότι, στις χίλιες φορές που χρησιμοποιώ το Google, αυτά τα χρησιμοποιώ μία. Βεβαίως, σε κάθε βήμα στο Google έχω και τις επιφυλάξεις μου και τις μισοξεπερνώ με διάφορα γνωστά τρικ (π.χ. συγκρίσεις στο Altavista για να μην παίρνω εντελώς εξωπραγματικά νούμερα, αναζητήσεις με φίλτρα του είδους site:uk ή site:ac.uk (μόνο τα αγγλικά πανεπιστήμια) ή site:bbc.co.uk, αναζητήσεις στα βιβλία του http://books.google.com/ κ.ά.).

Το μέλλον για τέτοια πρόχειρη δουλειά βρίσκεται στο Google και στα εργαλεία που θα προσφέρει για έρευνα ή τα εργαλεία που θα αναπτύξουν άλλοι για τα ευρήματα του Google. Προσοχή: υπάρχει σημαντική διαφορά ανάμεσα στα σώματα κειμένων που χρειάζεται ένα λεξικό και τους συμφραστικούς πίνακες που θέλει να συμβουλευτεί ένας συγγραφέας ή ένας μεταφραστής για να βεβαιωθεί αν είναι σωστή μια χρήση ή για να χρησιμοποιήσει ένα πιο ταιριαστό ρήμα ή επίθετο. Τα σώματα για λεξικά δεν είναι μόνο πιο κλειστά, όπως λέει η leximaniac (επιλεγμένες πηγές, αν και, όποιος γνωρίζει τις ταλαιπωρίες του ΙΕΛ αντιλαμβάνεται ότι τις επιλογές τις επέβαλλαν συχνά οι περιστάσεις), αλλά έχουν περάσει και από διαδικασία χαρακτηρισμού που επιτρέπει τις πολύ πιο σύνθετες αναζητήσεις που απαιτεί η λεξικογραφική ή γλωσσολογική έρευνα.

Τις προάλλες, όταν χρειάστηκε να εμβαθύνω λιγάκι στις χρήσεις του έωλος, αντιλήφθηκα γρήγορα ότι ελάχιστη βοήθεια μπορούσαν να μου προσφέρουν ο ΕΘΕΓ ή το ΣΕΚ (π.χ. ο πρώτος δεν έχει ούτε ένα παράδειγμα με «έωλης»). Οπότε αποφάσισα να μη χρησιμοποιήσω όλο το διαδίκτυο (που έδινε περισσότερα παραδείγματα απ’ όσα χρειαζόμουν) αλλά να περιοριστώ σε 4 εφημερίδες (παρότι, όπως επισήμανα εκεί, η φιλοξενία σχολίων των περαστικών μολύνει πλέον τα ευρήματα της Ελευθεροτυπίας ή του BBC κ.ά.).

Το Google συχνά ξέρει να κλίνει μια λέξη, δηλαδή να δίνει ευρήματα για διαφορετικούς τύπους της, αλλά το έωλος δεν ξέρει να το κλίνει ούτε ήθελα να το αφήσω στην πρωτοβουλία του Google. Άρα έψαξα χωριστά για έωλος, έωλου, έωλο, έωλοι, έωλων, έωλους, έωλη, έωλης, έωλες, έωλα και βαρέθηκα να ψάξω για τύπους με κατεβασμένο τόνο. Σε κάθε ψάξιμο έβαζα ένα + μπροστά από τη λέξη για να είμαι βέβαιος (όσο βέβαιος μπορείς να είσαι με το Google) ότι δεν θα παρεμβληθούν και άλλα ευρήματα. Οι αναζητήσεις ήταν του τύπου:
+έωλος site:tanea.gr OR site:tovima.gr OR site:enet.gr OR site:kathimerini.gr

Στα Settings του Google έχω ρυθμίσει να βγαίνουν 100 ευρήματα σε κάθε σελίδα, το μέγιστο επιτρεπόμενο, για να μην έχω πολύ ξεφύλλισμα. Με αντιγραφή και επικόλληση μετέφερα κάθε σελίδα ευρημάτων σε κείμενο του Word και, όταν είχα μεταφέρει όλα τα αποτελέσματα, έκανα τα εξής:
1. Αντικατάσταση του [κενό διάστημα] έωλ με ^tέωλ, έβαλα δηλαδή ένα tab μπροστά από κάθε λέξη που άρχιζε από έωλ.
2. Μετατροπή όλων των παραγράφων σε σειρές πίνακα με στήλες που διαμορφώνονται από τα tabs, δηλ. Control-A (για να επιλέξω όλες τις παραγράφους), Table > Convert > Text to Table (Επιλέγω Separate text at Tabs). Όλα τα έωλ~ ήταν τώρα στη δεύτερη στήλη.
3. Ταξινομώ τον πίνακα που έχει δημιουργηθεί επιλέγοντας τη δεύτερη στήλη με τα έωλ~. Table > Sort > Sort by Column 2. Με αυτό τον τρόπο (α) έχω απομονώσει όλες τις γραμμές που δεν έχουν τη λέξη (οι διάφορες πρόσθετες γραμμές της σελίδας των ευρημάτων) και τις διαγράφω (μου μένει μια ικανοποιητική συλλογή περίπου 400 παραδειγμάτων) και (β) έχω ομαδοποιήσει τις χρήσεις του έωλος, όπως φαίνεται στο PDF που είχα επισυνάψει στη συναφή σελίδα.

Τα παραπάνω είναι ένας πρόχειρος, σχεδόν μπακαλίστικος, τρόπος για μια πολύ πρόχειρη έρευνα και είναι προφανές ότι ακόμα και ένα απλό πρόγραμμα θα έδινε καλύτερα αποτελέσματα, π.χ. θα κρατούσε τον σύνδεσμο προς τις εφημερίδες στο τέλος κάθε ευρήματος αν με ενδιέφερε η πηγή, ή θα μπορούσε να ταξινομήσει τα ευρήματα και αριθμητικά, δηλαδή θα έβαζε πρώτα πρώτα τα «έωλα επιχειρήματα» που έδιναν τα περισσότερα ευρήματα κ.ο.κ.

Σε μια ανάλογη έρευνα για τις +ρίζες στα σώματα 4 εφημερίδων, πληροφορούμαι από το Google ότι βρήκε 31.700 σελίδες, αλλά δεν το πιστεύω — το 3.000 είναι ένα πιο ρεαλιστικό νούμερο. Όμως είναι πολύ δύσκολο να αξιοποιήσεις αυτά τα ευρήματα για να δημιουργήσεις έναν συμφραστικό πίνακα βασισμένο στη συχνότητα με την οποία απαντούν τα ρήματα πριν από τη λέξη ρίζες. Ένα σωστό πρόγραμμα πρέπει να μπορεί να «πηδά» λέξεις που δεν είναι ρήματα (δηλ. να περιλαμβάνει το «έβγαλε γερές ρίζες») και να αναγνωρίζει όλους τους διαφορετικούς τύπους των ρημάτων έτσι ώστε να ομαδοποιεί τα έβγαλε μαζί με τα βγάζει.

Δεν ασχολούμαι με το ΣΕΚ, είναι ακόμα στα σπάργανα, αλλά δες πώς μπορείς να αξιοποιήσεις τον ΕΘΕΓ.

Επιλέγεις Λήμμα στο Πρώτο Κριτήριο και γράφεις πιάνω στο κενό. Στο Δεύτερο Κριτήριο (το αφήνεις στο Λέξη) γράφεις ρίζες. Θα πάρεις τα τρία παραδείγματα της βάσης, που είναι:
1 Ένα, δειλό και περιορισμένο, κίνημα άρχισε ν' απλώνεται, σιγά-σιγά, και να πιάνει ρίζες το 19ο αιώνα, για να μαζικοποιηθεί οριστικά τον 20ο αιώνα, με τη γενικότερη ανάπτυξη των προοδευτικών κινημάτων.
2 Η φωνή του άρχιζε να πιάνει ρίζες μέσα μας, να πυροδοτεί διεργασίες.
3 Όπως και να 'χει, όπως είπε κι ο Τσαρούχης, «Τα ψεύτικα λουλούδια του νεοκλασικισμού ξεγελασμένα από τη θαλπωρή της Αττικής γης που προ πολλών αιώνων τα γέννησε μαζί με τον ήλιο, πιάσανε ρίζες ή έδωσαν την εντύπωση μέχρι φρεναπάτης πως τις πιάσανε, πέταξαν βλαστάρια, έδεσαν μπουμπούκια κ.λπ., κ.λπ.
Πατώντας τους αριθμούς αριστερά βλέπεις και την πηγή.

Βλέπεις ότι έδωσε διαφορετικούς τύπους τού πιάνω. Έχεις επίσης τη δυνατότητα να ορίσεις και πόσες άλλες άσχετες λέξεις επιτρέπεται να παρεμβάλλονται (Μέγιστη απόσταση). Ακόμα πιο σημαντική είναι η δυνατότητα με την οποία μπορείς στο Πρώτο Κριτήριο να ορίσεις Γραμματικό Προσδιορισμό, εδώ Ρήμα, και να σου δώσει (ανάλογα και με τη Μέγιστη απόσταση) όλα τα παραδείγματα με Ρήμα + ρίζες. Δεν έχω γραφτεί συνδρομητής, βλέπω μόνο μέχρι 5 αποτελέσματα και δεν ξέρω αν μπορείς να κάνεις έξυπνα πράγματα με αρκετές δεκάδες αποτελέσματα, κυρίως τις ομαδοποιήσεις και ταξινομήσεις που είναι απαραίτητες για σοβαρή δουλειά.

Ωστόσο, μην περιμένεις εντυπωσιακές προόδους στα ελληνικά ηλεκτρονικά σώματα ή στα έντυπα λεξικά από αυτή την άποψη. Είναι πολύ πιο εύκολο στο Google να εντοπίζει αξιόπιστες σελίδες και να ανεβάσει τα εργαλεία για να γίνονται του κόσμου οι γλωσσολογικές έρευνες πάνω στα ευρήματά του. Δεχόμαστε στοιχήματα σε πόσα χρόνια θα μπορέσουμε να κάνουμε αυτό που ήδη περιέγραψα:

Βρες
στο σώμα των ελληνικών εφημερίδων*
όλες τις προτάσεις** με τη λέξη "ρίζες"
πριν από την οποία υπάρχει ρήμα με δύο το πολύ λέξεις ανάμεσα
και ταξινόμησε τα ευρήματα με βάση τον βασικό τύπο του ρήματος***, από τα περισσότερα στα λιγότερα ευρήματα.

* Μία από πολλές επιλογές εγκεκριμένων σωμάτων.
** Περιόδους του συντακτικού, όχι τα αυθαίρετα αποσπάσματα που δίνουν τώρα τα ευρήματα (και πάλι καλά που βλέπουμε τις λέξεις που γυρεύουμε — τα παλιά ψαχτήρια δεν είχαν τέτοια καλούδια).
*** Χωριστά το έπιασε και το πιάνει στην ομαδοποίηση των ευρημάτων, αλλά η τελική ιεράρχηση θα βασίζεται στο άθροισμα όλων των διαφορετικών τύπων π.χ. του βασικού τύπου πιάνω.

Costas · Dec 29, 2009

nickel said:
Δεχόμαστε στοιχήματα σε πόσα χρόνια θα μπορέσουμε να κάνουμε αυτό που ήδη περιέγραψα

Δεχόμαστε στοιχήματα σε άλλα πόσα χρόνια θα είμαστε άνεργοι γιατί θα γίνεται αυτόματη μετάφραση...
Ναι, αν το ΕΘΕΓ ήταν ανοιχτό θα ήταν καλά. Μπράβο πάντως για το άρθρο!

tsioutsiou† · Dec 29, 2009

strike roots

ρίζες και Σώματα κειμένων (Corpora)

Costas

¥

tsioutsiou†

¥

Leximaniac

¥

daeman

Administrator

Costas

¥

tsioutsiou†

¥

nickel

Administrator

Costas

¥

tsioutsiou†

¥