NLP - Μορφολογικό λεξικό

ian · May 29, 2018

Καλησπέρα σας

Είμαι μηχανικός λογισμικού και δουλεύω στον ελεύθερο χρόνο μου σε NLP από προσωπικό ενδιαφέρον. Το κυρίως ενδιαφέρον μου είναι σε γνωσιακά συστήματα και τεχνητή νοημοσύνη, αλλά εφόσον κατασκευάζω κάτι από το μηδέν εδώ και κάποιες μέρες έχω ασχοληθεί με την κλίση ουσιαστικών ρημάτων κοκ για τη σύνταξη ενός κλιτικού/μορφολογικού λεξικού που θα μου χρειαστεί μετέπειτα.

Χρησιμοποίησα το λεξικό του ιδρύματος Τριανταφυλλίδη (http://www.greek-language.gr) το οποίο το πέρασα από parser και σε συνδυασμό με τα κλιτικά παραδείγματα έφτιαξα ένα μορφολογικό λεξικό περίπου ~500χιλ μορφημάτων για επίθετα/ουσιαστικά το οποίο σε συνδυασμό με κάποιους αξιόπιστους spellers φαίνεται να έχει περίπου 10% σφάλμα. Είναι προς μελέτη/συμμάζεμα ώστε να ρίξω τα σφάλματα στο μηδέν.

Τα ρήματα με τρόμαξαν λίγο. Παρόλο που το λεξικό δίνει πληροφορίες για την κλίση, πολύ συχνά δεν είναι αρκετά δομημένες καθώς έχουν γίνει από άνθρωπο και χάθηκα λίγο. Κοιτώντας την γραμματική της Philippaki-Warburton κατάλαβα ότι η μέθοδος που χρησιμοποίησα για τα ουσιαστικά, μάλλον είναι αρκετά μεγαλύτερος μπελάς για τα ρήματα.

Σκέφτηκα λοιπόν, προκειμένου να διαχειριστώ τόσες εξαιρέσεις και περιπτώσεις, να εργαστώ ανάποδα. Δηλαδή για να ολοκληρώσω το μορφολογικό λεξικό, αντί να γράψω κώδικα να κλίνει τα ρήματα, να γράψω κώδικα που να αναγνωρίσει από ένα μεγάλο wordlist ρήματα τα οποία έχουν κλιθεί ήδη και να τα τοποθετήσει στη σωστή θέση τους στο μορφολογικό λεξικό.

(Τουλάχιστον όπως το σκέφτομαι είναι σαφώς πιο εύκολο να καταλάβεις ότι το "έτρεξα" είναι αόριστος του "τρέχω" από το να μετατρέψεις το "τρέχω" σε "έτρεξα" και να είσαι 100% σίγουρος ότι είναι σωστό αυτό που έχεις παράγει. Από την άλλη, όσα θέματα δεν ταιριάξουν καθόλου, είναι πιο διαχειρίσιμα από το να ψάχνεις για λάθη που έχεις παράγει.)

Καταρχάς εδώ η απορία μου είναι αν μπορώ να βρω κάπου ελεύθερο ένα τόσο μεγάλο και αξιόπιστο wordlist για τα ελληνικά για να χρησιμοποιήσω για αυτό το σκοπό.

Κατά δεύτερον, διαπίστωσα με λύπη πως γενικά υπάρχουν πολύ λίγες ανοιχτές πηγές και εργαλεία για την ελληνική γλώσσα, ειδικά για NLP και όσες βρήκα δεν φάνηκαν ιδιαίτερα αξιόπιστες ή κάθε άλλο παρά πλήρεις (π.χ το λεξικό του openoffice φάνηκε να έχει ένα αρκετά μεγάλο ποσοστό λαθών και ελλείψεις). Μπορεί βέβαια να κάνω και λάθος και να μην ξέρω πώς να ψάξω πηγές.

Οπότε σκέφτηκα, αφού παιδεύομαι που παιδεύομαι, ας κάνω και κάτι καλό για την κοινότητα. Επειδή λοιπόν τα εργαλεία που κατασκευάζω όπως μορφ.λεξικά, λημματοποιητές και διάφορους άλλους αναλυτές κειμένου δεν με ενδιαφέρουν για εκμετάλλευση, χόμπι είναι άλλωστε, σκοπεύω να τα ανοίξω και να τα διανέμω προς ελεύθερη χρήση, είτε ως online εργαλεία είτε και για κατέβασμα.

Σε αυτό το σημείο δεν ξέρω βέβαια αν θα έχω θέμα με πνευματικά δικαιώματα με τις πηγές που έχω χρησιμοποιήσει, εφόσον έχουν υποστεί τέτοιου είδους επεξεργασία. Έχω υπόψη μου, για παράδειγμα, πως όταν γράφεται ένα λεξικό, οι συγγραφείς συμβουλεύονται άλλα λεξικά και διαλέγουν μια ετυμολογία, οπότε φαντάζομαι ότι δεν τίθεται θέμα, πόσο μάλλον αφού δεν υπάρχει εμπορικό ενδιαφέρον, αλλά θα ήθελα τη γνώμη σας.

Τέλος αν κάποιος έχει παρόμοιες ανησυχίες και ενδιαφέρεται να βοηθήσει να φτιαχτεί κάτι τέτοιο, ή αν ενδιαφέρεται γενικά για τα παραπάνω, ευχαρίστως ας στείλει.

Παρεμπιπτόντως συγχαρητήρια για το forum, μου έχει λύσει ήδη αρκετές απορίες :)

nickel · May 29, 2018

Καλησπέρα, Ian, και καλωσήρθες στη Λεξιλογία.

Πριν συζητήσουμε περισσότερο, θα πρέπει να σε παραπέμψω στη lexigram, για να δεις εκεί τα κλιτικά λεξικά αρχαίας και νέας ελληνικής του Γιώργου Μαλακού. (Και το λεξικό συνωνύμων.)

Περισσότερα αργότερα.

Lexigram: https://www.lexigram.gr/
Κλιτικό της ΝΕ: https://www.lexigram.gr/lex/newg/#Hist0

ian · May 29, 2018

nickel σε ευχαριστώ πολύ για την παραπομπή. Γνωρίζω τη δουλειά της lexigram, η οποία παρεμπιπτόντως είναι αξιέπαινη.

Από όσο γνωρίζω ωστόσο δεν είναι διαθέσιμη, παρά μόνο online.

nickel · May 29, 2018

Οπότε, μια απορία μου είναι: Η δουλειά (που είναι τεράστια) γίνεται για να βρεις τον καλύτερο τρόπο αντιμετώπισης του προγραμματιστικού προβλήματος;

Επίσης: Έχεις δίκιο, οι πηγές που σε ενδιαφέρουν και υπάρχουν για δημόσια χρήση δεν είναι εντυπωσιακές.

Κάποια ενδιαφέρουσα συλλογή πρέπει να βρίσκεται στο Kέντρο Eρεύνης Eπιστημονικών Όρων και Nεολογισμών της Ακαδημίας Αθηνών. Ξέρω ότι ενημερώνεται συνεχώς από το διαδίκτυο, αλλά δεν ξέρω αν είναι διατεθειμένοι να τη μοιραστούν.

ian · May 29, 2018

Να διευκρινίσω.

Το μορφολογικό λεξικό και τα συναφή μου χρειάζονται μετέπειτα σε έρευνα σε semantics. Θα το έκανα ούτως ή άλλως.

Ωστόσο βλέποντας ότι για τα ελληνικά, σε αντίθεση με άλλες γλώσσες, οι σχετικές πηγές είναι κλειστές για λόγους που δεν κατανοώ, σκέφτηκα να γλιτώσω τον επόμενο που θα ασχοληθεί. Δεν ζω από αυτό, ούτε μου είναι σοβαρός κόπος να τα ανεβάσω.

Προέρχομαι από θετικές επιστήμες, συνεπώς δεν μπορώ να εκτιμήσω αν είναι τεράστια δουλειά.

Ωστόσο για να παράγω τα μορφήματα των ουσ/επιθέτων χρειάστηκα 1-2 απογεύματα. Υπάρχει ένα σφάλμα ~10%, αλλά είναι περιπτώσεις όπως η λέξη "αλκυονίδες" που έχει το λεξικό του Τριανταφυλλίδη (ο αλγόριθμος θα περίμενε τη λέξη αλκυονίδα αν υπάρχει) ή κάποια παρόμοια που έπιασα αντιπαραβάλλοντας αυτό που παράγω με spellers. Το καλό είναι ότι τα λάθη επαναλαμβάνονται, συνεπώς και διορθώνονται μαζικά.

Είναι λίγο δουλειά χαμάλη, αλλά θα ασχοληθώ να το τελειώσω. :)

Για τα ρήματα ωστόσο, αν και πολύ λιγότερα (<7000), μου φάνηκε προτιμότερο να ξεκινήσω από wordlist και να κινηθώ προς το μορφ.λεξικό και όχι το ανάποδο. Αν δεν βρεθεί, λογικά θα κάνω το ίδιο που έκανα στα ονόματα.

Σε ευχαριστώ για την πρόταση της Ακαδημίας, δεν ήξερα ότι υπήρχε. Είναι πολύ πιθανό να αρνηθούν, αλλά θα τους ρωτήσω.

nickel · May 29, 2018

ian said:
Σε ευχαριστώ για την πρόταση της Ακαδημίας, δεν ήξερα ότι υπήρχε. Είναι πολύ πιθανό να αρνηθούν, αλλά θα τους ρωτήσω.

Συγκεντρώνουν νέο λεξιλόγιο με αράχνη που κυκλοφορεί στο διαδίκτυο και μαζεύει νέο υλικό, το συγκρίνει με την πλούσια βάση που είχαν για ξεκίνημα και εμπλουτίζουν συνεχώς, και έτσι εντοπίζουν οτιδήποτε καινούργιο.

ian · May 29, 2018

Ναι το σκέφτομαι σοβαρά να χρησιμοποιήσω spider για να μαζέψω λέξεις και σώματα κειμένων που θα χρειαστώ αργότερα.

Για την πρώτη χρήση ωστόσο δεν έχω ξεκάθαρο θεωρητικά αν αρκεί μόνο η στατιστική συχνότητα εμφάνισης για να αξιολογήσω ότι μια λέξη είναι "σωστή" ή όχι, και αν ναι, πόσο μεγάλο δείγμα χρειάζομαι για να το αποφανθώ αυτό. Όχι ότι θα έπρεπε να με απασχολεί εδώ που τα λέμε, αλλά όταν ασχολείσαι με κάτι τέτοιο σε πιάνει OCD :)

nickel · May 29, 2018

ian said:
Για την πρώτη χρήση ωστόσο δεν έχω ξεκάθαρο θεωρητικά αν αρκεί μόνο η στατιστική συχνότητα εμφάνισης για να αξιολογήσω ότι μια λέξη είναι "σωστή" ή όχι

Όχι, χρειάζεται γερό ανθρώπινο μάτι για το ξεκαθάρισμα. Π.χ. η *συνομωσία μπορεί να έχει πάμπολλα διαδικτυακά ευρήματα και να γίνεται δεκτή από κάποιους γνωστούς ηλεκτρονικούς διορθωτές, αλλά είναι καραμπινάτο λάθος. Στο κλιτικό θα πρέπει να δεις και τις συμφράσεις. Π.χ. γράφεις «έχεις παράγει» και το διαδίκτυο έχει πολλά τέτοια ευρήματα, αλλά το «σωστό» είναι «έχεις παραγάγει» και η χρήση έχει επιτρέψει ως τώρα το «έχεις παράξει» μόνο.

ian · May 29, 2018

Η μητρική μου γλώσσα είναι η C++, οπότε συγχωρέστε μου τα λάθη :)

Πάντα είχα αυτή την απορία, εφόσον η γλώσσα είναι ένα φυσικό φαινόμενο και δουλειά του γλωσσολόγου είναι να καταγράψει τη χρήση, ως προς τι ορίζεται το σωστό και το λάθος;

Earion · May 30, 2018

Καλημέρα Ian, και καλώς ήρθες στο φόρουμ.

«Ως προς τι ορίζεται το σωστό και το λάθος»;

Χα χα! Τέτοιες ερωτήσεις δεν τις κάνουν οι ευγενικοί άνθρωποι με το «καλημέρα σας» :twit:

Zazula · May 30, 2018

ian said:
Η μητρική μου γλώσσα είναι η C++, οπότε συγχωρέστε μου τα λάθη :)

Πολύ καλό! :laugh:

ian said:
Πάντα είχα αυτή την απορία, εφόσον η γλώσσα είναι ένα φυσικό φαινόμενο και δουλειά του γλωσσολόγου είναι να καταγράψει τη χρήση, ως προς τι ορίζεται το σωστό και το λάθος;

Στη γλωσσολογία λάθος είναι μόνον κάτι αντιγραμματικό που θα δεις αποκλειστικά από μη φυσικούς ομιλητές· οι φυσικοί ομιλητές επί της ουσίας δεν κάνουν λάθη αλλά εξελίσσουν τη γλώσσα (χωρίς ωστόσο αυτό να σημαίνει πως ό,τι προκύπτει επιβιώνει ή εδραιώνεται κιόλα — όπως και στα ζωντανά όντα κάθε μετάλλαξη δεν είναι σίγουρο ότι θα επιβιώσει ή θα κυριαρχήσει· αλλά απ' την άλλη και κάθε νέα εξέλιξη έχει κι αυτή το ίδιο δικαίωμα στη ζωή). Επίσης στη γλωσσολογία το βάρος δίνεται στον προφορικό λόγο — γι' αυτό και το γεγονός πως χάρη στο ίντερνετ βλέπουμε πώς εκφράζεται φυσικά πολύ ευρύτερο τμήμα του πληθυσμού έχει κάνει τεράστιο καλό. Τέλος, η σύγχρονη γλωσσολογία παρατηρεί και καταγράφει, δεν επιχειρεί να ρυθμίσει. Όσο για την ορθογραφία, μια σύμβαση είναι και —όπως και τα κοινωνικοπολιτικά συμβόλαια— μπορεί να αλλάζει.

drsiebenmal · May 30, 2018

Και ας προσθέσω στο ζαζούλειον πιο πάνω ότι και η γραμματική αποτελεί μια σύμβαση (απλώς μια σύμβαση μακρότερου χρόνου) και άρα και η γραμματική αλλάζει (πολύ πιο αργά, όμως, και συχνά με άνωθεν αποφάσεις ειδικών βλ. Ακαδημία Αθηνών ή πολιτικές αποφάσεις με συμβουλή ειδικών, βλ. μονοτονικό).

Επίσης, αφού εδώ άνοιξε η συζήτηση με ενδιαφέροντα θέματα, αξίζει να αναφέρουμε ότι υπάρχουν και σήμερα fuzzy σημεία της γλώσσας που αποτελούν ναρκοπέδιο για τη γραμματική και όσους ασχολούνταν πάντα με αυτήν. Έγραψα «ασχολούνταν», άλλος μπορεί να έγραφε «ασχολιόνταν» και αυτό είναι π.χ. ένα τέτοιο σημείο γραμματικής ασάφειας.

Και καλωσόρισες. (Και δεν αρχίζουμε ποτέ προτάσεις με «και».) :)

ian · May 30, 2018

Συνεπώς η μέθοδος που χρησιμοποίησα για το λεξικό, δηλαδή να πάρω τις λέξεις του Τριανταφυλλίδη και να τις κλίνω σύμφωνα με τους κανόνες που δίνει, είναι λίγο πολύ λάθος.

Θεωρητικά πάντα, ο ιδανικός τρόπος για να μελετηθεί η γραμματική χρήση της γλώσσας, είναι να καταγραφεί κάθε μόρφημα που έχει χρησιμοποιηθεί και να κατηγοριοποιηθεί σύμφωνα με τους ισχύοντες μηχανισμούς της γλώσσας, κάθε μόρφημα συνοδευόμενο με τη συχνότητα εμφάνισης. (Έχοντας ένα στατιστικό κατώφλι θορύβου, π.χ. τυπογραφικά λάθη)

Στην πράξη τώρα, ένα λεξικό αποτυπώνει ένα τρέχον στιγμιότυπο της γλώσσας, τίποτα περισσότερο τίποτα λιγότερο.

Προσεγγίσεις τύπου "το λέμε σωστά το γράφουμε σωστά;" είναι ενδιαφέροντες μεν, χωρίς πρακτική χρησιμότητα δε.

Δεν έχω ο ίδιος γνώμη επί του θέματος, απλά το παρατηρώ με όλη την τυπολατρία που συνοδεύει το αντικείμενό μου.

nickel · May 30, 2018

Καλημέρα. Να καταλάβω: Θέλεις μια συλλογή των διάφορων μορφολογικών εκδοχών που κυκλοφορούν, ίσως με κάποιον μετρητή που να κόβει ό,τι έχει κάτω από έναν αριθμό εμφανίσεων στο διαδίκτυο; Π.χ. 67% συνωμοσία, 29% συνομωσία; Ενδιαφέρον θα έχει για μελέτη, από γλωσσολόγους που μελετούν αυτά τα πράγματα. 'Η θέλεις έναν οδηγό για την κλίση των κλινόμενων λέξεων που θα μπορούν να χρησιμοποιούν άφοβα κάποιοι που θέλουν να προσέξουν το γραπτό τους επειδή θα το κρίνουν κάποιοι άλλοι (π.χ. μαθητές και φοιτητές, συγγραφείς, μεταφραστές, δημοσιογράφοι, υπάλληλοι του δημόσιου και ιδιωτικού τομέα, διάφοροι δημοσιογραφούντες που δεν θέλουν να ρεζιλεύονται επιδεικνύοντας αμορφωσιά ή προχειρότητα, κ.ά.); Σε τέτοιες περιπτώσεις τα ευαίσθητα, υπεύθυνα και έγκυρα συγγράμματα για την (προτεινόμενη, έστω) σωστή χρήση έχουν 100% πρακτική χρησιμότητα.

Zazula · May 30, 2018

Αν πάρεις ένα λεξικό με τόσες ελλείψεις (πλέον), και με συντηρητική άποψη για τη γεν. πληθ. πολλών θηλυκών —όπως είναι το ΛΚΝ— τότε θα βγάλεις ένα καλό κι αποδεκτό μορφολογικό λεξικό που θα δείχνει ~90% τι ισχύει για το λημματολόγιό του — και το υπόλοιπο 10% θα 'ναι πράγματα που ούτε τότε ούτε ακόμη τώρα τα δέχονται κάποιοι, μαζί με πράγματα που ξεπεράστηκαν απ' τις εξελίξεις. Αλλά ως μηχανικός καταλαβαίνω ότι πολύ συχνά η πραγματιστική FAPPική προσέγγιση «good enough for all practical purposes» επαρκεί. Αρκεί στη συνέχεια να μην το εγκαταλείψεις (όπως πια δείχνει να 'χει συμβεί με το ΛΚΝ), επειδή κάθε ζωντανή γλώσσα εξελίσσεται — προσφέροντας ατέλειωτη ευχαρίστηση σ' όσους παρακολουθούν τις αντιδράσεις των ρυθμιστικών. Μην ξεχνάς πως κάποτε το «ήμασταν» ήταν διαλεκτικό (αλήθεια, συ θα συμπεριλάβεις διαλεκτικούς τύπους;), ενώ κάποιοι συνεχίζουν να ορθογραφούν με παλιότερες μορφές (κι εδώ, θα 'χεις εσύ παλιότερους τρόπους γραφής — και με τι κριτήριο συμπερίληψης;). Καλή δύναμη, πάντως!

nickel · May 30, 2018

Zazula said:
αλήθεια, συ θα συμπεριλάβεις διαλεκτικούς τύπους;

Το κλιτικό της Lexigram περιλαμβάνει μια γερή δόση διαλεκτικών τύπων (με την ένδειξη «(προφ.)»).

ian · May 30, 2018

Το καθαρό ενδιαφέρον μου είναι για semantics. Το κίνητρό μου αφορά τη μηχανική μάθηση και τη φιλοσοφία (είμαι Wittgensteinικός). Άλλοι ψαρεύουν :)

Σε αυτή την περίπτωση φαίνεται πως η προσέγγιση good enough for practical purposes μοιάζει καλή. Ωστόσο οι προγραμματιστές έχουμε δυσκολία το βράδυ στον ύπνο εάν έχουμε κατασκευάσει κάτι που μερικές φορές μπορεί να μην δουλεύει.

Το ενδιαφέρον μου για το λεξικό προέκυψε στην πορεία κατά λάθος, καθώς για να μελετήσεις semantics, αναγκαστικά θα μπλέξεις με τη γλώσσα.
Με όλο το θράσος που μου δίνει η υπολογιστική ισχύς και όντας άσχετος, βλέποντας τη δουλειά που έχει γίνει στον Τριανταφυλλίδη, θεώρησα ότι θα είχα τελειώσει σε ένα απόγευμα.

Ωστόσο καταπιάνοντας αυτά τα θέματα, μου κίνησε το ενδιαφέρον η γλώσσα καθεαυτή ως φυσικό φαινόμενο.
Και ειλικρινά απόρησα με τον τρόπο που αντιμετωπίζονται οι πηγές στα ελληνικά. Λες και οι λέξεις είναι copyrighted από κάποιον. Βλέπω μια νοοτροπία, "έγινε κόπος να μαζέψω λέξεις, θα πρέπει να πληρώσεις για να τις πάρεις", (στην πραγματικότητα τις περισσότερες φορές ο κόπος έγινε από φοιτητές υποθέτω) στην εποχή που η διάδοση της πληροφορίας γίνεται όλο και πιο ελεύθερη και ακαριαία.

Δεν (θα έπρεπε να) λειτουργεί έτσι η επιστήμη. Σκεφτείτε αντίστοιχα να έπρεπε να πληρώσει κάποιος για να πάρει τον πίνακα χημικών στοιχείων συνοδευόμενο από όρους χρήσης.

Θεωρώ λοιπόν ότι αφού τα εθνικά ιδρύματα βρίσκονται σε κάποιον άλλον χωροχρόνο και οι εταιρείες είναι εταιρείες, θα έπρεπε να ξεκινήσει μια ανοιχτή σχετική προσπάθεια προσβάσιμη από όλους.

Το ξέρω ότι έχω ανοίξει αρκετά θέματα άσχετα μεταξύ τους οπότε συγχωρέστε με. Ελπίζω ωστόσο να είναι ενδιαφέροντα.

ian · May 30, 2018

nickel said:
Καλημέρα. Να καταλάβω: Θέλεις μια συλλογή των διάφορων μορφολογικών εκδοχών που κυκλοφορούν, ίσως με κάποιον μετρητή που να κόβει ό,τι έχει κάτω από έναν αριθμό εμφανίσεων στο διαδίκτυο; Π.χ. 67% συνωμοσία, 29% συνομωσία; Ενδιαφέρον θα έχει για μελέτη, από γλωσσολόγους που μελετούν αυτά τα πράγματα. 'Η θέλεις έναν οδηγό για την κλίση των κλινόμενων λέξεων που θα μπορούν να χρησιμοποιούν άφοβα κάποιοι που θέλουν να προσέξουν το γραπτό τους επειδή θα το κρίνουν κάποιοι άλλοι (π.χ. μαθητές και φοιτητές, συγγραφείς, μεταφραστές, δημοσιογράφοι, υπάλληλοι του δημόσιου και ιδιωτικού τομέα, διάφοροι δημοσιογραφούντες που δεν θέλουν να ρεζιλεύονται επιδεικνύοντας αμορφωσιά ή προχειρότητα, κ.ά.); Σε τέτοιες περιπτώσεις τα ευαίσθητα, υπεύθυνα και έγκυρα συγγράμματα για την (προτεινόμενη, έστω) σωστή χρήση έχουν 100% πρακτική χρησιμότητα.

Προφανώς δεν το έχω ξεκάθαρα θεωρητικά, αλλά μου φαίνεται λογικό πως αν η γλωσσολογία είναι η μελέτη της χρήσης της γλώσσας, τότε ένα λεξικό δεν είναι παρά μια αποτύπωση και όχι οδηγίες χρήσης. Από όσο καταλαβαίνω τουλάχιστον, δεν έχει ρυθμιστική χρήση. Από εκεί και πέρα, εάν ένα κείμενο σε κάποιους κύκλους κρίνεται ως προς τη φόρμα με κάποιο συμβατικό κριτήριο και όχι ως προς το περιεχόμενο, έχει κοινωνικό και ψυχολογικό ενδιαφέρον, αλλά όχι επιστημονικό. Διορθώστε με εάν έχω παρανοήσει.

Zazula said:
Αν πάρεις ένα λεξικό με τόσες ελλείψεις (πλέον), και με συντηρητική άποψη για τη γεν. πληθ. πολλών θηλυκών —όπως είναι το ΛΚΝ— τότε θα βγάλεις ένα καλό κι αποδεκτό μορφολογικό λεξικό που θα δείχνει ~90% τι ισχύει για το λημματολόγιό του — και το υπόλοιπο 10% θα 'ναι πράγματα που ούτε τότε ούτε ακόμη τώρα τα δέχονται κάποιοι, μαζί με πράγματα που ξεπεράστηκαν απ' τις εξελίξεις. Αλλά ως μηχανικός καταλαβαίνω ότι πολύ συχνά η πραγματιστική FAPPική προσέγγιση «good enough for all practical purposes» επαρκεί. Αρκεί στη συνέχεια να μην το εγκαταλείψεις (όπως πια δείχνει να 'χει συμβεί με το ΛΚΝ), επειδή κάθε ζωντανή γλώσσα εξελίσσεται — προσφέροντας ατέλειωτη ευχαρίστηση σ' όσους παρακολουθούν τις αντιδράσεις των ρυθμιστικών. Μην ξεχνάς πως κάποτε το «ήμασταν» ήταν διαλεκτικό (αλήθεια, συ θα συμπεριλάβεις διαλεκτικούς τύπους;), ενώ κάποιοι συνεχίζουν να ορθογραφούν με παλιότερες μορφές (κι εδώ, θα 'χεις εσύ παλιότερους τρόπους γραφής — και με τι κριτήριο συμπερίληψης;).

Είναι πολύ σωστή παρατήρηση. Όσο το σκέφτομαι λοιπόν όντως φαίνεται καλή ιδέα να εμπλουτιστεί με spider. Από εκεί και πέρα, θα συμπεριλάβω ό,τι χρησιμοποιείται στο internet :) Έχω την αίσθηση πως αν τουλάχιστον έχω ήδη ένα βασικό λεξικό, το να "πέσουν" παρόμοιες μορφές μιας λέξης δεν θα με δυσκολέψει. Για τις εντελώς άγνωστες, ίσως έχει ενδιαφέρον να δω αν θα μπορούσε να λειτουργήσει κάτι που θα έχει εκπαιδευτεί να τις κατατάσσει από παραδείγματα. Δεν ξέρω αν υπάρχει ήδη κάτι σχετικό.

Καλή δύναμη, πάντως!

Ευχαριστώ πολύ :)

nickel · May 31, 2018

ian said:
βλέποντας τη δουλειά που έχει γίνει στον Τριανταφυλλίδη, θεώρησα ότι θα είχα τελειώσει σε ένα απόγευμα.

ian said:
Θεωρώ λοιπόν ότι αφού τα εθνικά ιδρύματα βρίσκονται σε κάποιον άλλον χωροχρόνο και οι εταιρείες είναι εταιρείες, θα έπρεπε να ξεκινήσει μια ανοιχτή σχετική προσπάθεια προσβάσιμη από όλους.

Έστω λοιπόν ότι σε καλεί η Λεξιλογία να φτιάξουμε έναν πλήρη κατάλογο των λέξεων της νέας ελληνικής γλώσσας και των διάφορων αποδεκτών και λιγότερο αποδεκτών τύπων (ή και των μη αποδεκτών αλλά χρησιμοποιούμενων, με σχετική σήμανση). Με παραπομπές σε συζητήσεις για τις περιπτώσεις πολλαπλών τύπων. Με συνεχή εμπλουτισμό με τη βοήθεια της αράχνης. Έτσι που να μπορεί να βρίσκει κάποιος σε ένα σημείο όλους τους τύπους με τους οποίους θα μπορεί να νιώθει ασφαλής. Απλώς ορισμένες φορές θα ρίχνουμε κανένα καβγά για τη σήμανση που θα συνοδεύει π.χ. το επίρρημα επισταμένα.

Πόσο ρεαλιστική θα ήταν μια τέτοια σκέψη;

Zazula · May 31, 2018

nickel said:
Έστω λοιπόν ότι σε καλεί η Λεξιλογία να φτιάξουμε έναν πλήρη κατάλογο των λέξεων της νέας ελληνικής γλώσσας και των διάφορων αποδεκτών και λιγότερο αποδεκτών τύπων (ή και των μη αποδεκτών αλλά χρησιμοποιούμενων, με σχετική σήμανση). Με παραπομπές σε συζητήσεις για τις περιπτώσεις πολλαπλών τύπων. Με συνεχή εμπλουτισμό με τη βοήθεια της αράχνης. Έτσι που να μπορεί να βρίσκει κάποιος σε ένα σημείο όλους τους τύπους με τους οποίους θα μπορεί να νιώθει ασφαλής. Απλώς ορισμένες φορές θα ρίχνουμε κανένα καβγά για τη σήμανση που θα συνοδεύει π.χ. το επίρρημα επισταμένα.

Κανείς καβγάς δεν θα γίνεται, θα του λέω εγώ τι να βάζει. :angel: Άλλωστε συνεννοούμαστε· αυτός είναι φυσικός ομιλητής της C++ κι εγώ της R. :up:

NLP - Μορφολογικό λεξικό

New member

Administrator

New member

Administrator

New member

Administrator

New member

Administrator

New member

Moderator

Administrator

HandyMod

New member

Administrator

Administrator

Administrator

New member

New member

Administrator

Administrator