# NLP - Μορφολογικό λεξικό



## ian (May 29, 2018)

Καλησπέρα σας

Είμαι μηχανικός λογισμικού και δουλεύω στον ελεύθερο χρόνο μου σε NLP από προσωπικό ενδιαφέρον. Το κυρίως ενδιαφέρον μου είναι σε γνωσιακά συστήματα και τεχνητή νοημοσύνη, αλλά εφόσον κατασκευάζω κάτι από το μηδέν εδώ και κάποιες μέρες έχω ασχοληθεί με την κλίση ουσιαστικών ρημάτων κοκ για τη σύνταξη ενός κλιτικού/μορφολογικού λεξικού που θα μου χρειαστεί μετέπειτα.

Χρησιμοποίησα το λεξικό του ιδρύματος Τριανταφυλλίδη (http://www.greek-language.gr) το οποίο το πέρασα από parser και σε συνδυασμό με τα κλιτικά παραδείγματα έφτιαξα ένα μορφολογικό λεξικό περίπου ~500χιλ μορφημάτων για επίθετα/ουσιαστικά το οποίο σε συνδυασμό με κάποιους αξιόπιστους spellers φαίνεται να έχει περίπου 10% σφάλμα. Είναι προς μελέτη/συμμάζεμα ώστε να ρίξω τα σφάλματα στο μηδέν.

Τα ρήματα με τρόμαξαν λίγο. Παρόλο που το λεξικό δίνει πληροφορίες για την κλίση, πολύ συχνά δεν είναι αρκετά δομημένες καθώς έχουν γίνει από άνθρωπο και χάθηκα λίγο. Κοιτώντας την γραμματική της Philippaki-Warburton κατάλαβα ότι η μέθοδος που χρησιμοποίησα για τα ουσιαστικά, μάλλον είναι αρκετά μεγαλύτερος μπελάς για τα ρήματα.

Σκέφτηκα λοιπόν, προκειμένου να διαχειριστώ τόσες εξαιρέσεις και περιπτώσεις, να εργαστώ ανάποδα. Δηλαδή για να ολοκληρώσω το μορφολογικό λεξικό, αντί να γράψω κώδικα να κλίνει τα ρήματα, να γράψω κώδικα που να αναγνωρίσει από ένα μεγάλο wordlist ρήματα τα οποία έχουν κλιθεί ήδη και να τα τοποθετήσει στη σωστή θέση τους στο μορφολογικό λεξικό. 

(Τουλάχιστον όπως το σκέφτομαι είναι σαφώς πιο εύκολο να καταλάβεις ότι το "έτρεξα" είναι αόριστος του "τρέχω" από το να μετατρέψεις το "τρέχω" σε "έτρεξα" και να είσαι 100% σίγουρος ότι είναι σωστό αυτό που έχεις παράγει. Από την άλλη, όσα θέματα δεν ταιριάξουν καθόλου, είναι πιο διαχειρίσιμα από το να ψάχνεις για λάθη που έχεις παράγει.)

Καταρχάς εδώ η απορία μου είναι αν μπορώ να βρω κάπου ελεύθερο ένα τόσο μεγάλο και αξιόπιστο wordlist για τα ελληνικά για να χρησιμοποιήσω για αυτό το σκοπό.

Κατά δεύτερον, διαπίστωσα με λύπη πως γενικά υπάρχουν πολύ λίγες ανοιχτές πηγές και εργαλεία για την ελληνική γλώσσα, ειδικά για NLP και όσες βρήκα δεν φάνηκαν ιδιαίτερα αξιόπιστες ή κάθε άλλο παρά πλήρεις (π.χ το λεξικό του openoffice φάνηκε να έχει ένα αρκετά μεγάλο ποσοστό λαθών και ελλείψεις). Μπορεί βέβαια να κάνω και λάθος και να μην ξέρω πώς να ψάξω πηγές.

Οπότε σκέφτηκα, αφού παιδεύομαι που παιδεύομαι, ας κάνω και κάτι καλό για την κοινότητα. Επειδή λοιπόν τα εργαλεία που κατασκευάζω όπως μορφ.λεξικά, λημματοποιητές και διάφορους άλλους αναλυτές κειμένου δεν με ενδιαφέρουν για εκμετάλλευση, χόμπι είναι άλλωστε, σκοπεύω να τα ανοίξω και να τα διανέμω προς ελεύθερη χρήση, είτε ως online εργαλεία είτε και για κατέβασμα.

Σε αυτό το σημείο δεν ξέρω βέβαια αν θα έχω θέμα με πνευματικά δικαιώματα με τις πηγές που έχω χρησιμοποιήσει, εφόσον έχουν υποστεί τέτοιου είδους επεξεργασία. Έχω υπόψη μου, για παράδειγμα, πως όταν γράφεται ένα λεξικό, οι συγγραφείς συμβουλεύονται άλλα λεξικά και διαλέγουν μια ετυμολογία, οπότε φαντάζομαι ότι δεν τίθεται θέμα, πόσο μάλλον αφού δεν υπάρχει εμπορικό ενδιαφέρον, αλλά θα ήθελα τη γνώμη σας.

Τέλος αν κάποιος έχει παρόμοιες ανησυχίες και ενδιαφέρεται να βοηθήσει να φτιαχτεί κάτι τέτοιο, ή αν ενδιαφέρεται γενικά για τα παραπάνω, ευχαρίστως ας στείλει.

Παρεμπιπτόντως συγχαρητήρια για το forum, μου έχει λύσει ήδη αρκετές απορίες :)


----------



## nickel (May 29, 2018)

Καλησπέρα, Ian, και καλωσήρθες στη Λεξιλογία.

Πριν συζητήσουμε περισσότερο, θα πρέπει να σε παραπέμψω στη lexigram, για να δεις εκεί τα κλιτικά λεξικά αρχαίας και νέας ελληνικής του Γιώργου Μαλακού. (Και το λεξικό συνωνύμων.)

Περισσότερα αργότερα.

Lexigram: https://www.lexigram.gr/
Κλιτικό της ΝΕ: https://www.lexigram.gr/lex/newg/#Hist0


----------



## ian (May 29, 2018)

nickel σε ευχαριστώ πολύ για την παραπομπή. Γνωρίζω τη δουλειά της lexigram, η οποία παρεμπιπτόντως είναι αξιέπαινη.

Από όσο γνωρίζω ωστόσο δεν είναι διαθέσιμη, παρά μόνο online.


----------



## nickel (May 29, 2018)

Οπότε, μια απορία μου είναι: Η δουλειά (που είναι τεράστια) γίνεται για να βρεις τον καλύτερο τρόπο αντιμετώπισης του προγραμματιστικού προβλήματος;

Επίσης: Έχεις δίκιο, οι πηγές που σε ενδιαφέρουν και υπάρχουν για δημόσια χρήση δεν είναι εντυπωσιακές. 

Κάποια ενδιαφέρουσα συλλογή πρέπει να βρίσκεται στο Kέντρο Eρεύνης Eπιστημονικών Όρων και Nεολογισμών της Ακαδημίας Αθηνών. Ξέρω ότι ενημερώνεται συνεχώς από το διαδίκτυο, αλλά δεν ξέρω αν είναι διατεθειμένοι να τη μοιραστούν.


----------



## ian (May 29, 2018)

Να διευκρινίσω.

Το μορφολογικό λεξικό και τα συναφή μου χρειάζονται μετέπειτα σε έρευνα σε semantics. Θα το έκανα ούτως ή άλλως. 

Ωστόσο βλέποντας ότι για τα ελληνικά, σε αντίθεση με άλλες γλώσσες, οι σχετικές πηγές είναι κλειστές για λόγους που δεν κατανοώ, σκέφτηκα να γλιτώσω τον επόμενο που θα ασχοληθεί. Δεν ζω από αυτό, ούτε μου είναι σοβαρός κόπος να τα ανεβάσω.

Προέρχομαι από θετικές επιστήμες, συνεπώς δεν μπορώ να εκτιμήσω αν είναι τεράστια δουλειά.

Ωστόσο για να παράγω τα μορφήματα των ουσ/επιθέτων χρειάστηκα 1-2 απογεύματα. Υπάρχει ένα σφάλμα ~10%, αλλά είναι περιπτώσεις όπως η λέξη "αλκυονίδες" που έχει το λεξικό του Τριανταφυλλίδη (ο αλγόριθμος θα περίμενε τη λέξη αλκυονίδα αν υπάρχει) ή κάποια παρόμοια που έπιασα αντιπαραβάλλοντας αυτό που παράγω με spellers. Το καλό είναι ότι τα λάθη επαναλαμβάνονται, συνεπώς και διορθώνονται μαζικά.

Είναι λίγο δουλειά χαμάλη, αλλά θα ασχοληθώ να το τελειώσω. :)

Για τα ρήματα ωστόσο, αν και πολύ λιγότερα (<7000), μου φάνηκε προτιμότερο να ξεκινήσω από wordlist και να κινηθώ προς το μορφ.λεξικό και όχι το ανάποδο. Αν δεν βρεθεί, λογικά θα κάνω το ίδιο που έκανα στα ονόματα.

Σε ευχαριστώ για την πρόταση της Ακαδημίας, δεν ήξερα ότι υπήρχε. Είναι πολύ πιθανό να αρνηθούν, αλλά θα τους ρωτήσω.


----------



## nickel (May 29, 2018)

ian said:


> Σε ευχαριστώ για την πρόταση της Ακαδημίας, δεν ήξερα ότι υπήρχε. Είναι πολύ πιθανό να αρνηθούν, αλλά θα τους ρωτήσω.



Συγκεντρώνουν νέο λεξιλόγιο με αράχνη που κυκλοφορεί στο διαδίκτυο και μαζεύει νέο υλικό, το συγκρίνει με την πλούσια βάση που είχαν για ξεκίνημα και εμπλουτίζουν συνεχώς, και έτσι εντοπίζουν οτιδήποτε καινούργιο.


----------



## ian (May 29, 2018)

Ναι το σκέφτομαι σοβαρά να χρησιμοποιήσω spider για να μαζέψω λέξεις και σώματα κειμένων που θα χρειαστώ αργότερα.

Για την πρώτη χρήση ωστόσο δεν έχω ξεκάθαρο θεωρητικά αν αρκεί μόνο η στατιστική συχνότητα εμφάνισης για να αξιολογήσω ότι μια λέξη είναι "σωστή" ή όχι, και αν ναι, πόσο μεγάλο δείγμα χρειάζομαι για να το αποφανθώ αυτό. Όχι ότι θα έπρεπε να με απασχολεί εδώ που τα λέμε, αλλά όταν ασχολείσαι με κάτι τέτοιο σε πιάνει OCD :)


----------



## nickel (May 29, 2018)

ian said:


> Για την πρώτη χρήση ωστόσο δεν έχω ξεκάθαρο θεωρητικά αν αρκεί μόνο η στατιστική συχνότητα εμφάνισης για να αξιολογήσω ότι μια λέξη είναι "σωστή" ή όχι



Όχι, χρειάζεται γερό ανθρώπινο μάτι για το ξεκαθάρισμα. Π.χ. η *_συνομωσία _μπορεί να έχει πάμπολλα διαδικτυακά ευρήματα και να γίνεται δεκτή από κάποιους γνωστούς ηλεκτρονικούς διορθωτές, αλλά είναι καραμπινάτο λάθος. Στο κλιτικό θα πρέπει να δεις και τις συμφράσεις. Π.χ. γράφεις «έχεις παράγει» και το διαδίκτυο έχει πολλά τέτοια ευρήματα, αλλά το «σωστό» είναι «έχεις παραγάγει» και η χρήση έχει επιτρέψει ως τώρα το «έχεις παράξει» μόνο.


----------



## ian (May 29, 2018)

Η μητρική μου γλώσσα είναι η C++, οπότε συγχωρέστε μου τα λάθη :)

Πάντα είχα αυτή την απορία, εφόσον η γλώσσα είναι ένα φυσικό φαινόμενο και δουλειά του γλωσσολόγου είναι να καταγράψει τη χρήση, ως προς τι ορίζεται το σωστό και το λάθος;


----------



## Earion (May 30, 2018)

Καλημέρα Ian, και καλώς ήρθες στο φόρουμ.

«Ως προς τι ορίζεται το σωστό και το λάθος»;  

Χα χα! Τέτοιες ερωτήσεις δεν τις κάνουν οι ευγενικοί άνθρωποι με το «καλημέρα σας» :twit:


----------



## Zazula (May 30, 2018)

ian said:


> Η μητρική μου γλώσσα είναι η C++, οπότε συγχωρέστε μου τα λάθη :)


Πολύ καλό! :laugh:



ian said:


> Πάντα είχα αυτή την απορία, εφόσον η γλώσσα είναι ένα φυσικό φαινόμενο και δουλειά του γλωσσολόγου είναι να καταγράψει τη χρήση, ως προς τι ορίζεται το σωστό και το λάθος;


Στη γλωσσολογία λάθος είναι μόνον κάτι αντιγραμματικό που θα δεις αποκλειστικά από μη φυσικούς ομιλητές· οι φυσικοί ομιλητές επί της ουσίας δεν κάνουν λάθη αλλά εξελίσσουν τη γλώσσα (χωρίς ωστόσο αυτό να σημαίνει πως ό,τι προκύπτει επιβιώνει ή εδραιώνεται κιόλα — όπως και στα ζωντανά όντα κάθε μετάλλαξη δεν είναι σίγουρο ότι θα επιβιώσει ή θα κυριαρχήσει· αλλά απ' την άλλη και κάθε νέα εξέλιξη έχει κι αυτή το ίδιο δικαίωμα στη ζωή). Επίσης στη γλωσσολογία το βάρος δίνεται στον προφορικό λόγο — γι' αυτό και το γεγονός πως χάρη στο ίντερνετ βλέπουμε πώς εκφράζεται φυσικά πολύ ευρύτερο τμήμα του πληθυσμού έχει κάνει τεράστιο καλό. Τέλος, η σύγχρονη γλωσσολογία παρατηρεί και καταγράφει, δεν επιχειρεί να ρυθμίσει. Όσο για την ορθογραφία, μια σύμβαση είναι και —όπως και τα κοινωνικοπολιτικά συμβόλαια— μπορεί να αλλάζει.


----------



## drsiebenmal (May 30, 2018)

Και ας προσθέσω στο ζαζούλειον πιο πάνω ότι και η γραμματική αποτελεί μια σύμβαση (απλώς μια σύμβαση μακρότερου χρόνου) και άρα και η γραμματική αλλάζει (πολύ πιο αργά, όμως, και συχνά με άνωθεν αποφάσεις ειδικών βλ. Ακαδημία Αθηνών ή πολιτικές αποφάσεις με συμβουλή ειδικών, βλ. μονοτονικό).

Επίσης, αφού εδώ άνοιξε η συζήτηση με ενδιαφέροντα θέματα, αξίζει να αναφέρουμε ότι υπάρχουν και σήμερα fuzzy σημεία της γλώσσας που αποτελούν ναρκοπέδιο για τη γραμματική και όσους ασχολούνταν πάντα με αυτήν. Έγραψα «ασχολούνταν», άλλος μπορεί να έγραφε «ασχολιόνταν» και αυτό είναι π.χ. ένα τέτοιο σημείο γραμματικής ασάφειας.

Και καλωσόρισες. (Και δεν αρχίζουμε ποτέ προτάσεις με «και».) :)


----------



## ian (May 30, 2018)

Συνεπώς η μέθοδος που χρησιμοποίησα για το λεξικό, δηλαδή να πάρω τις λέξεις του Τριανταφυλλίδη και να τις κλίνω σύμφωνα με τους κανόνες που δίνει, είναι λίγο πολύ λάθος.

Θεωρητικά πάντα, ο ιδανικός τρόπος για να μελετηθεί η γραμματική χρήση της γλώσσας, είναι να καταγραφεί κάθε μόρφημα που έχει χρησιμοποιηθεί και να κατηγοριοποιηθεί σύμφωνα με τους ισχύοντες μηχανισμούς της γλώσσας, κάθε μόρφημα συνοδευόμενο με τη συχνότητα εμφάνισης. (Έχοντας ένα στατιστικό κατώφλι θορύβου, π.χ. τυπογραφικά λάθη)

Στην πράξη τώρα, ένα λεξικό αποτυπώνει ένα τρέχον στιγμιότυπο της γλώσσας, τίποτα περισσότερο τίποτα λιγότερο.

Προσεγγίσεις τύπου "το λέμε σωστά το γράφουμε σωστά;" είναι ενδιαφέροντες μεν, χωρίς πρακτική χρησιμότητα δε.

Δεν έχω ο ίδιος γνώμη επί του θέματος, απλά το παρατηρώ με όλη την τυπολατρία που συνοδεύει το αντικείμενό μου.


----------



## nickel (May 30, 2018)

Καλημέρα. Να καταλάβω: Θέλεις μια συλλογή των διάφορων μορφολογικών εκδοχών που κυκλοφορούν, ίσως με κάποιον μετρητή που να κόβει ό,τι έχει κάτω από έναν αριθμό εμφανίσεων στο διαδίκτυο; Π.χ. 67% συνωμοσία, 29% συνομωσία; Ενδιαφέρον θα έχει για μελέτη, από γλωσσολόγους που μελετούν αυτά τα πράγματα. 'Η θέλεις έναν οδηγό για την κλίση των κλινόμενων λέξεων που θα μπορούν να χρησιμοποιούν άφοβα κάποιοι που θέλουν να προσέξουν το γραπτό τους επειδή θα το κρίνουν κάποιοι άλλοι (π.χ. μαθητές και φοιτητές, συγγραφείς, μεταφραστές, δημοσιογράφοι, υπάλληλοι του δημόσιου και ιδιωτικού τομέα, διάφοροι δημοσιογραφούντες που δεν θέλουν να ρεζιλεύονται επιδεικνύοντας αμορφωσιά ή προχειρότητα, κ.ά.); Σε τέτοιες περιπτώσεις τα ευαίσθητα, υπεύθυνα και έγκυρα συγγράμματα για την (προτεινόμενη, έστω) σωστή χρήση έχουν 100% πρακτική χρησιμότητα.


----------



## Zazula (May 30, 2018)

Αν πάρεις ένα λεξικό με τόσες ελλείψεις (πλέον), και με συντηρητική άποψη για τη γεν. πληθ. πολλών θηλυκών —όπως είναι το ΛΚΝ— τότε θα βγάλεις ένα καλό κι αποδεκτό μορφολογικό λεξικό που θα δείχνει ~90% τι ισχύει για το λημματολόγιό του — και το υπόλοιπο 10% θα 'ναι πράγματα που ούτε τότε ούτε ακόμη τώρα τα δέχονται κάποιοι, μαζί με πράγματα που ξεπεράστηκαν απ' τις εξελίξεις. Αλλά ως μηχανικός καταλαβαίνω ότι πολύ συχνά η πραγματιστική FAPPική προσέγγιση «good enough for all practical purposes» επαρκεί. Αρκεί στη συνέχεια να μην το εγκαταλείψεις (όπως πια δείχνει να 'χει συμβεί με το ΛΚΝ), επειδή κάθε ζωντανή γλώσσα εξελίσσεται — προσφέροντας ατέλειωτη ευχαρίστηση σ' όσους παρακολουθούν τις αντιδράσεις των ρυθμιστικών. Μην ξεχνάς πως κάποτε το «ήμασταν» ήταν διαλεκτικό (αλήθεια, συ θα συμπεριλάβεις διαλεκτικούς τύπους;), ενώ κάποιοι συνεχίζουν να ορθογραφούν με παλιότερες μορφές (κι εδώ, θα 'χεις εσύ παλιότερους τρόπους γραφής — και με τι κριτήριο συμπερίληψης;). Καλή δύναμη, πάντως!


----------



## nickel (May 30, 2018)

Zazula said:


> αλήθεια, συ θα συμπεριλάβεις διαλεκτικούς τύπους;



Το κλιτικό της Lexigram περιλαμβάνει μια γερή δόση διαλεκτικών τύπων (με την ένδειξη «(προφ.)»).


----------



## ian (May 30, 2018)

Το καθαρό ενδιαφέρον μου είναι για semantics. Το κίνητρό μου αφορά τη μηχανική μάθηση και τη φιλοσοφία (είμαι Wittgensteinικός). Άλλοι ψαρεύουν :)

Σε αυτή την περίπτωση φαίνεται πως η προσέγγιση good enough for practical purposes μοιάζει καλή. Ωστόσο οι προγραμματιστές έχουμε δυσκολία το βράδυ στον ύπνο εάν έχουμε κατασκευάσει κάτι που μερικές φορές μπορεί να μην δουλεύει.

Το ενδιαφέρον μου για το λεξικό προέκυψε στην πορεία κατά λάθος, καθώς για να μελετήσεις semantics, αναγκαστικά θα μπλέξεις με τη γλώσσα. 
Με όλο το θράσος που μου δίνει η υπολογιστική ισχύς και όντας άσχετος, βλέποντας τη δουλειά που έχει γίνει στον Τριανταφυλλίδη, θεώρησα ότι θα είχα τελειώσει σε ένα απόγευμα.

Ωστόσο καταπιάνοντας αυτά τα θέματα, μου κίνησε το ενδιαφέρον η γλώσσα καθεαυτή ως φυσικό φαινόμενο.
Και ειλικρινά απόρησα με τον τρόπο που αντιμετωπίζονται οι πηγές στα ελληνικά. Λες και οι λέξεις είναι copyrighted από κάποιον. Βλέπω μια νοοτροπία, "έγινε κόπος να μαζέψω λέξεις, θα πρέπει να πληρώσεις για να τις πάρεις", (στην πραγματικότητα τις περισσότερες φορές ο κόπος έγινε από φοιτητές υποθέτω) στην εποχή που η διάδοση της πληροφορίας γίνεται όλο και πιο ελεύθερη και ακαριαία.

Δεν (θα έπρεπε να) λειτουργεί έτσι η επιστήμη. Σκεφτείτε αντίστοιχα να έπρεπε να πληρώσει κάποιος για να πάρει τον πίνακα χημικών στοιχείων συνοδευόμενο από όρους χρήσης.

Θεωρώ λοιπόν ότι αφού τα εθνικά ιδρύματα βρίσκονται σε κάποιον άλλον χωροχρόνο και οι εταιρείες είναι εταιρείες, θα έπρεπε να ξεκινήσει μια ανοιχτή σχετική προσπάθεια προσβάσιμη από όλους.

Το ξέρω ότι έχω ανοίξει αρκετά θέματα άσχετα μεταξύ τους οπότε συγχωρέστε με. Ελπίζω ωστόσο να είναι ενδιαφέροντα.


----------



## ian (May 30, 2018)

nickel said:


> Καλημέρα. Να καταλάβω: Θέλεις μια συλλογή των διάφορων μορφολογικών εκδοχών που κυκλοφορούν, ίσως με κάποιον μετρητή που να κόβει ό,τι έχει κάτω από έναν αριθμό εμφανίσεων στο διαδίκτυο; Π.χ. 67% συνωμοσία, 29% συνομωσία; Ενδιαφέρον θα έχει για μελέτη, από γλωσσολόγους που μελετούν αυτά τα πράγματα. 'Η θέλεις έναν οδηγό για την κλίση των κλινόμενων λέξεων που θα μπορούν να χρησιμοποιούν άφοβα κάποιοι που θέλουν να προσέξουν το γραπτό τους επειδή θα το κρίνουν κάποιοι άλλοι (π.χ. μαθητές και φοιτητές, συγγραφείς, μεταφραστές, δημοσιογράφοι, υπάλληλοι του δημόσιου και ιδιωτικού τομέα, διάφοροι δημοσιογραφούντες που δεν θέλουν να ρεζιλεύονται επιδεικνύοντας αμορφωσιά ή προχειρότητα, κ.ά.); Σε τέτοιες περιπτώσεις τα ευαίσθητα, υπεύθυνα και έγκυρα συγγράμματα για την (προτεινόμενη, έστω) σωστή χρήση έχουν 100% πρακτική χρησιμότητα.


Προφανώς δεν το έχω ξεκάθαρα θεωρητικά, αλλά μου φαίνεται λογικό πως αν η γλωσσολογία είναι η μελέτη της χρήσης της γλώσσας, τότε ένα λεξικό δεν είναι παρά μια αποτύπωση και όχι οδηγίες χρήσης. Από όσο καταλαβαίνω τουλάχιστον, δεν έχει ρυθμιστική χρήση. Από εκεί και πέρα, εάν ένα κείμενο σε κάποιους κύκλους κρίνεται ως προς τη φόρμα με κάποιο συμβατικό κριτήριο και όχι ως προς το περιεχόμενο, έχει κοινωνικό και ψυχολογικό ενδιαφέρον, αλλά όχι επιστημονικό. Διορθώστε με εάν έχω παρανοήσει.



Zazula said:


> Αν πάρεις ένα λεξικό με τόσες ελλείψεις (πλέον), και με συντηρητική άποψη για τη γεν. πληθ. πολλών θηλυκών —όπως είναι το ΛΚΝ— τότε θα βγάλεις ένα καλό κι αποδεκτό μορφολογικό λεξικό που θα δείχνει ~90% τι ισχύει για το λημματολόγιό του — και το υπόλοιπο 10% θα 'ναι πράγματα που ούτε τότε ούτε ακόμη τώρα τα δέχονται κάποιοι, μαζί με πράγματα που ξεπεράστηκαν απ' τις εξελίξεις. Αλλά ως μηχανικός καταλαβαίνω ότι πολύ συχνά η πραγματιστική FAPPική προσέγγιση «good enough for all practical purposes» επαρκεί. Αρκεί στη συνέχεια να μην το εγκαταλείψεις (όπως πια δείχνει να 'χει συμβεί με το ΛΚΝ), επειδή κάθε ζωντανή γλώσσα εξελίσσεται — προσφέροντας ατέλειωτη ευχαρίστηση σ' όσους παρακολουθούν τις αντιδράσεις των ρυθμιστικών. Μην ξεχνάς πως κάποτε το «ήμασταν» ήταν διαλεκτικό (αλήθεια, συ θα συμπεριλάβεις διαλεκτικούς τύπους;), ενώ κάποιοι συνεχίζουν να ορθογραφούν με παλιότερες μορφές (κι εδώ, θα 'χεις εσύ παλιότερους τρόπους γραφής — και με τι κριτήριο συμπερίληψης;).



Είναι πολύ σωστή παρατήρηση. Όσο το σκέφτομαι λοιπόν όντως φαίνεται καλή ιδέα να εμπλουτιστεί με spider. Από εκεί και πέρα, θα συμπεριλάβω ό,τι χρησιμοποιείται στο internet :) Έχω την αίσθηση πως αν τουλάχιστον έχω ήδη ένα βασικό λεξικό, το να "πέσουν" παρόμοιες μορφές μιας λέξης δεν θα με δυσκολέψει. Για τις εντελώς άγνωστες, ίσως έχει ενδιαφέρον να δω αν θα μπορούσε να λειτουργήσει κάτι που θα έχει εκπαιδευτεί να τις κατατάσσει από παραδείγματα. Δεν ξέρω αν υπάρχει ήδη κάτι σχετικό.



> Καλή δύναμη, πάντως!


Ευχαριστώ πολύ :)


----------



## nickel (May 31, 2018)

ian said:


> βλέποντας τη δουλειά που έχει γίνει στον Τριανταφυλλίδη, θεώρησα ότι θα είχα τελειώσει σε ένα απόγευμα.





ian said:


> Θεωρώ λοιπόν ότι αφού τα εθνικά ιδρύματα βρίσκονται σε κάποιον άλλον χωροχρόνο και οι εταιρείες είναι εταιρείες, θα έπρεπε να ξεκινήσει μια ανοιχτή σχετική προσπάθεια προσβάσιμη από όλους.




Έστω λοιπόν ότι σε καλεί η Λεξιλογία να φτιάξουμε έναν πλήρη κατάλογο των λέξεων της νέας ελληνικής γλώσσας και των διάφορων αποδεκτών και λιγότερο αποδεκτών τύπων (ή και των μη αποδεκτών αλλά χρησιμοποιούμενων, με σχετική σήμανση). Με παραπομπές σε συζητήσεις για τις περιπτώσεις πολλαπλών τύπων. Με συνεχή εμπλουτισμό με τη βοήθεια της αράχνης. Έτσι που να μπορεί να βρίσκει κάποιος σε ένα σημείο όλους τους τύπους με τους οποίους θα μπορεί να νιώθει ασφαλής. Απλώς ορισμένες φορές θα ρίχνουμε κανένα καβγά για τη σήμανση που θα συνοδεύει π.χ. το επίρρημα _επισταμένα_.

Πόσο ρεαλιστική θα ήταν μια τέτοια σκέψη;


----------



## Zazula (May 31, 2018)

nickel said:


> Έστω λοιπόν ότι σε καλεί η Λεξιλογία να φτιάξουμε έναν πλήρη κατάλογο των λέξεων της νέας ελληνικής γλώσσας και των διάφορων αποδεκτών και λιγότερο αποδεκτών τύπων (ή και των μη αποδεκτών αλλά χρησιμοποιούμενων, με σχετική σήμανση). Με παραπομπές σε συζητήσεις για τις περιπτώσεις πολλαπλών τύπων. Με συνεχή εμπλουτισμό με τη βοήθεια της αράχνης. Έτσι που να μπορεί να βρίσκει κάποιος σε ένα σημείο όλους τους τύπους με τους οποίους θα μπορεί να νιώθει ασφαλής. Απλώς ορισμένες φορές θα ρίχνουμε κανένα καβγά για τη σήμανση που θα συνοδεύει π.χ. το επίρρημα _επισταμένα_.


Κανείς καβγάς δεν θα γίνεται, θα του λέω εγώ τι να βάζει. :angel: Άλλωστε συνεννοούμαστε· αυτός είναι φυσικός ομιλητής της C++ κι εγώ της R. :up:


----------



## drsiebenmal (May 31, 2018)

Να (δημο)ψηφίζουμε δεν γίνεται, καλοί κύριοι;


----------



## Zazula (May 31, 2018)

drsiebenmal said:


> Να (δημο)ψηφίζουμε δεν γίνεται, καλοί κύριοι;


H γλωσσική έκφραση είναι ατομικό δικαίωμα, και τα ατομικά δικαιώματα δεν τίθενται σε αμεσοδημοκρατικές διαδικασίες. :twit:


----------



## ian (May 31, 2018)

nickel said:


> Έστω λοιπόν ότι σε καλεί η Λεξιλογία να φτιάξουμε έναν πλήρη κατάλογο των λέξεων της νέας ελληνικής γλώσσας και των διάφορων αποδεκτών και λιγότερο αποδεκτών τύπων (ή και των μη αποδεκτών αλλά χρησιμοποιούμενων, με σχετική σήμανση). Με παραπομπές σε συζητήσεις για τις περιπτώσεις πολλαπλών τύπων. Με συνεχή εμπλουτισμό με τη βοήθεια της αράχνης. Έτσι που να μπορεί να βρίσκει κάποιος σε ένα σημείο όλους τους τύπους με τους οποίους θα μπορεί να νιώθει ασφαλής. Απλώς ορισμένες φορές θα ρίχνουμε κανένα καβγά για τη σήμανση που θα συνοδεύει π.χ. το επίρρημα _επισταμένα_.
> 
> Πόσο ρεαλιστική θα ήταν μια τέτοια σκέψη;



Η ελάχιστη μορφή ενός τέτοιου καταλόγου φαντάζομαι θα ήταν της μορφής

μόρφημα,[κατηγορία],λήμμα,συχνότητα,timestamp

αν καταλαβαίνω καλά αυτό που προτείνεις είναι
μόρφημα,[κατηγορία],λήμμα,συχνότητα,timestamp,link για τσακωμό

όπου κατηγορία θα ήταν τα γραμματικά flags (ουσ.ονομαστική.ενικός) και το timestamp θα έδινε περισσότερο ενδιαφέρον στους καυγάδες. Ενδεχομένως θα μπορούσε να εμπλουτιστεί κι άλλο.

Το να είναι διαθέσιμα αυτά τα δεδομένα από τη Λεξιλογία είναι ρεαλιστική σκέψη. Δεδομένου ωστόσο ότι μια τέτοια βάση δεδομένων θα είχε έστω ~1-2 εκατομμύρια μορφήματα, ποιός και με ποιο κριτήριο θα αποφάσιζε για το αν ένα μόρφημα είναι αποδεκτό ή όχι; (φαντάζομαι θα είχε link σε κάθε εγγραφή -> Fight now)

Γενικά πάντως, το spider όντως με ενθουσίασε ως ιδέα, ωστόσο όσο το σκέφτομαι παρουσιάζει προβλήματα που δεν ξέρω αν ξέρω να προσεγγίσω θεωρητικά. Αν απλά αμολήσεις ένα πρόγραμμα, είναι πιθανό να θεωρήσεις ότι η πιο χρησιμοποιημένη φράση στα ελληνικά είναι αν αποδέχεσαι τα cookies.

Είδα ότι υπάρχουν papers που περιγράφουν κάποιους αλγορίθμους που έχουν χρησιμοποιηθεί στην κατασκευή μεγάλων web corpus (για παράδειγμα http://corpus.tools/), κάποιοι εκ των οποίων επιλύουν θέματα όπως το προηγούμενο, αλλά δεν γνωρίζω εάν πρέπει να ληφθούν επιπλέον περιορισμοί για το filtering των δεδομένων για να κατασκευαστεί ένα corpus για αυτή τη συγκεκριμένη χρήση.

Για παράδειγμα, το site της Καθημερινής έχει τη συνωμοσία ως συνωμοσία 500 φορές και ως συνομωσία 50 ενώ το blog A έχει τη συνομωσία 150. Ποιός είναι ο πιο ρεαλιστικός τρόπος να μετρήσεις τη συχνότητα, δεδομένου ότι το blog A έχει γραφτεί από ένα άτομο (αλλά ο αλγόριθμος δεν το ξέρει);

Τι μέγεθος θα έπρεπε θεωρητικά να έχει ένα corpus ώστε τέτοια προβλήματα να χαθούν μέσα στην στατιστική; Προφανώς δεν έχεις τα resources της google, επομένως έχει νόημα να θέσεις a priori θεωρητικά κριτήρια για να έχεις αντιπροσωπευτικό δείγμα ή χαλάς έτσι το δείγμα;

Νομίζω αν καθίσω θα σκεφτώ και άλλα.



drsiebenmal said:


> Να (δημο)ψηφίζουμε δεν γίνεται, καλοί κύριοι;


Θα ψηφίζουν οι μηχανές.


----------



## drsiebenmal (May 31, 2018)

ian said:


> Θα ψηφίζουν οι μηχανές.


Το φοβόμουν ότι θα έλεγες κάτι τέτοιο... :)


----------



## nickel (May 31, 2018)

Καλημέρα. Στις έγκυρες απορίες σου, Ian, θα επιχειρήσω να απαντήσω αργότερα. Υποτίθεται ότι κάνω διακοπές αυτές τις μέρες. :)

Για την ψηφοφορία, θα ορίσουμε μια επιτροπή τριών ατόμων, να ψηφίζουν αυτοί και να έχουν την ευθύνη.


----------



## stazybohorn (Jun 3, 2018)

Δεδομένης της απίστευτης συχνότητας και ποσότητας αυτόματης αναπαραγωγής υλικού μέσω συνδρομητικών υπηρεσιών, RSS, κλπ., νομίζω ότι η εικόνα που θα έδινε ένα spider για τον ελληνικό λόγο στον Ιστό, θα ήταν στρεβλή.

Θαρρώ πώς χρειάζεται ανθρώπινη επιλογή των πηγών - ιστοτόπων, οπότε μπαίνουν άλλα ζητήματα -αυθαιρεσίας στις αποφάσεις, κλπ.


----------



## drsiebenmal (Jun 3, 2018)

stazybohorn said:


> Δεδομένης της απίστευτης συχνότητας και ποσότητας αυτόματης αναπαραγωγής υλικού μέσω συνδρομητικών υπηρεσιών, RSS, κλπ., νομίζω ότι η εικόνα που θα έδινε ένα spider για τον ελληνικό λόγο στον Ιστό, θα ήταν στρεβλή.


Δεν μπορεί να αποκλείονται αυτές οι πηγές που είναι ταυτόσημες με μια προηγούμενη, αρχική;


----------



## nickel (Jun 3, 2018)

Δεν αποκλείεται να αποκλειστούν όμοια κείμενα, αλλά εδώ δεν έχουμε συζητήσει μήπως έχουμε συγκεκριμένες πηγές.


----------



## Zazula (Jun 3, 2018)

Τα ρίχνεις όλα μέσα, και υποθέτεις (αρκετά βάσιμα) ότι οι συνδρομητικές υπηρεσίες και τα RSS θα αφορούν πολύ συχνότερα πηγές που είναι πιο περιποιημένες γλωσσικά (έστω και θεωρητικά), όπως ειδησεογραφικά σάιτ, εταιρικοί ιστότοποι, προσεγμένα ιστολόγια κλπ — κι άρα δεν πρόκειται να σου χαλάσουν την πρώτη ύλη προσδίδοντας μεγεθυμένη απεικόνιση σε ελάχιστα χρησιμοποιούμενους τύπους ή χρήσεις. Προσέγγιση FAPP, παίδες.


----------



## ian (Jun 3, 2018)

Με είχε προβληματίσει αυτό, το ότι η αναπαραγωγή κυρίως ειδήσεων, όντως μπορεί να δημιουργήσει στρεβλή εικόνα της χρήσης.

Νομίζω ότι μια λογική προσέγγιση είναι όντως να αγνοούνται κείμενα που έχει ξαναδεί.

Ο όγκος κειμένων ωστόσο είναι τεράστιος για να γίνει πρακτικά κάτι τέτοιο, οπότε μια τεχνική λύση είναι να υπολογίζεται (μάλλον ανά παράγραφο και αφού έχει γίνει το tokenization) ένα hash του κειμένου. Οπότε στην ουσία θα αγνοεί κομμάτια κειμένου που έχουν την ίδια ψηφιακή υπογραφή, κάτι που είναι πολύ πιο οικονομικό και εύκολα υλοποιήσιμο.

Αν έχω όσο χρόνο έχω υπολογίσει, σε λίγες μέρες λογικά θα ανεβάσω μια πρώιμη έκδοση του spider σε έναν server με αρκετά μεγάλη γραμμή (κάπου 1gbps) και σκοπεύω να δίνει ένα live link με τα τρέχοντα αποτελέσματα.

Έχει αρκετές τεχνικές δυσκολίες αλλά είναι αρκετά ενδιαφέρουσες.


----------



## ian (Jun 4, 2018)

Μια σκέψη ακόμα για να απαντήσω σε μερικούς προβληματισμούς που άνοιξα πιο πριν.

Τις πρώτες μέρες των μηχανών αναζήτησης ήταν λίγο πολύ αυτονόητο ότι η μηχανή θα πρέπει να σου επιστρέψει ψηλότερα τις σελίδες που εμφανίζεται συχνά ο όρος που ψάχνεις.

Αυτό που η Google έκανε διαφορετικά, ήταν να χρησιμοποιήσει το PageRank με το οποίο η μηχανή αναζήτησης λάμβανε υπόψη την αξιοπιστία της σελίδας.

Ο συντελεστής αξιοπιστίας μιας σελίδας υπολογιζόταν χοντρικά σε συνάρτηση του πόσες άλλες σελίδες δείχνουν σε αυτή.

Μια σκέψη τώρα πάνω σε αυτό είναι ότι κατ' αντιστοιχία μπορεί να συμμετέχει ένας τέτοιος όρος αξιοπιστίας στην κατασκευή ενός λεξικού.

Έτσι η "συνωμοσία" της Καθημερινής θα είναι (μάλλον) ψηλότερα από τη "συνομωσία" ενός blog, ανεξάρτητα από τη συχνότητα εμφάνισης.

Κάτι τέτοιο ταυτίζει τη δημοφιλία ενός site με την "ορθή" χρήση της γλώσσας, κάτι που δεν μου είναι προφανές γλωσσολογικά.

Ωστόσο κάποιος θα μπορούσε να υποστηρίξει ότι όσο πιο δημοφιλές είναι ένα site, τόσο μεγαλύτερες πιθανότητες έχει να επηρεάσει στο τέλος τη χρήση της γλώσσας. Ή τουλάχιστον του γραπτού λόγου.

Αναρωτιέμαι πώς φαίνεται αυτή η ιδέα σε γλωσσολόγους :)


----------



## Themis (Jun 4, 2018)

ian said:


> Αναρωτιέμαι πώς φαίνεται αυτή η ιδέα σε γλωσσολόγους :)


Ίσως να τους φαίνεται επικίνδυνη μεν, αναπόφευκτη δε.


----------



## Zazula (Jun 4, 2018)

ian said:


> Κάτι τέτοιο ταυτίζει τη δημοφιλία ενός site με την "ορθή" χρήση της γλώσσας, κάτι που δεν μου είναι προφανές γλωσσολογικά.
> 
> Ωστόσο κάποιος θα μπορούσε να υποστηρίξει ότι όσο πιο δημοφιλές είναι ένα site, τόσο μεγαλύτερες πιθανότητες έχει να επηρεάσει στο τέλος τη χρήση της γλώσσας. Ή τουλάχιστον του γραπτού λόγου.
> 
> Αναρωτιέμαι πώς φαίνεται αυτή η ιδέα σε γλωσσολόγους :)


H δημοφιλία είναι ο ασφαλέστερος γλωσσολογικός δείκτης για την ορθότητα, αυτό είναι η θεμελιώδης αρχή της περιγραφικής γλωσσολογίας. Usus est norma loquendi.


----------



## sarant (Jun 4, 2018)

Να μη μπλέξουμε όμως τη δημοφιλία του σάιτ με τη δημοφιλία των γλωσσικών τύπων. 

Επίσης, η ορθογραφία είναι σε πολύ μεγάλο βαθμό σύμβαση, άρα υπόκειται λιγότερο στον κανόνα της πλειοψηφίας απ' ό,τι άλλες πτυχές της γλώσσας.


----------



## Zazula (Jun 4, 2018)

Για δεκαετίες οι εφημερίδες διαμόρφωναν τη χρησιμοποιούμενη γλώσσα. Στις εφημερίδες οφείλουμε και την πίεση για την υιοθέτηση του μονοτονικού — που αφορά τις ορθογραφικές συμβάσεις. Η δημοφιλία συγκεκριμένων εφημερίδων παλιότερα, και ιστοτόπων σήμερα, ρίχνει νερό στον μύλο της γλωσσικής εξέλιξης — κι ενίοτε δρα καταλυτικά. Παρότι κι εγώ δεν ταυτίζω τη δημοφιλία (ή την αίσθηση κύρους, ξερωγώ) μιας ιστοσελίδας με τη συχνότητα χρήσης ενός γλωσσικού τύπου, η αλήθεια είναι πως όσο περισσότεροι βλέπουν ή ακούν κάτι, τόσο περισσότερο αυτό διαδίδεται.


----------



## stazybohorn (Jun 4, 2018)

Δεν είναι μόνο οι ειδήσεις που αναπαράγονται κοπιπαστί.

Υπάρχουν ολόκληρα δίκτυα ιστολογίων - ιστοσελίδων, που αναπαράγουν την ίδια σαβούρα -κατά κανόνα- ακριβώς για να γεμίσουν τον ιστό με αυτήν. Πρόχειρα παραδείγματα, ακροδεξιά δίκτυα, δίκτυα συνωμοσιολογίας, τσαρλατανισμού, κλπ. Σχεδόν όλα κλικοπαγίδες…

Και για να μην αναγνωρίζονται εύκολα φροντίζουν συχνά να έχουν διαφορετική εισαγωγική παράγραφο, ή αναδιάταξη στο κείμενο. Άμα τους δώσεις και pagerank θα τους ανεβάσεις στα ύψη, εκτός αν μπορείς να εντοπίσεις συστάδες, με ανάλυση δικτύων - γράφων.


----------



## stazybohorn (Jun 4, 2018)

Και λίγες πηγές θα μπορούσαν να έχουν α πριόρι αξιοπιστία για σωστούς τύπους. Εδώ, στα μισά πανεπιστήμια, οι σημειώσεις κι οι διαφάνειες και οι σελίδες μαθήματος, μιλάνε για _αντικειμενοστρ*α*φή_ προγραμματισμό, κι αν τους πεις κάτι, σου λένε «και το γκουγκλ αυτό βγάζει», τη στιγμή που οι ίδιοι ευθύνονται για αυτό (η βιτσιόζα θηλιά)…


----------



## algorithm (Aug 10, 2019)

Όσον αφορά το θέμα έχω φτιάξει ένα μορφολογικό λεξικό με βάση τους κλιτικούς πίνακες που βρίσκονται στο Βικιλεξικό. Το μορφολογικό λεξικό είναι σε μορφή βάσης SQL.
Μπορείτε να το κατεβάσετε από εδώ https://github.com/eellak/gsoc2019-greek-morpho.

Επιπλέον περιέχει συνώνυμα, αντώνυμα, ορισμούς, ετυμολογίες, μεταφράσεις, συγγενικές λέξεις, και κανoνικοποίηση λέξεων π.χ. εφτά - επτά.


----------



## nickel (Aug 11, 2019)

Γέρασα και με κουράζουν πια τα προγράμματα που δεν είναι σε επίπεδο «Πατάω ένα κουμπί και βγαίνει μια... εφαρμογή». 

Ξέρω, τα καλά κόποις κτώνται. Να δούμε πότε θα φτάσει εδώ η ιεράρχηση κόπων.


----------

