NLP - Μορφολογικό λεξικό

Zazula

Administrator
Staff member
Να (δημο)ψηφίζουμε δεν γίνεται, καλοί κύριοι; :p
H γλωσσική έκφραση είναι ατομικό δικαίωμα, και τα ατομικά δικαιώματα δεν τίθενται σε αμεσοδημοκρατικές διαδικασίες. :twit:
 

ian

New member
Έστω λοιπόν ότι σε καλεί η Λεξιλογία να φτιάξουμε έναν πλήρη κατάλογο των λέξεων της νέας ελληνικής γλώσσας και των διάφορων αποδεκτών και λιγότερο αποδεκτών τύπων (ή και των μη αποδεκτών αλλά χρησιμοποιούμενων, με σχετική σήμανση). Με παραπομπές σε συζητήσεις για τις περιπτώσεις πολλαπλών τύπων. Με συνεχή εμπλουτισμό με τη βοήθεια της αράχνης. Έτσι που να μπορεί να βρίσκει κάποιος σε ένα σημείο όλους τους τύπους με τους οποίους θα μπορεί να νιώθει ασφαλής. Απλώς ορισμένες φορές θα ρίχνουμε κανένα καβγά για τη σήμανση που θα συνοδεύει π.χ. το επίρρημα επισταμένα.

Πόσο ρεαλιστική θα ήταν μια τέτοια σκέψη;

Η ελάχιστη μορφή ενός τέτοιου καταλόγου φαντάζομαι θα ήταν της μορφής

μόρφημα,[κατηγορία],λήμμα,συχνότητα,timestamp

αν καταλαβαίνω καλά αυτό που προτείνεις είναι
μόρφημα,[κατηγορία],λήμμα,συχνότητα,timestamp,link για τσακωμό

όπου κατηγορία θα ήταν τα γραμματικά flags (ουσ.ονομαστική.ενικός) και το timestamp θα έδινε περισσότερο ενδιαφέρον στους καυγάδες. Ενδεχομένως θα μπορούσε να εμπλουτιστεί κι άλλο.

Το να είναι διαθέσιμα αυτά τα δεδομένα από τη Λεξιλογία είναι ρεαλιστική σκέψη. Δεδομένου ωστόσο ότι μια τέτοια βάση δεδομένων θα είχε έστω ~1-2 εκατομμύρια μορφήματα, ποιός και με ποιο κριτήριο θα αποφάσιζε για το αν ένα μόρφημα είναι αποδεκτό ή όχι; (φαντάζομαι θα είχε link σε κάθε εγγραφή -> Fight now)

Γενικά πάντως, το spider όντως με ενθουσίασε ως ιδέα, ωστόσο όσο το σκέφτομαι παρουσιάζει προβλήματα που δεν ξέρω αν ξέρω να προσεγγίσω θεωρητικά. Αν απλά αμολήσεις ένα πρόγραμμα, είναι πιθανό να θεωρήσεις ότι η πιο χρησιμοποιημένη φράση στα ελληνικά είναι αν αποδέχεσαι τα cookies.

Είδα ότι υπάρχουν papers που περιγράφουν κάποιους αλγορίθμους που έχουν χρησιμοποιηθεί στην κατασκευή μεγάλων web corpus (για παράδειγμα http://corpus.tools/), κάποιοι εκ των οποίων επιλύουν θέματα όπως το προηγούμενο, αλλά δεν γνωρίζω εάν πρέπει να ληφθούν επιπλέον περιορισμοί για το filtering των δεδομένων για να κατασκευαστεί ένα corpus για αυτή τη συγκεκριμένη χρήση.

Για παράδειγμα, το site της Καθημερινής έχει τη συνωμοσία ως συνωμοσία 500 φορές και ως συνομωσία 50 ενώ το blog A έχει τη συνομωσία 150. Ποιός είναι ο πιο ρεαλιστικός τρόπος να μετρήσεις τη συχνότητα, δεδομένου ότι το blog A έχει γραφτεί από ένα άτομο (αλλά ο αλγόριθμος δεν το ξέρει);

Τι μέγεθος θα έπρεπε θεωρητικά να έχει ένα corpus ώστε τέτοια προβλήματα να χαθούν μέσα στην στατιστική; Προφανώς δεν έχεις τα resources της google, επομένως έχει νόημα να θέσεις a priori θεωρητικά κριτήρια για να έχεις αντιπροσωπευτικό δείγμα ή χαλάς έτσι το δείγμα;

Νομίζω αν καθίσω θα σκεφτώ και άλλα.

Να (δημο)ψηφίζουμε δεν γίνεται, καλοί κύριοι; :p
Θα ψηφίζουν οι μηχανές.
 

nickel

Administrator
Staff member
Καλημέρα. Στις έγκυρες απορίες σου, Ian, θα επιχειρήσω να απαντήσω αργότερα. Υποτίθεται ότι κάνω διακοπές αυτές τις μέρες. :)

Για την ψηφοφορία, θα ορίσουμε μια επιτροπή τριών ατόμων, να ψηφίζουν αυτοί και να έχουν την ευθύνη.
 
Δεδομένης της απίστευτης συχνότητας και ποσότητας αυτόματης αναπαραγωγής υλικού μέσω συνδρομητικών υπηρεσιών, RSS, κλπ., νομίζω ότι η εικόνα που θα έδινε ένα spider για τον ελληνικό λόγο στον Ιστό, θα ήταν στρεβλή.

Θαρρώ πώς χρειάζεται ανθρώπινη επιλογή των πηγών - ιστοτόπων, οπότε μπαίνουν άλλα ζητήματα -αυθαιρεσίας στις αποφάσεις, κλπ.
 

drsiebenmal

HandyMod
Staff member
Δεδομένης της απίστευτης συχνότητας και ποσότητας αυτόματης αναπαραγωγής υλικού μέσω συνδρομητικών υπηρεσιών, RSS, κλπ., νομίζω ότι η εικόνα που θα έδινε ένα spider για τον ελληνικό λόγο στον Ιστό, θα ήταν στρεβλή.
Δεν μπορεί να αποκλείονται αυτές οι πηγές που είναι ταυτόσημες με μια προηγούμενη, αρχική;
 

nickel

Administrator
Staff member
Δεν αποκλείεται να αποκλειστούν όμοια κείμενα, αλλά εδώ δεν έχουμε συζητήσει μήπως έχουμε συγκεκριμένες πηγές.
 

Zazula

Administrator
Staff member
Τα ρίχνεις όλα μέσα, και υποθέτεις (αρκετά βάσιμα) ότι οι συνδρομητικές υπηρεσίες και τα RSS θα αφορούν πολύ συχνότερα πηγές που είναι πιο περιποιημένες γλωσσικά (έστω και θεωρητικά), όπως ειδησεογραφικά σάιτ, εταιρικοί ιστότοποι, προσεγμένα ιστολόγια κλπ — κι άρα δεν πρόκειται να σου χαλάσουν την πρώτη ύλη προσδίδοντας μεγεθυμένη απεικόνιση σε ελάχιστα χρησιμοποιούμενους τύπους ή χρήσεις. Προσέγγιση FAPP, παίδες.
 

ian

New member
Με είχε προβληματίσει αυτό, το ότι η αναπαραγωγή κυρίως ειδήσεων, όντως μπορεί να δημιουργήσει στρεβλή εικόνα της χρήσης.

Νομίζω ότι μια λογική προσέγγιση είναι όντως να αγνοούνται κείμενα που έχει ξαναδεί.

Ο όγκος κειμένων ωστόσο είναι τεράστιος για να γίνει πρακτικά κάτι τέτοιο, οπότε μια τεχνική λύση είναι να υπολογίζεται (μάλλον ανά παράγραφο και αφού έχει γίνει το tokenization) ένα hash του κειμένου. Οπότε στην ουσία θα αγνοεί κομμάτια κειμένου που έχουν την ίδια ψηφιακή υπογραφή, κάτι που είναι πολύ πιο οικονομικό και εύκολα υλοποιήσιμο.

Αν έχω όσο χρόνο έχω υπολογίσει, σε λίγες μέρες λογικά θα ανεβάσω μια πρώιμη έκδοση του spider σε έναν server με αρκετά μεγάλη γραμμή (κάπου 1gbps) και σκοπεύω να δίνει ένα live link με τα τρέχοντα αποτελέσματα.

Έχει αρκετές τεχνικές δυσκολίες αλλά είναι αρκετά ενδιαφέρουσες.
 

ian

New member
Μια σκέψη ακόμα για να απαντήσω σε μερικούς προβληματισμούς που άνοιξα πιο πριν.

Τις πρώτες μέρες των μηχανών αναζήτησης ήταν λίγο πολύ αυτονόητο ότι η μηχανή θα πρέπει να σου επιστρέψει ψηλότερα τις σελίδες που εμφανίζεται συχνά ο όρος που ψάχνεις.

Αυτό που η Google έκανε διαφορετικά, ήταν να χρησιμοποιήσει το PageRank με το οποίο η μηχανή αναζήτησης λάμβανε υπόψη την αξιοπιστία της σελίδας.

Ο συντελεστής αξιοπιστίας μιας σελίδας υπολογιζόταν χοντρικά σε συνάρτηση του πόσες άλλες σελίδες δείχνουν σε αυτή.

Μια σκέψη τώρα πάνω σε αυτό είναι ότι κατ' αντιστοιχία μπορεί να συμμετέχει ένας τέτοιος όρος αξιοπιστίας στην κατασκευή ενός λεξικού.

Έτσι η "συνωμοσία" της Καθημερινής θα είναι (μάλλον) ψηλότερα από τη "συνομωσία" ενός blog, ανεξάρτητα από τη συχνότητα εμφάνισης.

Κάτι τέτοιο ταυτίζει τη δημοφιλία ενός site με την "ορθή" χρήση της γλώσσας, κάτι που δεν μου είναι προφανές γλωσσολογικά.

Ωστόσο κάποιος θα μπορούσε να υποστηρίξει ότι όσο πιο δημοφιλές είναι ένα site, τόσο μεγαλύτερες πιθανότητες έχει να επηρεάσει στο τέλος τη χρήση της γλώσσας. Ή τουλάχιστον του γραπτού λόγου.

Αναρωτιέμαι πώς φαίνεται αυτή η ιδέα σε γλωσσολόγους :)
 

Zazula

Administrator
Staff member
Κάτι τέτοιο ταυτίζει τη δημοφιλία ενός site με την "ορθή" χρήση της γλώσσας, κάτι που δεν μου είναι προφανές γλωσσολογικά.

Ωστόσο κάποιος θα μπορούσε να υποστηρίξει ότι όσο πιο δημοφιλές είναι ένα site, τόσο μεγαλύτερες πιθανότητες έχει να επηρεάσει στο τέλος τη χρήση της γλώσσας. Ή τουλάχιστον του γραπτού λόγου.

Αναρωτιέμαι πώς φαίνεται αυτή η ιδέα σε γλωσσολόγους :)
H δημοφιλία είναι ο ασφαλέστερος γλωσσολογικός δείκτης για την ορθότητα, αυτό είναι η θεμελιώδης αρχή της περιγραφικής γλωσσολογίας. Usus est norma loquendi.
 
Να μη μπλέξουμε όμως τη δημοφιλία του σάιτ με τη δημοφιλία των γλωσσικών τύπων.

Επίσης, η ορθογραφία είναι σε πολύ μεγάλο βαθμό σύμβαση, άρα υπόκειται λιγότερο στον κανόνα της πλειοψηφίας απ' ό,τι άλλες πτυχές της γλώσσας.
 

Zazula

Administrator
Staff member
Για δεκαετίες οι εφημερίδες διαμόρφωναν τη χρησιμοποιούμενη γλώσσα. Στις εφημερίδες οφείλουμε και την πίεση για την υιοθέτηση του μονοτονικού — που αφορά τις ορθογραφικές συμβάσεις. Η δημοφιλία συγκεκριμένων εφημερίδων παλιότερα, και ιστοτόπων σήμερα, ρίχνει νερό στον μύλο της γλωσσικής εξέλιξης — κι ενίοτε δρα καταλυτικά. Παρότι κι εγώ δεν ταυτίζω τη δημοφιλία (ή την αίσθηση κύρους, ξερωγώ) μιας ιστοσελίδας με τη συχνότητα χρήσης ενός γλωσσικού τύπου, η αλήθεια είναι πως όσο περισσότεροι βλέπουν ή ακούν κάτι, τόσο περισσότερο αυτό διαδίδεται.
 
Δεν είναι μόνο οι ειδήσεις που αναπαράγονται κοπιπαστί.

Υπάρχουν ολόκληρα δίκτυα ιστολογίων - ιστοσελίδων, που αναπαράγουν την ίδια σαβούρα -κατά κανόνα- ακριβώς για να γεμίσουν τον ιστό με αυτήν. Πρόχειρα παραδείγματα, ακροδεξιά δίκτυα, δίκτυα συνωμοσιολογίας, τσαρλατανισμού, κλπ. Σχεδόν όλα κλικοπαγίδες…

Και για να μην αναγνωρίζονται εύκολα φροντίζουν συχνά να έχουν διαφορετική εισαγωγική παράγραφο, ή αναδιάταξη στο κείμενο. Άμα τους δώσεις και pagerank θα τους ανεβάσεις στα ύψη, εκτός αν μπορείς να εντοπίσεις συστάδες, με ανάλυση δικτύων - γράφων.
 
Και λίγες πηγές θα μπορούσαν να έχουν α πριόρι αξιοπιστία για σωστούς τύπους. Εδώ, στα μισά πανεπιστήμια, οι σημειώσεις κι οι διαφάνειες και οι σελίδες μαθήματος, μιλάνε για αντικειμενοστραφή προγραμματισμό, κι αν τους πεις κάτι, σου λένε «και το γκουγκλ αυτό βγάζει», τη στιγμή που οι ίδιοι ευθύνονται για αυτό (η βιτσιόζα θηλιά)…
 

algorithm

New member
Όσον αφορά το θέμα έχω φτιάξει ένα μορφολογικό λεξικό με βάση τους κλιτικούς πίνακες που βρίσκονται στο Βικιλεξικό. Το μορφολογικό λεξικό είναι σε μορφή βάσης SQL.
Μπορείτε να το κατεβάσετε από εδώ https://github.com/eellak/gsoc2019-greek-morpho.

Επιπλέον περιέχει συνώνυμα, αντώνυμα, ορισμούς, ετυμολογίες, μεταφράσεις, συγγενικές λέξεις, και κανoνικοποίηση λέξεων π.χ. εφτά - επτά.
 

nickel

Administrator
Staff member
Γέρασα και με κουράζουν πια τα προγράμματα που δεν είναι σε επίπεδο «Πατάω ένα κουμπί και βγαίνει μια... εφαρμογή». :-)

Ξέρω, τα καλά κόποις κτώνται. Να δούμε πότε θα φτάσει εδώ η ιεράρχηση κόπων.
 
Top