Καλησπέρα σας
Είμαι μηχανικός λογισμικού και δουλεύω στον ελεύθερο χρόνο μου σε NLP από προσωπικό ενδιαφέρον. Το κυρίως ενδιαφέρον μου είναι σε γνωσιακά συστήματα και τεχνητή νοημοσύνη, αλλά εφόσον κατασκευάζω κάτι από το μηδέν εδώ και κάποιες μέρες έχω ασχοληθεί με την κλίση ουσιαστικών ρημάτων κοκ για τη σύνταξη ενός κλιτικού/μορφολογικού λεξικού που θα μου χρειαστεί μετέπειτα.
Χρησιμοποίησα το λεξικό του ιδρύματος Τριανταφυλλίδη (http://www.greek-language.gr) το οποίο το πέρασα από parser και σε συνδυασμό με τα κλιτικά παραδείγματα έφτιαξα ένα μορφολογικό λεξικό περίπου ~500χιλ μορφημάτων για επίθετα/ουσιαστικά το οποίο σε συνδυασμό με κάποιους αξιόπιστους spellers φαίνεται να έχει περίπου 10% σφάλμα. Είναι προς μελέτη/συμμάζεμα ώστε να ρίξω τα σφάλματα στο μηδέν.
Τα ρήματα με τρόμαξαν λίγο. Παρόλο που το λεξικό δίνει πληροφορίες για την κλίση, πολύ συχνά δεν είναι αρκετά δομημένες καθώς έχουν γίνει από άνθρωπο και χάθηκα λίγο. Κοιτώντας την γραμματική της Philippaki-Warburton κατάλαβα ότι η μέθοδος που χρησιμοποίησα για τα ουσιαστικά, μάλλον είναι αρκετά μεγαλύτερος μπελάς για τα ρήματα.
Σκέφτηκα λοιπόν, προκειμένου να διαχειριστώ τόσες εξαιρέσεις και περιπτώσεις, να εργαστώ ανάποδα. Δηλαδή για να ολοκληρώσω το μορφολογικό λεξικό, αντί να γράψω κώδικα να κλίνει τα ρήματα, να γράψω κώδικα που να αναγνωρίσει από ένα μεγάλο wordlist ρήματα τα οποία έχουν κλιθεί ήδη και να τα τοποθετήσει στη σωστή θέση τους στο μορφολογικό λεξικό.
(Τουλάχιστον όπως το σκέφτομαι είναι σαφώς πιο εύκολο να καταλάβεις ότι το "έτρεξα" είναι αόριστος του "τρέχω" από το να μετατρέψεις το "τρέχω" σε "έτρεξα" και να είσαι 100% σίγουρος ότι είναι σωστό αυτό που έχεις παράγει. Από την άλλη, όσα θέματα δεν ταιριάξουν καθόλου, είναι πιο διαχειρίσιμα από το να ψάχνεις για λάθη που έχεις παράγει.)
Καταρχάς εδώ η απορία μου είναι αν μπορώ να βρω κάπου ελεύθερο ένα τόσο μεγάλο και αξιόπιστο wordlist για τα ελληνικά για να χρησιμοποιήσω για αυτό το σκοπό.
Κατά δεύτερον, διαπίστωσα με λύπη πως γενικά υπάρχουν πολύ λίγες ανοιχτές πηγές και εργαλεία για την ελληνική γλώσσα, ειδικά για NLP και όσες βρήκα δεν φάνηκαν ιδιαίτερα αξιόπιστες ή κάθε άλλο παρά πλήρεις (π.χ το λεξικό του openoffice φάνηκε να έχει ένα αρκετά μεγάλο ποσοστό λαθών και ελλείψεις). Μπορεί βέβαια να κάνω και λάθος και να μην ξέρω πώς να ψάξω πηγές.
Οπότε σκέφτηκα, αφού παιδεύομαι που παιδεύομαι, ας κάνω και κάτι καλό για την κοινότητα. Επειδή λοιπόν τα εργαλεία που κατασκευάζω όπως μορφ.λεξικά, λημματοποιητές και διάφορους άλλους αναλυτές κειμένου δεν με ενδιαφέρουν για εκμετάλλευση, χόμπι είναι άλλωστε, σκοπεύω να τα ανοίξω και να τα διανέμω προς ελεύθερη χρήση, είτε ως online εργαλεία είτε και για κατέβασμα.
Σε αυτό το σημείο δεν ξέρω βέβαια αν θα έχω θέμα με πνευματικά δικαιώματα με τις πηγές που έχω χρησιμοποιήσει, εφόσον έχουν υποστεί τέτοιου είδους επεξεργασία. Έχω υπόψη μου, για παράδειγμα, πως όταν γράφεται ένα λεξικό, οι συγγραφείς συμβουλεύονται άλλα λεξικά και διαλέγουν μια ετυμολογία, οπότε φαντάζομαι ότι δεν τίθεται θέμα, πόσο μάλλον αφού δεν υπάρχει εμπορικό ενδιαφέρον, αλλά θα ήθελα τη γνώμη σας.
Τέλος αν κάποιος έχει παρόμοιες ανησυχίες και ενδιαφέρεται να βοηθήσει να φτιαχτεί κάτι τέτοιο, ή αν ενδιαφέρεται γενικά για τα παραπάνω, ευχαρίστως ας στείλει.
Παρεμπιπτόντως συγχαρητήρια για το forum, μου έχει λύσει ήδη αρκετές απορίες :)
Είμαι μηχανικός λογισμικού και δουλεύω στον ελεύθερο χρόνο μου σε NLP από προσωπικό ενδιαφέρον. Το κυρίως ενδιαφέρον μου είναι σε γνωσιακά συστήματα και τεχνητή νοημοσύνη, αλλά εφόσον κατασκευάζω κάτι από το μηδέν εδώ και κάποιες μέρες έχω ασχοληθεί με την κλίση ουσιαστικών ρημάτων κοκ για τη σύνταξη ενός κλιτικού/μορφολογικού λεξικού που θα μου χρειαστεί μετέπειτα.
Χρησιμοποίησα το λεξικό του ιδρύματος Τριανταφυλλίδη (http://www.greek-language.gr) το οποίο το πέρασα από parser και σε συνδυασμό με τα κλιτικά παραδείγματα έφτιαξα ένα μορφολογικό λεξικό περίπου ~500χιλ μορφημάτων για επίθετα/ουσιαστικά το οποίο σε συνδυασμό με κάποιους αξιόπιστους spellers φαίνεται να έχει περίπου 10% σφάλμα. Είναι προς μελέτη/συμμάζεμα ώστε να ρίξω τα σφάλματα στο μηδέν.
Τα ρήματα με τρόμαξαν λίγο. Παρόλο που το λεξικό δίνει πληροφορίες για την κλίση, πολύ συχνά δεν είναι αρκετά δομημένες καθώς έχουν γίνει από άνθρωπο και χάθηκα λίγο. Κοιτώντας την γραμματική της Philippaki-Warburton κατάλαβα ότι η μέθοδος που χρησιμοποίησα για τα ουσιαστικά, μάλλον είναι αρκετά μεγαλύτερος μπελάς για τα ρήματα.
Σκέφτηκα λοιπόν, προκειμένου να διαχειριστώ τόσες εξαιρέσεις και περιπτώσεις, να εργαστώ ανάποδα. Δηλαδή για να ολοκληρώσω το μορφολογικό λεξικό, αντί να γράψω κώδικα να κλίνει τα ρήματα, να γράψω κώδικα που να αναγνωρίσει από ένα μεγάλο wordlist ρήματα τα οποία έχουν κλιθεί ήδη και να τα τοποθετήσει στη σωστή θέση τους στο μορφολογικό λεξικό.
(Τουλάχιστον όπως το σκέφτομαι είναι σαφώς πιο εύκολο να καταλάβεις ότι το "έτρεξα" είναι αόριστος του "τρέχω" από το να μετατρέψεις το "τρέχω" σε "έτρεξα" και να είσαι 100% σίγουρος ότι είναι σωστό αυτό που έχεις παράγει. Από την άλλη, όσα θέματα δεν ταιριάξουν καθόλου, είναι πιο διαχειρίσιμα από το να ψάχνεις για λάθη που έχεις παράγει.)
Καταρχάς εδώ η απορία μου είναι αν μπορώ να βρω κάπου ελεύθερο ένα τόσο μεγάλο και αξιόπιστο wordlist για τα ελληνικά για να χρησιμοποιήσω για αυτό το σκοπό.
Κατά δεύτερον, διαπίστωσα με λύπη πως γενικά υπάρχουν πολύ λίγες ανοιχτές πηγές και εργαλεία για την ελληνική γλώσσα, ειδικά για NLP και όσες βρήκα δεν φάνηκαν ιδιαίτερα αξιόπιστες ή κάθε άλλο παρά πλήρεις (π.χ το λεξικό του openoffice φάνηκε να έχει ένα αρκετά μεγάλο ποσοστό λαθών και ελλείψεις). Μπορεί βέβαια να κάνω και λάθος και να μην ξέρω πώς να ψάξω πηγές.
Οπότε σκέφτηκα, αφού παιδεύομαι που παιδεύομαι, ας κάνω και κάτι καλό για την κοινότητα. Επειδή λοιπόν τα εργαλεία που κατασκευάζω όπως μορφ.λεξικά, λημματοποιητές και διάφορους άλλους αναλυτές κειμένου δεν με ενδιαφέρουν για εκμετάλλευση, χόμπι είναι άλλωστε, σκοπεύω να τα ανοίξω και να τα διανέμω προς ελεύθερη χρήση, είτε ως online εργαλεία είτε και για κατέβασμα.
Σε αυτό το σημείο δεν ξέρω βέβαια αν θα έχω θέμα με πνευματικά δικαιώματα με τις πηγές που έχω χρησιμοποιήσει, εφόσον έχουν υποστεί τέτοιου είδους επεξεργασία. Έχω υπόψη μου, για παράδειγμα, πως όταν γράφεται ένα λεξικό, οι συγγραφείς συμβουλεύονται άλλα λεξικά και διαλέγουν μια ετυμολογία, οπότε φαντάζομαι ότι δεν τίθεται θέμα, πόσο μάλλον αφού δεν υπάρχει εμπορικό ενδιαφέρον, αλλά θα ήθελα τη γνώμη σας.
Τέλος αν κάποιος έχει παρόμοιες ανησυχίες και ενδιαφέρεται να βοηθήσει να φτιαχτεί κάτι τέτοιο, ή αν ενδιαφέρεται γενικά για τα παραπάνω, ευχαρίστως ας στείλει.
Παρεμπιπτόντως συγχαρητήρια για το forum, μου έχει λύσει ήδη αρκετές απορίες :)