Page 3 of 4 FirstFirst 1 2 3 4 LastLast
Results 21 to 30 of 39

Thread: NLP - Μορφολογικό λεξικό

  1. #21
    HandyMod drsiebenmal's Avatar
    Join Date
    Mar 2009
    Location
    Athens, Greece
    Posts
    28,497
    Gender
    Male
    Να (δημο)ψηφίζουμε δεν γίνεται, καλοί κύριοι;
    Wer die Wahrheit nicht weiß, der ist bloß ein Dummkopf. Aber wer sie weiß, und sie eine Lüge nennt, der ist ein Verbrecher!
    We base decisions on facts, not superstition, not what our ideology tells us but rather what we can observe

    δεῖ δὲ χρημάτων, καὶ ἄνευ τούτων οὐδὲν ἔστι γενέσθαι τῶν δεόντων
    Η Ελλάδα είναι Ευρώπη, η Ευρώπη είναι Ελλάδα!

  2. #22
    Administrator Zazula's Avatar
    Join Date
    Feb 2008
    Location
    127.0.0.1
    Posts
    17,413
    Gender
    Male
    Quote Originally Posted by drsiebenmal View Post
    Να (δημο)ψηφίζουμε δεν γίνεται, καλοί κύριοι;
    H γλωσσική έκφραση είναι ατομικό δικαίωμα, και τα ατομικά δικαιώματα δεν τίθενται σε αμεσοδημοκρατικές διαδικασίες.

  3. #23
    Junior Member
    Join Date
    May 2018
    Posts
    11
    Quote Originally Posted by nickel View Post
    Έστω λοιπόν ότι σε καλεί η Λεξιλογία να φτιάξουμε έναν πλήρη κατάλογο των λέξεων της νέας ελληνικής γλώσσας και των διάφορων αποδεκτών και λιγότερο αποδεκτών τύπων (ή και των μη αποδεκτών αλλά χρησιμοποιούμενων, με σχετική σήμανση). Με παραπομπές σε συζητήσεις για τις περιπτώσεις πολλαπλών τύπων. Με συνεχή εμπλουτισμό με τη βοήθεια της αράχνης. Έτσι που να μπορεί να βρίσκει κάποιος σε ένα σημείο όλους τους τύπους με τους οποίους θα μπορεί να νιώθει ασφαλής. Απλώς ορισμένες φορές θα ρίχνουμε κανένα καβγά για τη σήμανση που θα συνοδεύει π.χ. το επίρρημα επισταμένα.

    Πόσο ρεαλιστική θα ήταν μια τέτοια σκέψη;
    Η ελάχιστη μορφή ενός τέτοιου καταλόγου φαντάζομαι θα ήταν της μορφής

    μόρφημα,[κατηγορία],λήμμα,συχνότητα,timestamp

    αν καταλαβαίνω καλά αυτό που προτείνεις είναι
    μόρφημα,[κατηγορία],λήμμα,συχνότητα,timestamp,link για τσακωμό

    όπου κατηγορία θα ήταν τα γραμματικά flags (ουσ.ονομαστική.ενικός) και το timestamp θα έδινε περισσότερο ενδιαφέρον στους καυγάδες. Ενδεχομένως θα μπορούσε να εμπλουτιστεί κι άλλο.

    Το να είναι διαθέσιμα αυτά τα δεδομένα από τη Λεξιλογία είναι ρεαλιστική σκέψη. Δεδομένου ωστόσο ότι μια τέτοια βάση δεδομένων θα είχε έστω ~1-2 εκατομμύρια μορφήματα, ποιός και με ποιο κριτήριο θα αποφάσιζε για το αν ένα μόρφημα είναι αποδεκτό ή όχι; (φαντάζομαι θα είχε link σε κάθε εγγραφή -> Fight now)

    Γενικά πάντως, το spider όντως με ενθουσίασε ως ιδέα, ωστόσο όσο το σκέφτομαι παρουσιάζει προβλήματα που δεν ξέρω αν ξέρω να προσεγγίσω θεωρητικά. Αν απλά αμολήσεις ένα πρόγραμμα, είναι πιθανό να θεωρήσεις ότι η πιο χρησιμοποιημένη φράση στα ελληνικά είναι αν αποδέχεσαι τα cookies.

    Είδα ότι υπάρχουν papers που περιγράφουν κάποιους αλγορίθμους που έχουν χρησιμοποιηθεί στην κατασκευή μεγάλων web corpus (για παράδειγμα http://corpus.tools/), κάποιοι εκ των οποίων επιλύουν θέματα όπως το προηγούμενο, αλλά δεν γνωρίζω εάν πρέπει να ληφθούν επιπλέον περιορισμοί για το filtering των δεδομένων για να κατασκευαστεί ένα corpus για αυτή τη συγκεκριμένη χρήση.

    Για παράδειγμα, το site της Καθημερινής έχει τη συνωμοσία ως συνωμοσία 500 φορές και ως συνομωσία 50 ενώ το blog A έχει τη συνομωσία 150. Ποιός είναι ο πιο ρεαλιστικός τρόπος να μετρήσεις τη συχνότητα, δεδομένου ότι το blog A έχει γραφτεί από ένα άτομο (αλλά ο αλγόριθμος δεν το ξέρει);

    Τι μέγεθος θα έπρεπε θεωρητικά να έχει ένα corpus ώστε τέτοια προβλήματα να χαθούν μέσα στην στατιστική; Προφανώς δεν έχεις τα resources της google, επομένως έχει νόημα να θέσεις a priori θεωρητικά κριτήρια για να έχεις αντιπροσωπευτικό δείγμα ή χαλάς έτσι το δείγμα;

    Νομίζω αν καθίσω θα σκεφτώ και άλλα.

    Quote Originally Posted by drsiebenmal View Post
    Να (δημο)ψηφίζουμε δεν γίνεται, καλοί κύριοι;
    Θα ψηφίζουν οι μηχανές.

  4. #24
    HandyMod drsiebenmal's Avatar
    Join Date
    Mar 2009
    Location
    Athens, Greece
    Posts
    28,497
    Gender
    Male
    Quote Originally Posted by ian View Post
    Θα ψηφίζουν οι μηχανές.
    Το φοβόμουν ότι θα έλεγες κάτι τέτοιο...
    Wer die Wahrheit nicht weiß, der ist bloß ein Dummkopf. Aber wer sie weiß, und sie eine Lüge nennt, der ist ein Verbrecher!
    We base decisions on facts, not superstition, not what our ideology tells us but rather what we can observe

    δεῖ δὲ χρημάτων, καὶ ἄνευ τούτων οὐδὲν ἔστι γενέσθαι τῶν δεόντων
    Η Ελλάδα είναι Ευρώπη, η Ευρώπη είναι Ελλάδα!

  5. #25
    Administrator nickel's Avatar
    Join Date
    Feb 2008
    Location
    38.113583, 23.862870
    Posts
    47,190
    Gender
    Male
    Καλημέρα. Στις έγκυρες απορίες σου, Ian, θα επιχειρήσω να απαντήσω αργότερα. Υποτίθεται ότι κάνω διακοπές αυτές τις μέρες.

    Για την ψηφοφορία, θα ορίσουμε μια επιτροπή τριών ατόμων, να ψηφίζουν αυτοί και να έχουν την ευθύνη.
    Μένω ΕυρώπηΣύγκρουση ιδεών, όχι βία και μισαλλοδοξία: δεν οδηγούν πουθενά. (Λ. Κύρκος)Άντε, πέρασε κι αυτό
    ΕΝΑ ΝΗΜΑ ΤΗΝ ΗΜΕΡΑ ΤΗΝ ΑΝΙΑ ΚΑΝΕΙ ΠΕΡΑ. Staying hungry, staying foolish. Το διαδίκτυο βλάπτει όταν δεν σκέφτεσαι.

  6. #26
    Senior Member stazybohorn's Avatar
    Join Date
    Sep 2009
    Posts
    199
    Δεδομένης της απίστευτης συχνότητας και ποσότητας αυτόματης αναπαραγωγής υλικού μέσω συνδρομητικών υπηρεσιών, RSS, κλπ., νομίζω ότι η εικόνα που θα έδινε ένα spider για τον ελληνικό λόγο στον Ιστό, θα ήταν στρεβλή.

    Θαρρώ πώς χρειάζεται ανθρώπινη επιλογή των πηγών - ιστοτόπων, οπότε μπαίνουν άλλα ζητήματα -αυθαιρεσίας στις αποφάσεις, κλπ.
    It's the end of the Web as we know it…

  7. #27
    HandyMod drsiebenmal's Avatar
    Join Date
    Mar 2009
    Location
    Athens, Greece
    Posts
    28,497
    Gender
    Male
    Quote Originally Posted by stazybohorn View Post
    Δεδομένης της απίστευτης συχνότητας και ποσότητας αυτόματης αναπαραγωγής υλικού μέσω συνδρομητικών υπηρεσιών, RSS, κλπ., νομίζω ότι η εικόνα που θα έδινε ένα spider για τον ελληνικό λόγο στον Ιστό, θα ήταν στρεβλή.
    Δεν μπορεί να αποκλείονται αυτές οι πηγές που είναι ταυτόσημες με μια προηγούμενη, αρχική;
    Wer die Wahrheit nicht weiß, der ist bloß ein Dummkopf. Aber wer sie weiß, und sie eine Lüge nennt, der ist ein Verbrecher!
    We base decisions on facts, not superstition, not what our ideology tells us but rather what we can observe

    δεῖ δὲ χρημάτων, καὶ ἄνευ τούτων οὐδὲν ἔστι γενέσθαι τῶν δεόντων
    Η Ελλάδα είναι Ευρώπη, η Ευρώπη είναι Ελλάδα!

  8. #28
    Administrator nickel's Avatar
    Join Date
    Feb 2008
    Location
    38.113583, 23.862870
    Posts
    47,190
    Gender
    Male
    Δεν αποκλείεται να αποκλειστούν όμοια κείμενα, αλλά εδώ δεν έχουμε συζητήσει μήπως έχουμε συγκεκριμένες πηγές.
    Μένω ΕυρώπηΣύγκρουση ιδεών, όχι βία και μισαλλοδοξία: δεν οδηγούν πουθενά. (Λ. Κύρκος)Άντε, πέρασε κι αυτό
    ΕΝΑ ΝΗΜΑ ΤΗΝ ΗΜΕΡΑ ΤΗΝ ΑΝΙΑ ΚΑΝΕΙ ΠΕΡΑ. Staying hungry, staying foolish. Το διαδίκτυο βλάπτει όταν δεν σκέφτεσαι.

  9. #29
    Administrator Zazula's Avatar
    Join Date
    Feb 2008
    Location
    127.0.0.1
    Posts
    17,413
    Gender
    Male
    Τα ρίχνεις όλα μέσα, και υποθέτεις (αρκετά βάσιμα) ότι οι συνδρομητικές υπηρεσίες και τα RSS θα αφορούν πολύ συχνότερα πηγές που είναι πιο περιποιημένες γλωσσικά (έστω και θεωρητικά), όπως ειδησεογραφικά σάιτ, εταιρικοί ιστότοποι, προσεγμένα ιστολόγια κλπ — κι άρα δεν πρόκειται να σου χαλάσουν την πρώτη ύλη προσδίδοντας μεγεθυμένη απεικόνιση σε ελάχιστα χρησιμοποιούμενους τύπους ή χρήσεις. Προσέγγιση FAPP, παίδες.

  10. #30
    Junior Member
    Join Date
    May 2018
    Posts
    11
    Με είχε προβληματίσει αυτό, το ότι η αναπαραγωγή κυρίως ειδήσεων, όντως μπορεί να δημιουργήσει στρεβλή εικόνα της χρήσης.

    Νομίζω ότι μια λογική προσέγγιση είναι όντως να αγνοούνται κείμενα που έχει ξαναδεί.

    Ο όγκος κειμένων ωστόσο είναι τεράστιος για να γίνει πρακτικά κάτι τέτοιο, οπότε μια τεχνική λύση είναι να υπολογίζεται (μάλλον ανά παράγραφο και αφού έχει γίνει το tokenization) ένα hash του κειμένου. Οπότε στην ουσία θα αγνοεί κομμάτια κειμένου που έχουν την ίδια ψηφιακή υπογραφή, κάτι που είναι πολύ πιο οικονομικό και εύκολα υλοποιήσιμο.

    Αν έχω όσο χρόνο έχω υπολογίσει, σε λίγες μέρες λογικά θα ανεβάσω μια πρώιμη έκδοση του spider σε έναν server με αρκετά μεγάλη γραμμή (κάπου 1gbps) και σκοπεύω να δίνει ένα live link με τα τρέχοντα αποτελέσματα.

    Έχει αρκετές τεχνικές δυσκολίες αλλά είναι αρκετά ενδιαφέρουσες.

Page 3 of 4 FirstFirst 1 2 3 4 LastLast

Bookmarks

Bookmarks

Posting Permissions

  • You may not post new threads
  • You may not post replies
  • You may not post attachments
  • You may not edit your posts
  •