OCR για πολυτονικά ελληνικά

Zazula

Administrator
Staff member
Έχετε χρησιμοποιήσει με επιτυχία και υψηλή αξιοπιστία πρόγραμμα αναγνώρισης που να λειτουργεί αποτελεσματικά σε πολυτονικό ελληνικό κείμενο (απλή καθαρεύουσα κι όχι αρχαιοελληνικό ή ελληνιστικό — τρεις τόνοι, δύο πνεύματα, υπογεγραμμένες); Μου είναι αδιάφορη η φιλικότητα προς το χρήστη ή το επίπεδο ευχρηστίας — αρκεί να κάνει σωστά τη δουλειά του. Σας ευχαριστώ πολύ εκ των προτέρων. :)
 
Αν θυμάστε, ψάχνουμε το ίδιο ακριβώς. Έχω βρει έναν κύριο στους Αμπελοκήπους, ο οποίος είχε κάνει παλιότερα επιτυχημένες δοκιμές (αλλά μου είπε να περάσω από εκεί, γιατί έχει καιρό να δοκιμάσει το σύστημα). Χρεώνει μισό ευρώ τη σελίδα. Το θέμα, βέβαια, είναι να το κάνουμε μόνοι μας (αλλιώς θα βγω στο πεζοδρόμιο, με τόσες σελίδες που πρέπει να μετατρέψω).
 

Zazula

Administrator
Staff member
Ναι, ακριβώς — κι εγώ σ' εκείνο το νήμα είχα πει ότι: «Μέχρι στιγμής δεν έχει τύχει να βρω λογισμικό που να εκτελεί αξιόπιστη οπτική αναγνώριση σε πολυτονικά κείμενα.» Και τώρα ήρθε η ώρα που το χρειάζομαι... Αναμένω εναγωνίως νέα για λύση που δεν θα απαιτεί υπεργολαβική ανάθεση. :)
 

nickel

Administrator
Staff member
Θα πάρετε το βιβλιαράκι / τα βιβλιαράκια σας παραμάσχαλα (και το βιβλιάριο της τράπεζας στην τσέπη) και θα πάτε εδώ http://www.ideatech.gr/ , στην Τρικάλων, να δείτε τι πουλιά πιάνει το πρόγραμμά τους.
 

pidyo

New member
Όλο αρχαία νήματα ανασταίνω: http://ancientgreekocr.org/, δωρεάν λογισμικό για πολυτονικό OCR, από ερευνητή της ομάδας του Perseus Digital Library. Δεν το έχω δοκιμάσει.
 

Earion

Moderator
Staff member
Ευχαριστούμε. :) Θα σας ειδοποιήσω για τα αποτελέσματα.
 
Ωραίο! Μόνο που δεν αναγγέλλεται ως OCR για πολυτονικό αλλά για αρχαία ελληνικά και αναρωτιέμαι αν θα αποδίδει σε ένα πολυτονισμένο νεοελληνικό κείμενο.
 

nickel

Administrator
Staff member
Θέλει διάβασμα, αλλά έχει σημασία ποιες γραμματοσειρές διαβάζει. Αν τα πηγαίνει καλά με σύγχρονες γραμματοσειρές, ίσως να μη χρειάζεται να γνωρίζει λεξιλόγιο. Αν θέλει να έχει και λεξιλογική βάση, μπορεί να φροντίσουμε να αποκτήσει.
 

pidyo

New member
Ωραίο! Μόνο που δεν αναγγέλλεται ως OCR για πολυτονικό αλλά για αρχαία ελληνικά και αναρωτιέμαι αν θα αποδίδει σε ένα πολυτονισμένο νεοελληνικό κείμενο.

Θέλει διάβασμα, αλλά έχει σημασία ποιες γραμματοσειρές διαβάζει. Αν τα πηγαίνει καλά με σύγχρονες γραμματοσειρές, ίσως να μη χρειάζεται να γνωρίζει λεξιλόγιο. Αν θέλει να έχει και λεξιλογική βάση, μπορεί να φροντίσουμε να αποκτήσει.

Το ζήτημα του λεξιλογίου είναι νομίζω δευτερεύον σε σχέση με το μείζον τεχνικό ζήτημα του input / output. Αν θυμάμαι καλά από παλαιότερο ψάξιμο για OCR σε πολυτονικά κείμενα, το κύριο πρόβλημα ήταν ότι δεν προβλέπονταν από τα συνήθη λογισμικά οι κωδικοσελίδες Unicode των πολυτονικών ελληνικών. Σε πρώτη φάση, η αναγνώριση «γλώσσας» σε ένα OCR σε αυτήν τη δυνατότητα στηρίζεται. Πρόκειται δηλαδή για αναγνώριση των συγκεκριμένων χαρακτήρων Unicode κυρίως, και μόνο σε δεύτερο χρόνο μιας πρόσθετης λειτουργίας post-processing σε αναγνώριση λεξιλογικών μορφών.

Αλλά ας μας τα πει κάποιος καλύτερος γνώστης των τεχνικών του θέματος.
 
Top