OCR για πολυτονικά ελληνικά

Zazula · Jul 14, 2008

Έχετε χρησιμοποιήσει με επιτυχία και υψηλή αξιοπιστία πρόγραμμα αναγνώρισης που να λειτουργεί αποτελεσματικά σε πολυτονικό ελληνικό κείμενο (απλή καθαρεύουσα κι όχι αρχαιοελληνικό ή ελληνιστικό — τρεις τόνοι, δύο πνεύματα, υπογεγραμμένες); Μου είναι αδιάφορη η φιλικότητα προς το χρήστη ή το επίπεδο ευχρηστίας — αρκεί να κάνει σωστά τη δουλειά του. Σας ευχαριστώ πολύ εκ των προτέρων. :)

zephyrous · Jul 14, 2008

Αν θυμάστε, ψάχνουμε το ίδιο ακριβώς. Έχω βρει έναν κύριο στους Αμπελοκήπους, ο οποίος είχε κάνει παλιότερα επιτυχημένες δοκιμές (αλλά μου είπε να περάσω από εκεί, γιατί έχει καιρό να δοκιμάσει το σύστημα). Χρεώνει μισό ευρώ τη σελίδα. Το θέμα, βέβαια, είναι να το κάνουμε μόνοι μας (αλλιώς θα βγω στο πεζοδρόμιο, με τόσες σελίδες που πρέπει να μετατρέψω).

Zazula · Jul 14, 2008

Ναι, ακριβώς — κι εγώ σ' εκείνο το νήμα είχα πει ότι: «Μέχρι στιγμής δεν έχει τύχει να βρω λογισμικό που να εκτελεί αξιόπιστη οπτική αναγνώριση σε πολυτονικά κείμενα.» Και τώρα ήρθε η ώρα που το χρειάζομαι... Αναμένω εναγωνίως νέα για λύση που δεν θα απαιτεί υπεργολαβική ανάθεση. :)

nickel · Jul 14, 2008

Θα πάρετε το βιβλιαράκι / τα βιβλιαράκια σας παραμάσχαλα (και το βιβλιάριο της τράπεζας στην τσέπη) και θα πάτε εδώ http://www.ideatech.gr/ , στην Τρικάλων, να δείτε τι πουλιά πιάνει το πρόγραμμά τους.

pidyo · May 11, 2014

Όλο αρχαία νήματα ανασταίνω: http://ancientgreekocr.org/, δωρεάν λογισμικό για πολυτονικό OCR, από ερευνητή της ομάδας του Perseus Digital Library. Δεν το έχω δοκιμάσει.

Earion · May 11, 2014

Ευχαριστούμε. :) Θα σας ειδοποιήσω για τα αποτελέσματα.

sarant · May 11, 2014

Ωραίο! Μόνο που δεν αναγγέλλεται ως OCR για πολυτονικό αλλά για αρχαία ελληνικά και αναρωτιέμαι αν θα αποδίδει σε ένα πολυτονισμένο νεοελληνικό κείμενο.

nickel · May 12, 2014

Θέλει διάβασμα, αλλά έχει σημασία ποιες γραμματοσειρές διαβάζει. Αν τα πηγαίνει καλά με σύγχρονες γραμματοσειρές, ίσως να μη χρειάζεται να γνωρίζει λεξιλόγιο. Αν θέλει να έχει και λεξιλογική βάση, μπορεί να φροντίσουμε να αποκτήσει.

pidyo · May 12, 2014

sarant said:
Ωραίο! Μόνο που δεν αναγγέλλεται ως OCR για πολυτονικό αλλά για αρχαία ελληνικά και αναρωτιέμαι αν θα αποδίδει σε ένα πολυτονισμένο νεοελληνικό κείμενο.

nickel said:
Θέλει διάβασμα, αλλά έχει σημασία ποιες γραμματοσειρές διαβάζει. Αν τα πηγαίνει καλά με σύγχρονες γραμματοσειρές, ίσως να μη χρειάζεται να γνωρίζει λεξιλόγιο. Αν θέλει να έχει και λεξιλογική βάση, μπορεί να φροντίσουμε να αποκτήσει.

Το ζήτημα του λεξιλογίου είναι νομίζω δευτερεύον σε σχέση με το μείζον τεχνικό ζήτημα του input / output. Αν θυμάμαι καλά από παλαιότερο ψάξιμο για OCR σε πολυτονικά κείμενα, το κύριο πρόβλημα ήταν ότι δεν προβλέπονταν από τα συνήθη λογισμικά οι κωδικοσελίδες Unicode των πολυτονικών ελληνικών. Σε πρώτη φάση, η αναγνώριση «γλώσσας» σε ένα OCR σε αυτήν τη δυνατότητα στηρίζεται. Πρόκειται δηλαδή για αναγνώριση των συγκεκριμένων χαρακτήρων Unicode κυρίως, και μόνο σε δεύτερο χρόνο μιας πρόσθετης λειτουργίας post-processing σε αναγνώριση λεξιλογικών μορφών.

Αλλά ας μας τα πει κάποιος καλύτερος γνώστης των τεχνικών του θέματος.

OCR για πολυτονικά ελληνικά

Zazula

Administrator

zephyrous

¥

Zazula

Administrator

nickel

Administrator

pidyo

New member

Earion

Moderator

sarant

¥

nickel

Administrator

pidyo

New member