PDA

View Full Version : OCR για πολυτονικά ελληνικά



Zazula
14-07-2008, 01:58 PM
Έχετε χρησιμοποιήσει με επιτυχία και υψηλή αξιοπιστία πρόγραμμα αναγνώρισης που να λειτουργεί αποτελεσματικά σε πολυτονικό ελληνικό κείμενο (απλή καθαρεύουσα κι όχι αρχαιοελληνικό ή ελληνιστικό — τρεις τόνοι, δύο πνεύματα, υπογεγραμμένες); Μου είναι αδιάφορη η φιλικότητα προς το χρήστη ή το επίπεδο ευχρηστίας — αρκεί να κάνει σωστά τη δουλειά του. Σας ευχαριστώ πολύ εκ των προτέρων. :)

zephyrous
14-07-2008, 02:14 PM
Αν θυμάστε (http://www.lexilogia.gr/forum/showthread.php?p=4188), ψάχνουμε το ίδιο ακριβώς. Έχω βρει έναν κύριο στους Αμπελοκήπους, ο οποίος είχε κάνει παλιότερα επιτυχημένες δοκιμές (αλλά μου είπε να περάσω από εκεί, γιατί έχει καιρό να δοκιμάσει το σύστημα). Χρεώνει μισό ευρώ τη σελίδα. Το θέμα, βέβαια, είναι να το κάνουμε μόνοι μας (αλλιώς θα βγω στο πεζοδρόμιο, με τόσες σελίδες που πρέπει να μετατρέψω).

Zazula
14-07-2008, 02:35 PM
Ναι, ακριβώς — κι εγώ σ' εκείνο το νήμα είχα πει ότι: «Μέχρι στιγμής δεν έχει τύχει να βρω λογισμικό που να εκτελεί αξιόπιστη οπτική αναγνώριση σε πολυτονικά κείμενα.» Και τώρα ήρθε η ώρα που το χρειάζομαι... Αναμένω εναγωνίως νέα για λύση που δεν θα απαιτεί υπεργολαβική ανάθεση. :)

nickel
14-07-2008, 03:07 PM
Θα πάρετε το βιβλιαράκι / τα βιβλιαράκια σας παραμάσχαλα (και το βιβλιάριο της τράπεζας στην τσέπη) και θα πάτε εδώ http://www.ideatech.gr/ , στην Τρικάλων, να δείτε τι πουλιά πιάνει το πρόγραμμά τους.

pidyo
11-05-2014, 01:52 PM
Όλο αρχαία νήματα ανασταίνω: http://ancientgreekocr.org/, δωρεάν λογισμικό για πολυτονικό OCR, από ερευνητή της ομάδας του Perseus Digital Library. Δεν το έχω δοκιμάσει.

Earion
11-05-2014, 02:11 PM
Ευχαριστούμε. :) Θα σας ειδοποιήσω για τα αποτελέσματα.

sarant
11-05-2014, 10:17 PM
Ωραίο! Μόνο που δεν αναγγέλλεται ως OCR για πολυτονικό αλλά για αρχαία ελληνικά και αναρωτιέμαι αν θα αποδίδει σε ένα πολυτονισμένο νεοελληνικό κείμενο.

nickel
11-05-2014, 11:09 PM
Θέλει διάβασμα, αλλά έχει σημασία ποιες γραμματοσειρές διαβάζει. Αν τα πηγαίνει καλά με σύγχρονες γραμματοσειρές, ίσως να μη χρειάζεται να γνωρίζει λεξιλόγιο. Αν θέλει να έχει και λεξιλογική βάση, μπορεί να φροντίσουμε να αποκτήσει.

pidyo
12-05-2014, 01:07 PM
Ωραίο! Μόνο που δεν αναγγέλλεται ως OCR για πολυτονικό αλλά για αρχαία ελληνικά και αναρωτιέμαι αν θα αποδίδει σε ένα πολυτονισμένο νεοελληνικό κείμενο.


Θέλει διάβασμα, αλλά έχει σημασία ποιες γραμματοσειρές διαβάζει. Αν τα πηγαίνει καλά με σύγχρονες γραμματοσειρές, ίσως να μη χρειάζεται να γνωρίζει λεξιλόγιο. Αν θέλει να έχει και λεξιλογική βάση, μπορεί να φροντίσουμε να αποκτήσει.

Το ζήτημα του λεξιλογίου είναι νομίζω δευτερεύον σε σχέση με το μείζον τεχνικό ζήτημα του input / output. Αν θυμάμαι καλά από παλαιότερο ψάξιμο για OCR σε πολυτονικά κείμενα, το κύριο πρόβλημα ήταν ότι δεν προβλέπονταν από τα συνήθη λογισμικά οι κωδικοσελίδες Unicode των πολυτονικών ελληνικών. Σε πρώτη φάση, η αναγνώριση «γλώσσας» σε ένα OCR σε αυτήν τη δυνατότητα στηρίζεται. Πρόκειται δηλαδή για αναγνώριση των συγκεκριμένων χαρακτήρων Unicode κυρίως, και μόνο σε δεύτερο χρόνο μιας πρόσθετης λειτουργίας post-processing σε αναγνώριση λεξιλογικών μορφών.

Αλλά ας μας τα πει κάποιος καλύτερος γνώστης των τεχνικών του θέματος.