Από σαρωτή σε κείμενο Word

Στο τέλος ενός βιβλίου υπάρχει μια πολυσέλιδη βιβλιογραφία. Για να γλιτώσω την πληκτρολόγησή της, μπορώ άραγε να περάσω τις σελίδες από scanner και μετά να τις μετρατρέψω σε κείμενο word? Γίνεται εύκολα ή θέλει κανένα κόλπο;
 
Φυσικά και μπορείς, είναι η σύντομη απάντηση.
(Για tips 'n' tricks, υπάρχουν πολύ πιο αρμόδιοι από μένα, γιατί η σχέση μου με το OCR είναι θεωρητική μόνο.)
 

Palavra

Mod Almighty
Staff member
Αν έχεις πρόγραμμα OCR (το aabbyy, για παράδειγμα), υπάρχει επιλογή scan to word όπου γίνεται ακριβώς αυτό που περιγράφεις. Ωστόσο, αν δεν το έχεις, δεν ξέρω αν υπάρχει κάποιο freeware ocr που να σου κάνει τη δουλειά σου.
 
Ναι, γίνεται και κάποιο πρόγραμμα θα βρεθεί.
Ωστόσο, θα πρέπει μετά να ελέγξεις προσεκτικά για τυχόν λάθη που θα έχουν γίνει κατά την αναγνώριση. Αν το κείμενο είναι Αγγλικά (ή σε άλλη διαδεδομένη γλώσσα), τα λάθη θα είναι λίγα (απόστροφοι κλπ). Αν όμως είναι Ελληνικό, θα είναι από αρκετά έως πολλά (στη χειρότερη περίπτωση οι περισσότεροι «ειδικοί» χαρακτήρες: σίγμα τελικό , θήτα, τονούμενα κεφαλαία και μη, κλπ).
Πάντως σε κάθε περίπτωση αξίζει να το προσπαθήσεις.
 
Και να μην το έχεις το ABBYY, όλο και κάτι θα κάνουμε...
Αιτείτε και δοθήσεται υμίν, ζητείτε και ευρήσετε, κρούετε και ανοιγήσεται υμίν. ;)
 

Alexandra

Super Moderator
Staff member
Να αναφέρω ότι ο δικός μου σαρωτής, HP Officejet 5610, έχει ενσωματωμένο το πρόγραμμα OCR. Εγώ απλώς σκανάρω, και παίρνω αμέσως το κείμενο σε Word. Δεν έχουν όλοι οι σαρωτές αυτή τη δυνατότητα;
 
Το scanner δεν είναι δικό μου, πρέπει να ρωτήσω και να μάθω, αλλά μάλλον δεν την έχει...
 
Όπως ανέφερα κι εδώ, έχω για μετάφραση ένα σωρό νομικά κείμενα, με άφθονη ορολογία που άντε να την ξαναψάχνω ή να την κοπιπαστάρω χειροκίνητα σε ένα γλωσσάρι και με επαναλήψεις που άντε να θυμάμαι πού ήταν, βλαστημάω επειδή τα πρωτότυπά μου δεν είναι σε μορφή που να μπορώ να ανοίξω με Trados. Οπότε πολύ θα με βόλευε να τα μετατρέψω σε κάποια μορφή κειμένου.

Τα πρωτότυπά μου είναι αρχεία pdf αλλά από κείνα που συμπεριφέρονται σαν εικόνα και όχι σαν κείμενο. Ξέρει κανείς με τι εργαλείο θα μπορούσα να τα μετατρέψω σε κείμενο; Σε pdf άλλου τύπου ή σε doc ή σε κάτι τέτοιο; Αν κρατά και τη μορφοποίηση ωραία θα ήταν, αλλά το βασικό είναι να μπορεί να "διαβαστεί" σαν κείμενο.

Καταλαβαίνω ότι αν έχω σαν πρωτότυπο hard copy, μπορώ να το σκανάρω κατάλληλα - και το έχω κάνει στη ζωή μου. Αλλά αυτά θα έπρεπε να τα εκτυπώσω και μετά να τα σκανάρω. Γίνεται κι αυτό βέβαια, αλλά είναι λίγο Κηφισιά-Ομόνοια μέσω Διακοφτού. Μήπως υπάρχει short cut;
 

drsiebenmal

HandyMod
Staff member
Τα καλά νέα: Τα καλά προγράμματα OCR διαβάζουν από πδφ κειμένου και εικόνας και από εικόνες σκέτες (και κινητού, ισχυρίζονται -- δεν το έχω δοκιμάσει).
 

Zazula

Administrator
Staff member
Προσωπικά δεν θα ανέβαζα ποτέ* νομικής φύσεως κείμενα σε ονλάιν υπηρεσία για να γίνει η οποιαδήποτε μετατροπή!
Στο μεταξύ, δοκίμασε καποιο/α απ' τα παρακάτω, που εγκαθίστανται στον υπολογιστή σου:
http://www.techsupportalert.com/best-free-ocr-software.htm

http://www.top5freeware.com/ocr-software-for-windows

_____________
* ...και θα απέλυα όποιον μεταφραστή μου το επιχειρούσε.
 
Ευχαριστώ για την πρόταση και για τη σύσταση - δε μου πέρασε από το μυαλό ότι μπορεί να υπήρχε πρόβλημα. :(

Καλά που δεν είσαι εσύ το αφεντικό μου... :s
 

Zazula

Administrator
Staff member
Έχει τύχει ποτέ να προσέξεις τι προβλέψεις έχει ένα απλό απλούστατο NDA; You can never be too careful! :)
 

Palavra

Mod Almighty
Staff member
Προσωπικά δεν θα ανέβαζα ποτέ* νομικής φύσεως κείμενα σε ονλάιν υπηρεσία για να γίνει η οποιαδήποτε μετατροπή!
Στο μεταξύ, δοκίμασε καποιο/α απ' τα παρακάτω, που εγκαθίστανται στον υπολογιστή σου:
http://www.techsupportalert.com/best-free-ocr-software.htm

http://www.top5freeware.com/ocr-software-for-windows

_____________
* ...και θα απέλυα όποιον μεταφραστή μου το επιχειρούσε.
Εγώ πάντως τα μετατρέπω όλα*, όχι ονλάιν αλλά με το Aabbyy, και στη συνέχεια τα περνάω ένα χέρι διόρθωση, όπου φτιάχνω τους χαρακτήρες και τα σημεία που δεν φαίνονται, διορθώνω τη στίξη, τα κενά κλπ, και γίνεται το κείμενο σαν να είχε γραφτεί εξαρχής σε Word. Είναι χρονοβόρο, ωστόσο το να τα μεταφράσω χωρίς μνήμη μου είναι πλέον αδιανόητο. Ο βασικός λόγος είναι ότι αλλιώς δεν έχω ορολογική βάση και επίσης δεν έχω έτοιμη (ή σχεδόν έτοιμη) τη μετάφραση των boilerplate clauses.

------------------
* Τώρα το 'πιασα. Ναι, βέβαια, συμφωνώ. Το να τα ανεβάσεις στο ίντερνετ σημαίνει ότι θέτεις σε σοβαρό κίνδυνο το εμπιστευτικό του χαρακτήρα τους, αν υπάρχει.
 

Zazula

Administrator
Staff member
Ε ναι, κι εγώ το ΑΒΒΥΥ χρησιμοποιώ — απλώς δεν είναι δωρεάν, όπως τα άλλα που μνημονεύονται στο #10.
Αν και πολλές φορές τα σκάνερ (αν ο μεταφραστής έτυχε ποτέ να 'χει αγοράσει κάποιο) συνοδεύονται από Lite εκδόσεις OCR, οπότε κάνεις και μ' αυτά τη δουλειά σου αν δέχονται για είσοδο έτοιμο pdf ή εικόνα.
Εννοείται πάντως —και το επαναλαμβάνω— ότι στα νομικής φύσεως κείμενα ο εμπιστευτικός χαρακτήρας είναι συχνά υπόρρητος, ευνόητος ή αυτονόητος, επομένως υπάρχει δεν υπάρχει NDA ποτέ ανέβασμά τους ονλάιν!
 
Top