Επανάσταση στον χώρο της γλωσσικής τεχνολογίας
της Λίνας Γιάνναρου
Καθημερινή 30/4/2010
της Λίνας Γιάνναρου
Μετατροπή λόγου σε κείμενο από τους υπολογιστές ή το αντίστροφο κατάφερε η Google χρησιμοποιώντας μια τεράστια δεξαμενή δεδομένων
«Aποκαλείται ανθρώπινη τεχνολογία γλώσσα ή επεξεργασία φυσικής γλώσσας και αποτελείται από υπολογιστικές γλωσσολογία και της τεχνολογίας ομιλίας ως πυρήνα της». Και όποιος... κατάλαβε, κατάλαβε! Μπορεί το αποτέλεσμα της μετάφρασης του ορισμού της γλωσσικής τεχνολογίας από τα αγγλικά στα ελληνικά από... την Google να είναι αστείο, αποτελεί ωστόσο ένα μικρό θαύμα της επιστήμης.
«Η μετατροπή λόγου σε κείμενο από τους υπολογιστές ή το αντίστροφο, και το γεγονός ότι ο κάθε χρήστης του Ιντερνετ μπορεί να πάρει μια ιδέα από το τι λένε κείμενα γραμμένα σε άλλες γλώσσες αποτελούν επανάσταση για τον χώρο της γλωσσικής τεχνολογίας», λέει στην «Κ» ο ερευνητής στο Ινστιτούτο Επεξεργασίας Λόγου και πρόεδρος της Ευρωπαϊκής Εταιρείας Γλωσσικών Πόρων και Τεχνολογίας κ. Στέλιος Πιπερίδης. «Και η google το έχει καταφέρει αυτό, χρησιμοποιώντας μια τεράστια δεξαμενή δεδομένων που προέρχονται από κάθε έναν από εμάς». Το πόσο περισσότερα και πόσο πιο θαυμαστά θα ήταν τα επιτεύγματα της γλωσσικής και υπολογιστικής τεχνολογίας εάν υπήρχε μεγαλύτερη διαθεσιμότητα δεδομένων, δεν το χωρά ο νους ούτε των ίδιων των ερευνητών! «Είναι όπως στην Ιατρική όπου η συλλογή, επεξεργασία και διαχείριση βιολογικών και ιατρικών δεδομένων έχει οδηγήσει στην αποκωδικοποίηση των μηχανισμών πληθώρας ασθενειών», εξηγεί ο ίδιος. «Θα ήταν ευχής έργον εάν και στην Ελλάδα τα ερευνητικά δεδομένα μοιράζονταν, διετίθεντο στο κοινό, στις επιχειρήσεις, στην εκπαιδευτική κοινότητα - θα επωφελούνταν όλοι και θα προχωρούσε με άλματα η σχετική τεχνολογία».
Το ζήτημα της διάθεσης των ερευνητικών δεδομένων θα αναλυθεί στο πλαίσιο του 6ου Ελληνικού Συνεδρίου Τεχνητής Νοημοσύνης, που θα γίνει από 4 έως 7 Μαΐου στο Ευγενίδειο Ιδρυμα στην Αθήνα (www.setn2010.gr). Μεταξύ άλλων, θα παρουσιαστούν και οι ευρωπαϊκές δράσεις CLARIN, METASHARE και FLARENET, με στόχο τη συγκέντρωση πόρων και εργαλείων που έχουν κατασκευαστεί για την ελληνική γλώσσα τα προηγούμενα χρόνια σε μία εικονική «αποθήκη». «Τα τελευταία χρόνια, η Ελλάδα αντιμετωπίζει νέες προκλήσεις, καθώς ο όγκος του ψηφιακού περιεχομένου (κείμενα, φωτογραφίες, βίντεο κ.ο.κ.) αυξάνεται ραγδαία» σημειώνει ο κ. Πιπερίδης. «Οι ερευνητές μπορούν να έχουν πρόσβαση σε όλα τα είδη των δεδομένων μέσω του υπολογιστή τους, αλλά ο όγκος της πληροφορίας είναι τόσος που είναι εξαιρετικά δύσκολο να αναλυθεί χωρίς τα κατάλληλα εργαλεία». Με εργαλεία σαν αυτά, υποστηρίζει ο ίδιος, θα μπορούμε σε λίγα χρόνια να διατάζουμε το κομπιούτερ μας, «Βρες όλα τα βίντεο του Στρος - Καν που παίχτηκαν από το ΣΚΑΪ και το BBC το 2010».
«Aποκαλείται ανθρώπινη τεχνολογία γλώσσα ή επεξεργασία φυσικής γλώσσας και αποτελείται από υπολογιστικές γλωσσολογία και της τεχνολογίας ομιλίας ως πυρήνα της». Και όποιος... κατάλαβε, κατάλαβε! Μπορεί το αποτέλεσμα της μετάφρασης του ορισμού της γλωσσικής τεχνολογίας από τα αγγλικά στα ελληνικά από... την Google να είναι αστείο, αποτελεί ωστόσο ένα μικρό θαύμα της επιστήμης.
«Η μετατροπή λόγου σε κείμενο από τους υπολογιστές ή το αντίστροφο, και το γεγονός ότι ο κάθε χρήστης του Ιντερνετ μπορεί να πάρει μια ιδέα από το τι λένε κείμενα γραμμένα σε άλλες γλώσσες αποτελούν επανάσταση για τον χώρο της γλωσσικής τεχνολογίας», λέει στην «Κ» ο ερευνητής στο Ινστιτούτο Επεξεργασίας Λόγου και πρόεδρος της Ευρωπαϊκής Εταιρείας Γλωσσικών Πόρων και Τεχνολογίας κ. Στέλιος Πιπερίδης. «Και η google το έχει καταφέρει αυτό, χρησιμοποιώντας μια τεράστια δεξαμενή δεδομένων που προέρχονται από κάθε έναν από εμάς». Το πόσο περισσότερα και πόσο πιο θαυμαστά θα ήταν τα επιτεύγματα της γλωσσικής και υπολογιστικής τεχνολογίας εάν υπήρχε μεγαλύτερη διαθεσιμότητα δεδομένων, δεν το χωρά ο νους ούτε των ίδιων των ερευνητών! «Είναι όπως στην Ιατρική όπου η συλλογή, επεξεργασία και διαχείριση βιολογικών και ιατρικών δεδομένων έχει οδηγήσει στην αποκωδικοποίηση των μηχανισμών πληθώρας ασθενειών», εξηγεί ο ίδιος. «Θα ήταν ευχής έργον εάν και στην Ελλάδα τα ερευνητικά δεδομένα μοιράζονταν, διετίθεντο στο κοινό, στις επιχειρήσεις, στην εκπαιδευτική κοινότητα - θα επωφελούνταν όλοι και θα προχωρούσε με άλματα η σχετική τεχνολογία».
Το ζήτημα της διάθεσης των ερευνητικών δεδομένων θα αναλυθεί στο πλαίσιο του 6ου Ελληνικού Συνεδρίου Τεχνητής Νοημοσύνης, που θα γίνει από 4 έως 7 Μαΐου στο Ευγενίδειο Ιδρυμα στην Αθήνα (www.setn2010.gr). Μεταξύ άλλων, θα παρουσιαστούν και οι ευρωπαϊκές δράσεις CLARIN, METASHARE και FLARENET, με στόχο τη συγκέντρωση πόρων και εργαλείων που έχουν κατασκευαστεί για την ελληνική γλώσσα τα προηγούμενα χρόνια σε μία εικονική «αποθήκη». «Τα τελευταία χρόνια, η Ελλάδα αντιμετωπίζει νέες προκλήσεις, καθώς ο όγκος του ψηφιακού περιεχομένου (κείμενα, φωτογραφίες, βίντεο κ.ο.κ.) αυξάνεται ραγδαία» σημειώνει ο κ. Πιπερίδης. «Οι ερευνητές μπορούν να έχουν πρόσβαση σε όλα τα είδη των δεδομένων μέσω του υπολογιστή τους, αλλά ο όγκος της πληροφορίας είναι τόσος που είναι εξαιρετικά δύσκολο να αναλυθεί χωρίς τα κατάλληλα εργαλεία». Με εργαλεία σαν αυτά, υποστηρίζει ο ίδιος, θα μπορούμε σε λίγα χρόνια να διατάζουμε το κομπιούτερ μας, «Βρες όλα τα βίντεο του Στρος - Καν που παίχτηκαν από το ΣΚΑΪ και το BBC το 2010».
Καθημερινή 30/4/2010