Αντιγράφω από τον Καθημερινή της 1/4/2012 τα κύρια σημεία άρθρου για τις προσεχείς δυνατότητες στις αναζητήσεις του Google.
Σε λίγους μήνες, η αναζήτηση θα αποκτήσει σημασιολογικό χαρακτήρα
Του Κώστα Δεληγιάννη
Σήμερα, τα αποτελέσματα που θα πάρει κανείς αν γράψει στη μηχανή αναζήτησης της Google μία ερώτηση όπως «ποια είναι τα δέκα ψηλότερα βουνά στη Γη;» σε οποιαδήποτε γλώσσα, θα είναι ένας κατάλογος από ιστοσελίδες που περιέχουν όλες τις λέξεις-κλειδιά της ερώτησης. Σε λίγους μήνες ωστόσο αυτό θα αλλάξει, καθώς -όπως αποκάλυψε πρόσφατα στην εφημερίδα Wall Street Journal το ανώτερο στέλεχος της Google, Amit Singhal- για όσους το χρησιμοποιούν στα αγγλικά, το «ψαχτήρι» δεν θα λειτουργεί μόνο σαν «ιντερνετικό ευρετήριο», αλλά θα αποκτήσει ουσιαστικά τεχνητή νοημοσύνη.
Με συνέπεια να καταλαβαίνει ερωτήσεις σαν την παραπάνω, όταν είναι διατυπωμένες στα αγγλικά, και να τις απαντά άμεσα παραθέτοντας για παράδειγμα τα δέκα μεγαλύτερα βουνά με το ύψος τους.
Κι αυτό γιατί θα αρχίσει να αξιοποιεί μία νέα τεχνολογία, τη «σημασιολογική αναζήτηση». Ετσι, εκτός από το να εντοπίζει τα σάιτ στα οποία υπάρχουν οι λέξεις-κλειδιά που ψάχνει ο χρήστης, όπως συμβαίνει τώρα, το «ψαχτήρι» στο άμεσο μέλλον θα κατανοεί επίσης το νόημα των αγγλικών φράσεων που πληκτρολογεί κανείς σε αυτό. Αλλά και τι σημαίνει κάθε επιμέρους όρος, ώστε αν κανείς εισαγάγει στη μηχανή μόνο δύο λέξεις, όπως «Ernest Hemingway», αυτή να αναγνωρίσει ότι πρόκειται για τον γνωστό συγγραφέα και, πάνω από τη λίστα με τα πιο συναφή σάιτ, να εμφανίσει τα βιογραφικά του στοιχεία ή τα σημαντικότερα βιβλία του.
Η «σημασιολογική αναζήτηση» αποτελεί μία από τις μεγαλύτερες αλλαγές στον τρόπο λειτουργίας της αναζήτησης και αργότερα θα επεκταθεί ώστε να υποστηρίζει και άλλες γλώσσες, όπως τα ελληνικά. Κάνοντας «πρόβα τζενεράλε» σε λίγους μήνες αρχικά μόνο στα αγγλικά, για να γίνει πραγματικότητα η τεχνολογία η μηχανή θα αντιστοιχίσει τους όρους αναζήτησης με μια βάση δεδομένων που αναπτύσσεται εδώ και περίπου δύο χρόνια. Κάθε αγγλικό λήμμα σε αυτή τη βάση δεδομένων (τοπωνύμιο, αντικείμενο, έργο τέχνης ή διασημότητα) ονομάζεται «οντότητα» (entity) και καταχωρίζεται μαζί με διάφορα χαρακτηριστικά του - για παράδειγμα, αν η «οντότητα» είναι κάποια λίμνη, τότε αυτή συνοδεύεται από χαρακτηριστικά όπως η τοποθεσία, η έκταση και το βάθος της.
Στην πραγματικότητα, η Google απέκτησε τη βάση δεδομένων το 2010, όταν εξαγόρασε την εταιρεία Metaweb Technologies που την είχε δημιουργήσει, ενώ οι τεχνικοί της Metaweb έχουν αυξήσει σήμερα τον αριθμό των λημμάτων που περιλαμβάνει στα 200 εκατομμύρια, από 12 εκατομμύρια που είχε τότε.
Σύμφωνα με τον Singhal, όσο εμπλουτίζεται η βάση με νέες οντότητες και όσο περισσότερο οι «οντότητες» συσχετίζονται μεταξύ τους, τόσο περισσότερο η μηχανή θα λειτουργεί όπως περίπου και ο ανθρώπινος εγκέφαλος αντιλαμβάνεται τον κόσμο. Παράλληλα με το να δίνει τις δικές του απαντήσεις, το «ψαχτήρι» θα συνεχίσει πάντως και στα αγγλικά να εμφανίζει λίστες με τα σάιτ που βρήκε και στα οποία υπάρχουν οι λέξεις-κλειδιά που αναζητά ο χρήστης. Με τη διαφορά ότι η νέα τεχνολογία θα το βοηθά ώστε οι λίστες να είναι πιο αξιόπιστες.
Πιο συγκεκριμένα, η ιεράρχηση των ιστοσελίδων τώρα γίνεται με αλγορίθμους, οι οποίοι λαμβάνουν υπόψη τους κριτήρια όπως η συχνότητα επανάληψης των όρων αναζήτησης ή ο αριθμός των άλλων σάιτ που παραπέμπουν σε κάποια ιστοσελίδα. Οταν όμως η μηχανή θα καταλαβαίνει το νόημα των λέξεων-κλειδιών, θα μπορεί να αξιολογεί τις ιστοσελίδες με βάση και το ευρύτερο περιεχόμενό τους. Ετσι, αν ο όρος αναζήτησης είναι οι «αρχές της φυσικής», θα συμπεραίνει ότι είναι πιο συναφή τα σάιτ όπου επίσης υπάρχουν, π.χ., όροι όπως «κβαντική μηχανική» ή «σχετικότητα», συγκριτικά με άλλα που δεν περιέχουν τέτοιες έννοιες.
Αυτό σημαίνει πως η «σημασιολογική αναζήτηση» θα αποτελέσει ένα σημαντικό εργαλείο για την Google, με σκοπό να προσδιορίζει ποια σάιτ έχουν ξεγελάσει τους αλγορίθμους της, για να εμφανίζονται ψηλά στην κατάταξη των αποτελεσμάτων. Είναι γνωστό ότι η εταιρεία αλλάζει συχνά τις παραμέτρους στους αλγορίθμους της, επειδή ορισμένες ιστοσελίδες χρησιμοποιούν τεχνάσματα για να τους «πείθουν» ότι περιέχουν χρήσιμο περιεχόμενο, παρόλο που αυτό δεν ισχύει. Αν όμως η μηχανή μπορεί να κρίνει το ίδιο το περιεχόμενο, τότε αυτές οι ιστοσελίδες θα εμφανίζονται πλέον χαμηλά στις λίστες.
[...]
http://news.kathimerini.gr/4dcgi/_w_articles_world_2_01/04/2012_477654
Σε λίγους μήνες, η αναζήτηση θα αποκτήσει σημασιολογικό χαρακτήρα
Του Κώστα Δεληγιάννη
Σήμερα, τα αποτελέσματα που θα πάρει κανείς αν γράψει στη μηχανή αναζήτησης της Google μία ερώτηση όπως «ποια είναι τα δέκα ψηλότερα βουνά στη Γη;» σε οποιαδήποτε γλώσσα, θα είναι ένας κατάλογος από ιστοσελίδες που περιέχουν όλες τις λέξεις-κλειδιά της ερώτησης. Σε λίγους μήνες ωστόσο αυτό θα αλλάξει, καθώς -όπως αποκάλυψε πρόσφατα στην εφημερίδα Wall Street Journal το ανώτερο στέλεχος της Google, Amit Singhal- για όσους το χρησιμοποιούν στα αγγλικά, το «ψαχτήρι» δεν θα λειτουργεί μόνο σαν «ιντερνετικό ευρετήριο», αλλά θα αποκτήσει ουσιαστικά τεχνητή νοημοσύνη.
Με συνέπεια να καταλαβαίνει ερωτήσεις σαν την παραπάνω, όταν είναι διατυπωμένες στα αγγλικά, και να τις απαντά άμεσα παραθέτοντας για παράδειγμα τα δέκα μεγαλύτερα βουνά με το ύψος τους.
Κι αυτό γιατί θα αρχίσει να αξιοποιεί μία νέα τεχνολογία, τη «σημασιολογική αναζήτηση». Ετσι, εκτός από το να εντοπίζει τα σάιτ στα οποία υπάρχουν οι λέξεις-κλειδιά που ψάχνει ο χρήστης, όπως συμβαίνει τώρα, το «ψαχτήρι» στο άμεσο μέλλον θα κατανοεί επίσης το νόημα των αγγλικών φράσεων που πληκτρολογεί κανείς σε αυτό. Αλλά και τι σημαίνει κάθε επιμέρους όρος, ώστε αν κανείς εισαγάγει στη μηχανή μόνο δύο λέξεις, όπως «Ernest Hemingway», αυτή να αναγνωρίσει ότι πρόκειται για τον γνωστό συγγραφέα και, πάνω από τη λίστα με τα πιο συναφή σάιτ, να εμφανίσει τα βιογραφικά του στοιχεία ή τα σημαντικότερα βιβλία του.
Η «σημασιολογική αναζήτηση» αποτελεί μία από τις μεγαλύτερες αλλαγές στον τρόπο λειτουργίας της αναζήτησης και αργότερα θα επεκταθεί ώστε να υποστηρίζει και άλλες γλώσσες, όπως τα ελληνικά. Κάνοντας «πρόβα τζενεράλε» σε λίγους μήνες αρχικά μόνο στα αγγλικά, για να γίνει πραγματικότητα η τεχνολογία η μηχανή θα αντιστοιχίσει τους όρους αναζήτησης με μια βάση δεδομένων που αναπτύσσεται εδώ και περίπου δύο χρόνια. Κάθε αγγλικό λήμμα σε αυτή τη βάση δεδομένων (τοπωνύμιο, αντικείμενο, έργο τέχνης ή διασημότητα) ονομάζεται «οντότητα» (entity) και καταχωρίζεται μαζί με διάφορα χαρακτηριστικά του - για παράδειγμα, αν η «οντότητα» είναι κάποια λίμνη, τότε αυτή συνοδεύεται από χαρακτηριστικά όπως η τοποθεσία, η έκταση και το βάθος της.
Στην πραγματικότητα, η Google απέκτησε τη βάση δεδομένων το 2010, όταν εξαγόρασε την εταιρεία Metaweb Technologies που την είχε δημιουργήσει, ενώ οι τεχνικοί της Metaweb έχουν αυξήσει σήμερα τον αριθμό των λημμάτων που περιλαμβάνει στα 200 εκατομμύρια, από 12 εκατομμύρια που είχε τότε.
Σύμφωνα με τον Singhal, όσο εμπλουτίζεται η βάση με νέες οντότητες και όσο περισσότερο οι «οντότητες» συσχετίζονται μεταξύ τους, τόσο περισσότερο η μηχανή θα λειτουργεί όπως περίπου και ο ανθρώπινος εγκέφαλος αντιλαμβάνεται τον κόσμο. Παράλληλα με το να δίνει τις δικές του απαντήσεις, το «ψαχτήρι» θα συνεχίσει πάντως και στα αγγλικά να εμφανίζει λίστες με τα σάιτ που βρήκε και στα οποία υπάρχουν οι λέξεις-κλειδιά που αναζητά ο χρήστης. Με τη διαφορά ότι η νέα τεχνολογία θα το βοηθά ώστε οι λίστες να είναι πιο αξιόπιστες.
Πιο συγκεκριμένα, η ιεράρχηση των ιστοσελίδων τώρα γίνεται με αλγορίθμους, οι οποίοι λαμβάνουν υπόψη τους κριτήρια όπως η συχνότητα επανάληψης των όρων αναζήτησης ή ο αριθμός των άλλων σάιτ που παραπέμπουν σε κάποια ιστοσελίδα. Οταν όμως η μηχανή θα καταλαβαίνει το νόημα των λέξεων-κλειδιών, θα μπορεί να αξιολογεί τις ιστοσελίδες με βάση και το ευρύτερο περιεχόμενό τους. Ετσι, αν ο όρος αναζήτησης είναι οι «αρχές της φυσικής», θα συμπεραίνει ότι είναι πιο συναφή τα σάιτ όπου επίσης υπάρχουν, π.χ., όροι όπως «κβαντική μηχανική» ή «σχετικότητα», συγκριτικά με άλλα που δεν περιέχουν τέτοιες έννοιες.
Αυτό σημαίνει πως η «σημασιολογική αναζήτηση» θα αποτελέσει ένα σημαντικό εργαλείο για την Google, με σκοπό να προσδιορίζει ποια σάιτ έχουν ξεγελάσει τους αλγορίθμους της, για να εμφανίζονται ψηλά στην κατάταξη των αποτελεσμάτων. Είναι γνωστό ότι η εταιρεία αλλάζει συχνά τις παραμέτρους στους αλγορίθμους της, επειδή ορισμένες ιστοσελίδες χρησιμοποιούν τεχνάσματα για να τους «πείθουν» ότι περιέχουν χρήσιμο περιεχόμενο, παρόλο που αυτό δεν ισχύει. Αν όμως η μηχανή μπορεί να κρίνει το ίδιο το περιεχόμενο, τότε αυτές οι ιστοσελίδες θα εμφανίζονται πλέον χαμηλά στις λίστες.
[...]
http://news.kathimerini.gr/4dcgi/_w_articles_world_2_01/04/2012_477654