Με έχει συνεπάρει αυτή η υπόθεση με την μετατροπή των Google books σε σώμα κειμένων, κάτι που θα γινόταν αργά ή γρήγορα, απλώς δεν ξέραμε ποια θα ήταν η συγκεκριμένη εφαρμογή. Όπως θα αντιληφθήκατε από την αναφορά που έχει ήδη γίνει εδώ, η αξιοποίηση του τεράστιου σώματος κειμένων από τα σκαναρισμένα βιβλία του Google έδωσε τώρα μια ανάλυση του πολιτιστικού γονιδιώματος ορισμένων γλωσσών, με πρώτη και κύρια την αγγλική. Ήδη έχουν γραφτεί αρκετά για το θέμα και θα γραφτούν περισσότερα. Ενδιαφέρον έχει το άρθρο στην εφημερίδα Guardian:
http://www.guardian.co.uk/science/2010/dec/16/google-tool-english-cultural-trends
Το αποτέλεσμα μπορείτε να το δοκιμάσετε εδώ:
http://ngrams.googlelabs.com/
Είμαι βέβαιος ότι οι λεξικογράφοι του OED και των άλλων μεγάλων λεξικών έχουν ήδη κατεβάσει από εδώ τις λεξικές μονάδες και προσπαθούν να καταλάβουν αν καλώς δεν περιλαμβάνουν στα λεξικά τους τις μισές λέξεις της αγγλικής γλώσσας (το deletable κακώς λείπει —μέχρι και ο ορθογράφος του Firefox το ξέρει— και, με την ευκαιρία, ας προσθέσουν και το undeletable — και τα δύο υπάρχουν στις μνήμες της Microsoft):
Στην εποχή μας ισχύει ακόμα περισσότερο το Sic transit gloria mundi:
Διαβάζω επίσης:
Θα έπρεπε με νόμο, όπως κάθε εκδότης καταθέτει αντίτυπα ενός βιβλίου του στην Εθνική Βιβλιοθήκη, να καταθέτει και ένα ποσοστό 10% από το ψηφιακό περιεχόμενο του βιβλίου του σε κάποιο κέντρο ερευνών. Έτσι και με τα Γκουγκλοβιβλία: αν υπάρχει το σύνολο των βιβλίων του περασμένου αιώνα σε ψηφιακή μορφή και μπορούμε να χρησιμοποιήσουμε το 10% για έρευνα, τα αποτελέσματα θα είναι αξιόπιστα.
Θα επανέλθω και με άλλα ενδιαφέροντα σημεία της μελέτης, αλλά προς το παρόν θα ήθελα να δούμε την απόδοση των δύο όρων του τίτλου. Όπως έχουμε το genome > γονιδίωμα, αυτή η ψηφιακή καταγραφή του πολιτισμού μας μέσα από τα βιβλία ονομάστηκε culturome, δημιουργήθηκε επίθετο culturomic (π.χ. culturomic analysis) και:
«Culturomics is the application of high-throughput data collection and analysis to the study of human culture. Books are a beginning, but we must also incorporate newspapers (29), manuscripts (30), maps (31), artwork (32), and a myriad of other human creations (33, 34). Of course, many voices – already lost to time – lie forever beyond our reach».
Έχουμε πει ότι για τα -omics έχουμε την -ωματική (αφού πρώτα έχουμε το -ωμα για το -ome). Πείτε λοιπόν πού καταλήγουμε για την απόδοση αυτών των όρων. Πολιτίσμωμα; Πολιτισμωματική;
http://www.guardian.co.uk/science/2010/dec/16/google-tool-english-cultural-trends
Το αποτέλεσμα μπορείτε να το δοκιμάσετε εδώ:
http://ngrams.googlelabs.com/
Είμαι βέβαιος ότι οι λεξικογράφοι του OED και των άλλων μεγάλων λεξικών έχουν ήδη κατεβάσει από εδώ τις λεξικές μονάδες και προσπαθούν να καταλάβουν αν καλώς δεν περιλαμβάνουν στα λεξικά τους τις μισές λέξεις της αγγλικής γλώσσας (το deletable κακώς λείπει —μέχρι και ο ορθογράφος του Firefox το ξέρει— και, με την ευκαιρία, ας προσθέσουν και το undeletable — και τα δύο υπάρχουν στις μνήμες της Microsoft):
In their initial analysis of the database, the team found that around 8,500 new words enter the English language every year and the lexicon grew by 70% between 1950 and 2000. But most of these words do not appear in dictionaries. "We estimated that 52% of the English lexicon – the majority of words used in English books – consist of lexical 'dark matter' undocumented in standard references."
Στην εποχή μας ισχύει ακόμα περισσότερο το Sic transit gloria mundi:
"People are getting more famous than ever before," wrote the researchers, "but are being forgotten more rapidly than ever."
Διαβάζω επίσης:
This refinement of the database would be possible, he said, but there is a problem for most of the works published in the 20th century because they are still in copyright.
Θα έπρεπε με νόμο, όπως κάθε εκδότης καταθέτει αντίτυπα ενός βιβλίου του στην Εθνική Βιβλιοθήκη, να καταθέτει και ένα ποσοστό 10% από το ψηφιακό περιεχόμενο του βιβλίου του σε κάποιο κέντρο ερευνών. Έτσι και με τα Γκουγκλοβιβλία: αν υπάρχει το σύνολο των βιβλίων του περασμένου αιώνα σε ψηφιακή μορφή και μπορούμε να χρησιμοποιήσουμε το 10% για έρευνα, τα αποτελέσματα θα είναι αξιόπιστα.
Θα επανέλθω και με άλλα ενδιαφέροντα σημεία της μελέτης, αλλά προς το παρόν θα ήθελα να δούμε την απόδοση των δύο όρων του τίτλου. Όπως έχουμε το genome > γονιδίωμα, αυτή η ψηφιακή καταγραφή του πολιτισμού μας μέσα από τα βιβλία ονομάστηκε culturome, δημιουργήθηκε επίθετο culturomic (π.χ. culturomic analysis) και:
«Culturomics is the application of high-throughput data collection and analysis to the study of human culture. Books are a beginning, but we must also incorporate newspapers (29), manuscripts (30), maps (31), artwork (32), and a myriad of other human creations (33, 34). Of course, many voices – already lost to time – lie forever beyond our reach».
Έχουμε πει ότι για τα -omics έχουμε την -ωματική (αφού πρώτα έχουμε το -ωμα για το -ome). Πείτε λοιπόν πού καταλήγουμε για την απόδοση αυτών των όρων. Πολιτίσμωμα; Πολιτισμωματική;