Μονόγλωσσα σώματα κειμένων

Μια και ήδη αναφερθήκαμε στα σώματα κειμένων για τα Αγγλικά σε άλλο νήμα δεν θα τα αναφέρω εδώ. Μπορείτε να τα δείτε ακολουθώντας τούτο τον σύνδεσμο.

Γερμανικά:

COSMAS: http://corpora.ids-mannheim.de/ccdb/ ... Ένα σώμα κειμένων με... ελληνικό όνομα :) Προσέξτε το ωραίο λεξοσυννεφάκι στα δεξιά της σελίδας. Δείχνει σημασιολογικές συνδέσεις ανάμεσα σε διάφορες λέξεις.

Λίστες συχνότητας:



Γαλλικά:
FreeText (French in Context): http://129.194.19.89:8001/
Είναι μια δοκιμαστική παρουσίαση. Για κωδικό πρόσβασης στείλτε ηλεμήνυμα στον [email protected]

ARTFL-FRANText: http://artfl-project.uchicago.edu/content/artfl-frantext2,900 κείμενα στα Γαλλικά. Καλύπτει την περίοδο από τον 12ο αιώνα ως τον 20ο με 168 εκατομμύρια λέξεις. (Αν ακολουθήσετε τον σύνδεσμο Time Series μπορείτε να κάνετε αναζητήσεις βάσει αιώνα).

Dictionnaires d'autrefois: Αν και το επόμενο δεν είναι καθαυτό σώμα κειμένων, όμως μπορείτε με μια αναζήτηση να ψάξετε τα Jean Nicot Thresor de la langue française (1606), Jean-François Féraud Dictionaire critique de la langue française (1787-1788), Émile Littré Dictionnaire de la langue française (1872-1877) και το λεξικό της γαλλικής Ακαδημίας Dictionnaire de L'Académie française στις εκδόσεις του 1694, του 1762, του 1798, του 1835, και του 1932-5: http://artfl-project.uchicago.edu/content/dictionnaires-dautrefois

Γενικά το ARTFL Project του University of Chicago έχει καλές πηγές για τα Γαλλικά. Ενδεικτικά αναφέρω άλλα κείμενα που περιλαμβάνει και στα οποία μπορείτε να εκτελέσετε αναζητήσεις:
The ARTFL Encyclopédie, Supplément à l'Encyclopédie, The Bibliothèque bleue de Troyes, The Montaigne Project, Artamène ou le Grand Cyrus, Ephraim Chamber's Cyclopaedia, Balzac. La Comédie humaine, CRL Pamphlets and Periodicals of the French Revolution of 1848, The Image of France, Multilingual Bible Project, Perseus under PhiloLogic.

Λίστες συχνότητας:
http://www.loria.fr/~bonhomme/sw/ (αυτή περιέχει Γερμανικά, Γαλλικά και Αγγλικά)


Ιταλικά:
Banca dati dell' Italiano Parlato (BADIP): http://badip.uni-graz.at/index.php?option=com_badip&view=vsearch&Itemid=9&lang=en. Είναι μικρούλι (μόλις 490 χιλιάδες λέξεις).

Ισπανικά:
Corpus of Historical Spanish (CORDE):
http://www.corpusdelespanol.org/ (Ανήκει στην οικογένεια σωμάτων κειμένων που έχει επιβλέψει ο Mark Davies του οποίου ήδη αναφέραμε άλλα δύο έργα: COHE και COCA)

Universidad Autonoma de Madrid (UAM): Η διεύθυνση είναι (προσέξτε ότι για κωδικό λέει να χρησιμοποιήσετε τη διεύθυνση του ηλεκτρονικού σας ταχυδρομείου, πράγμα που σημαίνει ίσως ότι θα πρέπει να επικοινωνήσετε πρώτα με το τμήμα για να καταχωρίσουν τη διεύθυνσή σας πριν μπείτε):

Host: lola.lllf.uam.es
Login: anonymous
Password: <send your e-mail address>

Τα σώματα κειμένων μπορείτε να τα κατεβάσετε από το εργαστήριο μαζί με την τεκμηρίωσή τους. Τα σώματα κειμένων είναι για ορθογραφική μεταγραφή προφορικού λόγου και για γραπτά κείμενα από Αργεντική και Χιλή.

Ποικίλου ενδιαφέροντος
Για όσους ενδιαφέρονται για την ονοματολογία, μην ξεχνάτε τη λίστα συχνότητας του US Census:http://www.census.gov/genealogy/www/data/1990surnames/index.html

CLUVI Parallel Corpus: http://sli.uvigo.es/CLUVI/index_en.html Σώμα κειμένων του Πανεπιστημίου Βίγκο. Περιέχει κυρίως συνδυασμούς προς Ισπανικά, Βασκικά, Καταλανικά αλλά και έχει και συνδυασμούς με Γερμανικά.

Υπάρχουν σώματα και για άλλους συνδυασμούς. Αν θέλετε και άλλα, αφήστε μήνυμα :)
 
Χαρά μου να μοιράζομαι πηγές... Θα προσθέσω και κάποια αγγλικά παραπάνω (για να μην παραπονιούνται οι Αυστραλοί και Νεοζηλανδοί, χεε) αλλά έχω ένα μικρό πρόβλημα γιατί κάποια όπως το Cobuild ήταν ανοιχτά για το κοινό και τα κλείνουν ένα-ένα με συνδρομές....
 
Top