PDA

View Full Version : COHA - Corpus Of Historical American English



Costas
09-09-2010, 08:15 PM
400 million words, 1810-2009 (http://corpus.byu.edu/coha/). Από The Linguist List (http://linguistlist.org/issues/21/21-3572.html) μέσω Glosinform.

Leximaniac
09-09-2010, 08:18 PM
Kαι ας μην ξεχνάμε και τα υπόλοιπα σώματα κειμένων:


Cambridge International Corpus: http://www.cambridge.org/elt/corpus/international_corpus.htm
Cambridge Learners' Corpus:http://www.cambridge.org/elt/corpus/learner_corpus.htm
British National Corpus: http://www.natcorp.ox.ac.uk/
Contemporary English Corpus: http://www.americancorpus.org/
TIME Corpus: http://corpus.byu.edu/time/
Collins Wordbanks Online English corpus: http://www.collins.co.uk/Corpus/CorpusSearch.aspx
Stanform's Resource Page with corpora and treebanks: http://nlp.stanford.edu/links/statnlp.html#PartLang

nickel
09-09-2010, 08:39 PM
Του Cambridge δεν διατίθενται στο κοινό, απ' όσο ξέρω. Ξέρω τα αγγλικά (BNC και Collins, τα έχω και στον υπολογιστή μου, αλλά έχουν αρχίσει να παλιώνουν, του υπολογιστή μου τουλάχιστον). Βλέπω τα αμερικάνικα για πρώτη φορά και φαίνεται να έχουν ενδιαφέρον. Θα τα δοκιμάσω αυτές τις μέρες, να δούμε τι καλούδια έχουν.

Leximaniac
09-09-2010, 08:44 PM
Χμμ... η αλήθεια είναι ότι είχα καιρό να παίξω στο Cambridge αλλά το είχα ανάμεσα στα σώματα με διαδικτυακή πρόσβαση.... μούμπλε μούμπλε...

nickel
09-09-2010, 08:55 PM
Του Time (που είναι δωρεάν) είναι θησαυρός. Του έβαλα το strongman και, ανάμεσα στις πρώτες δεκάδες ευρήματα μού έδωσε και αυτό από το 1945:
Some Greeks were pleased. They remembered Plastiras as the democratic strongman who helped depose King Constantine in 1922, King George II the following year.

Leximaniac
10-09-2010, 09:14 AM
Ας προσθέσω εδώ επίσης και το Corpus of Contemporary English (COCA): http://www.americancorpus.org/ (410+ million words covering US 1990-2010)

Υπάρχουν και μονόγλωσσα σώματα κειμένων για άλλες γλώσσες. Ενδιαφέρεται κανείς να τα ανεβάσω;

Έντιτ: Είδες τι παθαίνει όποιος γράψει ΠΡΙΝ πιει καφέ; Το έχω ήδη αναφέρει στο αρχικό μου μήνυμα... αμ δε πάμε καλά (με φωνή Αυλωνίτη).... καλά που είναι TGIF σήμερις

nickel
10-09-2010, 11:40 AM
Υπάρχουν και μονόγλωσσα σώματα κειμένων για άλλες γλώσσες. Ενδιαφέρεται κανείς να τα ανεβάσω;
Εμένα μου φτάνουν και μου περισσεύουν τα αγγλικά, αλλά ίσως να μην είμαι ο μόνος... κορπολάγνος εδώ μέσα.


καλά που είναι TGIF σήμερις
Κανονικά δεν έπρεπε να σου απαντήσω. Δεν μιλάω σε όσους δουλεύουν πενθήμερο.

Costas
10-09-2010, 02:28 PM
Υπάρχουν και μονόγλωσσα σώματα κειμένων για άλλες γλώσσες. Ενδιαφέρεται κανείς να τα ανεβάσω;
Φυσικά! (γαλλικά, ιταλικά)

drsiebenmal
10-09-2010, 02:49 PM
Ε, αν κάνεις το ψυχικό, κάν'το και για γερμανικά... :)

Leximaniac
11-09-2010, 07:13 PM
Το ψυχικό έγινε :):):)... Δείτε εδώ (http://www.lexilogia.gr/forum/showthread.php?p=79860#post79860)(είπα να μην τα βάλω όλα εδώ αλλά να φτιάξω ξεχωριστό νήμα).

nickel
30-07-2011, 02:16 PM
Προ ημερών ο Σαραντάκος είχε κάνει κουίζ για τα τρία συχνότερα ουσιαστικά στο σώμα νεοελληνικών κειμένων που έχει συγκεντρώσει.
http://sarantakos.wordpress.com/2011/07/22/quiz-corpus/

Διαβάζω τώρα σε άρθρο των NYΤ με τίτλο The Jargon of the Novel, Computed για δουλειά που αξιοποιεί το COCA που αναφέραμε παραπάνω.

Μια πρώτη ενδιαφέρουσα παράγραφος:

Suppose we’re interested in looking at past-tense verbs. The most common examples in COCA are nondescript: “said,” “came,” “got,” “went,” “made,” “took” and so on. On the surface, the fiction offerings aren’t that different: “said” is still the big winner, while some others move up the list a few spots, like “looked,” “knew” and “thought.” But ask COCA which past-tense verbs show up more frequently in fiction compared with, say, academic prose, and things start to get interesting: the top five are “grimaced,” “scowled,” “grunted,” “wiggled” and “gritted.” Sour facial expressions, gruff noises and emphatic bodily movements (wiggling fingers and gritting teeth) would seem to rule the verbs peculiar to today’s published fiction.

Αλλά, περισσότερα εκεί (http://www.nytimes.com/2011/07/31/books/review/the-mechanic-muse-the-jargon-of-the-novel-computed.html?_r=2&nl=books&emc=booksupdateema3).