COHA - Corpus Of Historical American English

Kαι ας μην ξεχνάμε και τα υπόλοιπα σώματα κειμένων:

  1. Cambridge International Corpus: http://www.cambridge.org/elt/corpus/international_corpus.htm
  2. Cambridge Learners' Corpus:http://www.cambridge.org/elt/corpus/learner_corpus.htm
  3. British National Corpus: http://www.natcorp.ox.ac.uk/
  4. Contemporary English Corpus: http://www.americancorpus.org/
  5. TIME Corpus: http://corpus.byu.edu/time/
  6. Collins Wordbanks Online English corpus: http://www.collins.co.uk/Corpus/CorpusSearch.aspx
  7. Stanform's Resource Page with corpora and treebanks: http://nlp.stanford.edu/links/statnlp.html#PartLang
 

nickel

Administrator
Staff member
Του Cambridge δεν διατίθενται στο κοινό, απ' όσο ξέρω. Ξέρω τα αγγλικά (BNC και Collins, τα έχω και στον υπολογιστή μου, αλλά έχουν αρχίσει να παλιώνουν, του υπολογιστή μου τουλάχιστον). Βλέπω τα αμερικάνικα για πρώτη φορά και φαίνεται να έχουν ενδιαφέρον. Θα τα δοκιμάσω αυτές τις μέρες, να δούμε τι καλούδια έχουν.
 
Χμμ... η αλήθεια είναι ότι είχα καιρό να παίξω στο Cambridge αλλά το είχα ανάμεσα στα σώματα με διαδικτυακή πρόσβαση.... μούμπλε μούμπλε...
 

nickel

Administrator
Staff member
Του Time (που είναι δωρεάν) είναι θησαυρός. Του έβαλα το strongman και, ανάμεσα στις πρώτες δεκάδες ευρήματα μού έδωσε και αυτό από το 1945:
Some Greeks were pleased. They remembered Plastiras as the democratic strongman who helped depose King Constantine in 1922, King George II the following year.
 
Ας προσθέσω εδώ επίσης και το Corpus of Contemporary English (COCA): http://www.americancorpus.org/ (410+ million words covering US 1990-2010)

Υπάρχουν και μονόγλωσσα σώματα κειμένων για άλλες γλώσσες. Ενδιαφέρεται κανείς να τα ανεβάσω;

Έντιτ: Είδες τι παθαίνει όποιος γράψει ΠΡΙΝ πιει καφέ; Το έχω ήδη αναφέρει στο αρχικό μου μήνυμα... αμ δε πάμε καλά (με φωνή Αυλωνίτη).... καλά που είναι TGIF σήμερις
 

nickel

Administrator
Staff member
Υπάρχουν και μονόγλωσσα σώματα κειμένων για άλλες γλώσσες. Ενδιαφέρεται κανείς να τα ανεβάσω;
Εμένα μου φτάνουν και μου περισσεύουν τα αγγλικά, αλλά ίσως να μην είμαι ο μόνος... κορπολάγνος εδώ μέσα.

καλά που είναι TGIF σήμερις
Κανονικά δεν έπρεπε να σου απαντήσω. Δεν μιλάω σε όσους δουλεύουν πενθήμερο.
 
Το ψυχικό έγινε :):):)... Δείτε εδώ (είπα να μην τα βάλω όλα εδώ αλλά να φτιάξω ξεχωριστό νήμα).
 

nickel

Administrator
Staff member
Προ ημερών ο Σαραντάκος είχε κάνει κουίζ για τα τρία συχνότερα ουσιαστικά στο σώμα νεοελληνικών κειμένων που έχει συγκεντρώσει.
http://sarantakos.wordpress.com/2011/07/22/quiz-corpus/

Διαβάζω τώρα σε άρθρο των NYΤ με τίτλο The Jargon of the Novel, Computed για δουλειά που αξιοποιεί το COCA που αναφέραμε παραπάνω.

Μια πρώτη ενδιαφέρουσα παράγραφος:
Suppose we’re interested in looking at past-tense verbs. The most common examples in COCA are nondescript: “said,” “came,” “got,” “went,” “made,” “took” and so on. On the surface, the fiction offerings aren’t that different: “said” is still the big winner, while some others move up the list a few spots, like “looked,” “knew” and “thought.” But ask COCA which past-tense verbs show up more frequently in fiction compared with, say, academic prose, and things start to get interesting: the top five are “grimaced,” “scowled,” “grunted,” “wiggled” and “gritted.” Sour facial expressions, gruff noises and emphatic bodily movements (wiggling fingers and gritting teeth) would seem to rule the verbs peculiar to today’s published fiction.

Αλλά, περισσότερα εκεί.
 
Top