{"id":2603,"date":"2016-01-21T12:56:53","date_gmt":"2016-01-21T11:56:53","guid":{"rendered":"https:\/\/blogs.uni-bremen.de\/lingwerk\/?page_id=2603"},"modified":"2016-09-09T09:39:08","modified_gmt":"2016-09-09T07:39:08","slug":"englische-korpora-offline","status":"publish","type":"page","link":"https:\/\/blogs.uni-bremen.de\/lingwerk\/englische-korpora-offline\/","title":{"rendered":"Englische Korpora offline"},"content":{"rendered":"<p>Neben der gro\u00dfen Zahl an online verf\u00fcgbarer Korpora stehen im <a href=\"http:\/\/www.fb10.uni-bremen.de\/fb10ciplab\/default.aspx\" target=\"_blank\">CIP-Labor<\/a> des Fachbereichs 10 einige lokale Korpora zur Verf\u00fcgung. Diese Korpora k\u00f6nnen mit <a href=\"https:\/\/blogs.uni-bremen.de\/lingwerk\/korpuslinguistik\/concordancesoftware\/\" target=\"_blank\">Konkordanz-Software<\/a> wie <a href=\"http:\/\/www.laurenceanthony.net\/software.html\" target=\"_blank\">AntConc<\/a> oder WordSmithTools genutzt werden.<\/p>\n<h2>Korpora der sog. &#8222;Brown family of corpora&#8220;<\/h2>\n<p><a href=\"https:\/\/blogs.uni-bremen.de\/lingwerk\/files\/2016\/01\/Brownetal.jpg\" data-rel=\"lightbox-image-0\" data-rl_title=\"\" data-rl_caption=\"\" title=\"\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-3209\" src=\"https:\/\/blogs.uni-bremen.de\/lingwerk\/files\/2016\/01\/Brownetal-300x181.jpg\" alt=\"brownetal\" width=\"406\" height=\"245\" \/><\/a><\/p>\n<ul>\n<li><strong>The Brown University Corpus (Brown)<\/strong>.<span style=\"font-family: 'Trebuchet MS', serif\"><span lang=\"en-US\">The 1<\/span><\/span><sup><span style=\"font-family: 'Trebuchet MS', serif\"><span lang=\"en-US\">st<\/span><\/span><\/sup><span style=\"font-family: 'Trebuchet MS', serif\"><span lang=\"en-US\"> modern corpus of English; edited AmE, text samples from 15 categories (genres).Time span: 1961. Written corpus.\u00a0<\/span><\/span>1million words,\u00a0500 text samples (2000 words\u00a0each)<\/li>\n<\/ul>\n<ul>\n<li><strong>The Lancaster Oslo\/Bergen Corpus (LOB)<\/strong>.\u00a0<span style=\"font-family: 'Trebuchet MS', serif\"><span lang=\"en-US\">British match for the BROWN, edited BrE, text samples from 15 categories (see BROWN). Time span 1961. Written corpus. 1 million words.<\/span><\/span><\/li>\n<\/ul>\n<ul>\n<li><strong>The Freiburg Brown Corpus.<\/strong>\u00a0<span style=\"font-family: 'Trebuchet MS', serif\"><span lang=\"en-US\">American English, text samples from 15 categories (genres). Time span: 1992. Written corpus. 1 million words.<\/span><\/span><\/li>\n<\/ul>\n<ul>\n<li><strong>The Freiburg-Lancaster-Oslo\/Bergen Corpus (FLOB).<\/strong><span style=\"font-family: 'Trebuchet MS', serif\"><span lang=\"en-US\">British match for the FROWN,\u00a0<\/span><\/span><span style=\"font-family: 'Trebuchet MS', serif\"><span lang=\"en-US\">edited British English, text samples from 15 categories (genres). Times Span: 1991. Written corpus. 1 million words.<\/span><\/span><\/li>\n<\/ul>\n<ul>\n<li><strong>The Australian Corpus of English (ACE).<\/strong>\u00a0<span style=\"font-family: 'Trebuchet MS', serif\"><span lang=\"en-US\">Australian match for the BROWN (mind: a different time span), text samples from 15 categories (see BROWN). Time span: 1986. Written corpus.\u00a0<\/span><\/span>1million words,\u00a0500 text samples (2000 words each).<\/li>\n<\/ul>\n<ul>\n<li><strong>The Wellington Corpus of Spoken New Zealand English (WSC).<\/strong> Formal, semi-formal and informal speech, monologue and dialogue, broadcast and private. Time span: 1988-1994. (90% 1990-1994). Spoken corpus. 1 million words, 2000 words extracts.<\/li>\n<\/ul>\n<ul>\n<li><strong>The Wellingten Corpus of Written New Zealand English (WWC).<\/strong>\u00a0<span class=\"s9\">New Zealand match for the LOB (mind: a different time span), \u00a0text samples from 10 categories (see\u00a0<\/span><span class=\"s9\">the\u00a0<\/span><span class=\"s9\">LOB). Time span: 1986-1990. Written corpus. 1 million words, 500 text samples.<\/span><\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<h2><strong>Weitere Korpora zu Variet\u00e4ten des Englischen<\/strong><\/h2>\n<ul>\n<li><strong>The Corpus of Spoken American English (the Santa Barbara Corpus) (CSAE).<\/strong>\u00a0<span class=\"s9\">Spontaneous speech,\u00a0<\/span><span class=\"s9\">American English<\/span><span class=\"s9\">, different text types (e.g.<\/span><span class=\"s9\">dialogue, story-telling, food preparation<\/span><span class=\"s9\">)<\/span><span class=\"s9\">;\u00a0<\/span><span class=\"s9\">speech files. Time span: 1991. Spoken corpus. 249.000 words.<\/span><\/li>\n<\/ul>\n<ul>\n<li><strong><a href=\"http:\/\/ice-corpora.net\/ice\/\" target=\"_blank\">The International Corpus of English (ICE)<\/a>.<\/strong>\u00a0<span class=\"s9\">World\u00a0<\/span><span class=\"s9\">Englishes<\/span><span class=\"s9\">, different genres\u00a0<\/span><span class=\"s9\">(e.g. broadcast news, press news reports, novels, short stories). \u00a0Time span: 1990s till present. 60% spoken, 40% written. 1 million words (500 samples, 2000 words each) for each variety covered. Annotation: POS tagging, syntactic parsing. Components: Great Britain (ICE GB), East Africa (ICE EA), Hong Kong (ICE HK), India (ICE IND), Philippines (ICE PHI), Jamaica (ICE JA), New Zealand (ICE NZ).<\/span><\/li>\n<\/ul>\n<h2><\/h2>\n<h2>Diachrone Korpora<\/h2>\n<ul>\n<li><strong><span lang=\"en-US\">A Representative Corpus of Historical English Registers, <\/span><\/strong><span lang=\"en-US\"><strong>Version 3.1. (ARCHER).<\/strong>\u00a0<span class=\"s9\">British English and American English<\/span><span class=\"s9\">, various genres<\/span><span class=\"s9\">\u00a0(e.g. fictional conversation, letters, news). Time span: 1950-1990. Written Corpus. 1,7 million words.<\/span><\/span><\/li>\n<\/ul>\n<h2><\/h2>\n<h2>Lernerkorpora<\/h2>\n<ul>\n<li><strong>The Louvain Corpus of Native English Essays (LOCNESS).<\/strong> Native English essays, British and American students. Comparable to the ICLE. Written Corpus. 324.000 million words.<\/li>\n<\/ul>\n<ul>\n<ul>\n<li><strong>The International Corpus of Learner English (Versions 1 and 2). (ICLE, ICLEv2).<\/strong>\u00a0<span class=\"s8\">Essays written by\u00a0<\/span><span class=\"s8\">\u2018<\/span><span class=\"s8\">advanced<\/span><span class=\"s8\">\u2019\u00a0<\/span><span class=\"s8\">students of English, various L1 backgrounds (e.g. Bulgarian, Chinese)<\/span><span class=\"s8\">. Comparable to\u00a0<\/span><span class=\"s8\">the\u00a0<\/span><span class=\"s8\">LOCNESS<\/span><span class=\"s8\">.<\/span><span class=\"s8\">\u00a0Version 2 contains more data and a built-in concordancer. Time span: Project start 1990. Release 2002 and 2009. Written corpus.<\/span><br \/>\nVersion 1: 2.5\u00a0million words.Version 2: 3.7 million words. Annotation:\u00a0POS, lemmas, gender, age, type of task.<\/li>\n<li>\n<p class=\"s7\"><strong>The Louvain Corpus of English Native Conversation (LOCNEC).\u00a0<\/strong><span class=\"s8\">Oral data (interviews) produced by\u00a0<\/span><span class=\"s8\">English native speakers (students). Comparable to\u00a0<\/span><span class=\"s8\">LINDSEI. \u00a0Spoken corpus.\u00a0<span class=\"s14\">162,000 words.<\/span><\/span><\/p>\n<\/li>\n<\/ul>\n<ul>\n<li><strong>The Louvain International Database of Spoken English Interlanguage (LINDSEI).\u00a0<\/strong>Oral data (interviews) produced by advanced students of English, various L1 backgrounds. Time Span: Project start 1995, corpus release 2010.<\/li>\n<\/ul>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Neben der gro\u00dfen Zahl an online verf\u00fcgbarer Korpora stehen im CIP-Labor des Fachbereichs 10 einige lokale Korpora zur Verf\u00fcgung. Diese Korpora k\u00f6nnen mit Konkordanz-Software wie AntConc oder WordSmithTools genutzt werden. Korpora der sog. &#8222;Brown family of corpora&#8220; The Brown University Corpus (Brown).The 1st modern corpus of English; edited AmE, text samples from 15 categories (genres).Time [&hellip;]<\/p>\n","protected":false},"author":4425,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_bbp_topic_count":0,"_bbp_reply_count":0,"_bbp_total_topic_count":0,"_bbp_total_reply_count":0,"_bbp_voice_count":0,"_bbp_anonymous_reply_count":0,"_bbp_topic_count_hidden":0,"_bbp_reply_count_hidden":0,"_bbp_forum_subforum_count":0,"ngg_post_thumbnail":0,"footnotes":""},"class_list":["post-2603","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/blogs.uni-bremen.de\/lingwerk\/wp-json\/wp\/v2\/pages\/2603","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blogs.uni-bremen.de\/lingwerk\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/blogs.uni-bremen.de\/lingwerk\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/blogs.uni-bremen.de\/lingwerk\/wp-json\/wp\/v2\/users\/4425"}],"replies":[{"embeddable":true,"href":"https:\/\/blogs.uni-bremen.de\/lingwerk\/wp-json\/wp\/v2\/comments?post=2603"}],"version-history":[{"count":5,"href":"https:\/\/blogs.uni-bremen.de\/lingwerk\/wp-json\/wp\/v2\/pages\/2603\/revisions"}],"predecessor-version":[{"id":2699,"href":"https:\/\/blogs.uni-bremen.de\/lingwerk\/wp-json\/wp\/v2\/pages\/2603\/revisions\/2699"}],"wp:attachment":[{"href":"https:\/\/blogs.uni-bremen.de\/lingwerk\/wp-json\/wp\/v2\/media?parent=2603"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}