class: center, middle, inverse, title-slide # Neue Verbalanglizismen in Sozialmedien: Eine Korpusuntersuchung ###
Steven Coats
Englische Philologie
steven.coats@oulu.fi
###
Universität Oulu
8 April 2019
--- class: inverse, center, middle background-image: url(http://cc.oulu.fi/~scoats/oululogoRedTransparent.png); background-repeat: no-repeat; background-size: 80px 57px; background-position:right top; exclude: true --- layout: true <div class="my-header"><img border="0" alt="W3Schools" src="http://cc.oulu.fi/~scoats/oululogonewEng.png" width="80" height="80"></div> <div class="my-footer"><span>Steven Coats                  Neue Verbalanglizismen in Sozialmedien | Coats</span></div> --- <div class="my-header"><img border="0" alt="W3Schools" src="http://cc.oulu.fi/~scoats/oululogonewEng.png" width="80" height="80"></div> <div class="my-footer"><span>Steven Coats                      Neue Verbalanglizismen in Sozialmedien</span></div> ## Übersicht 1. Verbalanglizismen 2. Datensammlung und Korpuszusammenstellung 3. Generierung von neuen Anglizismen 4. Ergebnisse: Häufigkeit und Variation .footnote[Slides zu finden bei https://cc.oulu.fi/~scoats] --- <div class="my-header"><img border="0" alt="W3Schools" src="http://cc.oulu.fi/~scoats/NewLogoRussianPNG1.png" width="80" height="80"></div> <div class="my-footer"><span>Steven Coats                      Neue Verbalanglizismen in Sozialmedien</span></div> ### Anglizismen - Anglizismus: "A word or idiom that is recognizably English in its form (spelling, pronunciation, morphology, or at least one of the three), but is accepted as an item in the vocabulary of the receptor language" .small[(Görlach 2003: 1)] -- - Anglizismen in der deutschen Sprache spätestens seit 17./18. Jh.: .best_studio[Plantation, elektrisch, Rum] .small[(von Polenz 1994: 103)], Zunahme seit 19. Jh., insbesondere seit dem 2. Weltkrieg .small[(Carstensen 1965, Yang 1990, Onysko 2007, Burmasowa 2010)] -- - Anglizismen (und andere Entlehnungen) sind meist Nomina/Adjektiva; nur ca. 5% Verben .small[(Eisenberg 2013)] -- - Verben (und Verbalentlehnungen): morphologische Vielfalt → systematische Veränderungen in Semantik, Phonologie, Syntax → Relevanz für Sprachwandelforschung -- - Diese Untersuchung: Häufigkeit und orthographische Variation von **neuen Verbalanglizismen** --- ### Alte und neue Verbalanglizismen Viele Verbalanglizismen sind bereits fest verankert im deutschen Wortschatz, z.B. *starten*, *stoppen*, *testen*, *trainieren*, *flirten*, oder *boykottieren* .small[(Eisenberg 2013: 84)] Twitterbeispiele: - .best_studio[ich bin scheiße im **flirten**] - .best_studio[Wenn Frauen etwas **boykottieren**, machen sie dann eigentlich einen Girlkott?] -- Andere sind seltener oder gelten noch nicht als deutsche Wörter, z.B. *updaten*, *followen*, *sleepen*, oder *watchen* - .best_studio[Ich glaube ich gehe gleich mal **sleepen**!![](https://twemoji.maxcdn.com/16x16/1f634.png)] - .best_studio[Welchen #NBA Game sollte ich heute Nacht watchen?] -- Welche neuen Anglizismen werden verwendet, und wie variieren sie? --- ### Zu untersuchende Formen Infinitiv, Partizip I. (Infintiv + .best_studio[-d], z.B. .best_studio[arbeiten - arbeitend] , .best_studio[sagen - sagend]), Partizip II. (Zirkumfigierung des Verbstammes mit .best_studio[ge-] und .best_studio[-(e)t] (schwache Verben), z.B. .best_studio[arbeiten - gearbeitet], .best_studio[sagen - gesagt]) -- Partizip II. zeigt Variation: Manchmal assimiliert es zur deutschen Orthgraphie, manchmal behält es -*ed* vom engl. Partizip - .best_studio[liken: gelikt/geliked], .best_studio[crashen: gecrasht/gecrashed], .best_studio[featuren: gefeaturt/gefeatured] -- Assimilierte und Halbassimilierte Partizipien können als Adjektive flektiert werden - .best_studio[ein gelikt**es**/geliked**es** Foto, die geleakt**e**/geleaked**e** Episode] -- Gibt es einen Zusammenhang zwischen Häufigkeit, Assimilierung, und adjektivischer Verwendung? --- ### Produktivität des Verbstammes: Partikelverben, Präfixverben, und .best_studio[-ier-/-isier-] Verbbildung durch Partikel- (trennbar) und Präfixderivation (untrennbar) - .best_studio[sagen]: .best_studio[**ab**sagen], .best_studio[**an**sagen], .best_studio[**aus**sagen], .best_studio[**be**sagt], .best_studio[**ver**sagen], usw. -- .best_studio[-ier-/-isier-]: "der mit Abstand wichtigste und produktivste Verbalisierer, über den das Deutsche verfügt" .small[(Eisenberg 2011: 244)] - Fr. .best_studio[saluer] → .best_studio[saluieren], 12. Jh. .small[(Öhmann 1970)], Lat. .best_studio[agere → agieren], Fr. .best_studio[discuter → diskutieren, légaliser → legalisieren], usw. Verbalanglizismen mit Präfixen gibt es "so gut wie nicht" in einem Korpus aus verschiedenen Textgattungen .small[(Eisenberg 2013: 114)] -- Sind diese Derivationsmöglichkeiten produktiv bei den neuen Verbalanglizismen? --- ### Daten: Ein Korpus von Twitter - Im Vergleich zu etablierten Textgenres wie Nachrichten, Belletristik, Wissenschaft u.a. weisen Texte auf Sozialmedien viele nicht-standarde Formen auf - Freier Zugang zu Twitterdateien → große Korpora → seltene Formen auch bezeugt - 653,457,659 Tweets mit *place* Metadata von November 2016 bis Juni 2017 von Twitters Streaming API -- - 60,683 User mit mindestens 1 Tweet auf Deutsch und *place* Metadata aus Deutschland, Österreich, oder der Schweiz identifiziert - Alle Tweets auf deren Timelines heruntergeladen in April 2018<sup>.small[1]</sup> -- - Tweets auf Deutsch beibehalten = 36.240.530 Tweets, 534.211.366 Wörter .footnote[ .small[[1] Bis 3.250 Tweets = Twitters REST API Obergrenze für diese Methode]] --- ### Generierung von neuen Anglizismen - 1,000 häufigste englische Infinitivformen von [BNC](https://corpus.byu.edu/bnc/), [COCA](https://corpus.byu.edu/coca/), und [Wikipedia Corpus of English](https://corpus.byu.edu/wiki/) .small[(Davies 2004–, 2008–, 2015)] + 1,413 Infinitivformen von [Pattern Dictionary of English Verbs](http://pdev.org.uk) .small[(Hanks 2013)] → Duplikate entfernen → 2,810 Verbalformen -- - Deutsche Infinitivformen mit Regex .small[ - Verdoppelung von Stammesauslautskonsonanten nach kurzen Vokalen - Metathese von wortfinalem Silbenauslaut 'le' nach Konsonanten → .best_studio['eln'] (bubble → .best_studio[bubbeln]) - 'e' oder Liquid wortfinal → .best_studio['n'] hinzufügen (skype → .best_studio[skypen], cancel → .best_studio[canceln], discover → .best_studio[discovern]) - Andere Formen → .best_studio['en'] hinzufügen = Pseudoinfinitivformen] -- - Tatsächliche deutsche Wörter entfernen (z.B. .best_studio[angeln, bangen, Faden, landen], usw.: sind nicht neue Verbalanglizismen): Wortliste von DWDS, Leipziger Korpuswortschatz, und IDS .small[(Kleuker 2016)] - Tatsächliche englische Wörter entfernen (z.B. .best_studio[driven, risen]: werden meist in code-switched Textpassagen verwendet): Wortliste von `nltk.words` .small[(Bird et al. 2009)] --- ### Liste von Pseudoanglizismen (Infinitivformen) .small[
] --- ### Andere infiniten Formen 10 infinite Verbalformen für jeden Pseudoanglizismus, z.B. von *failen* -- - .best_studio[failen, failend, gefailt, gefailed, failieren, failierend, failiert, failisieren, failisierend, failisiert] Formen mit trennbaren Partikeln (.best_studio[*ab-*, *an-*, *auf-*, *aus-*, *durch-*, *ein-*, *her-*, *herauf-*, *herum-*, *herunter-*, *hin-*, *hinzu-*, *mit-*, *voran-*, *los-*, *mit-*, *vor-*, *weg-*, *zurück-*, *zusammen-*]) und Präfixen (.best_studio[*be-*, *er-*, *ent-*, *emp-*, *miss-*, *ver-*, *zer-*, *über-*]) - .best_studio[abfailen, anfailen, auffailen, ausfailen, abfailend, anfailend, auffailend ... verfailisiert, überfailisiert], usw. -- Partizip II. mit Adjektivdeklination - .best_studio[*gefailter*, *gefailte*, *gefailtes*, *gefailtem*, *gefailten*, *gefailtester*, *gefailteste*, *gefailtestes*, *gefailtestem*, *gefailtesten*, *gefaileder*, *gefailede*, *abgefailter*, *abgefailte*], usw. --- exclude: true ### Zusätzliches Filter SMOR .small[(Schmid et al. 2004, Fitschen 2004)] für Inflektionsformen nicht präsent in Kleuker (2018) - Entfernung von 4,844 Wörtern: .best_studio[durchgefaxt, ausgepaddelt, überlackiert, kicken, mixen, shoppen], u.a. --- <div class="my-header"><img border="0" alt="W3Schools" src="http://cc.oulu.fi/~scoats/NewLogoRussianPNG1.png" width="80" height="80"></div> <div class="my-footer"><span>Steven Coats Neue Verbalanglizismen in Sozialmedien</span></div> ### Sucheprozedur -- - 2,180 Basisformen \* 10 Derivations- oder Inflektionsvariante \*28 Präfixe \*10 Adjektivendungen + Infixformen - = mehr als 7,868,000 mögliche Formen - Alle Exemplare in den 530m Wörter des Korpus finden - Regex? ```python import re matchlist = re.compile(r'\b(?:(\w+)?(?:ent|ge|zer|ab|an|vor|über|aus|ein|er))?%s'%r'(?:d)?\b|\b(?:(\w+)?(?:ent|ge|zer|ab|an|vor|über|aus|ein|er))?'.join(comb_inf), flags=re.IGNORECASE) for x in tweet_text_lines: re.findall(matchlist,x) ``` - Viel zu langsam - Exaktes String-matching schneller --- ### Neue Verbalanglizismen nach Häufigkeit .small[
] --- ### Pseudoanglizismen: Semantik - Viele der häufigsten Wörter bezeichnen neue Phänomena der menschlichen Existenz, z.B. neue Technologien .small[(vgl. Baeskow 2017)] - .best_studio[**twittern**, **streamen**, **getwittert**, **googlen**, **gestreamt**, gechillt, **geliked**, supporten, **gefixt**, geflasht, **adden**, **geupdated**, haten, **rendern**, **coden**, **followen**, **gevotet**, cachen, **tracken**, **hosten**] - Für diese Inhalte fehlen Lexeme im deutschen Wortschatz - *Bedürfnislehnwörter* .small[(Carstensen 1965)], *catachrestic borrowings* .small[(Onysko & Winter-Froemel 2011)] -- - Andere Wörter bezeichnen Vorgänge oder Phänomena welche schon gedeckt sind von bestehenden Lexemen - *Luxuslehnwörter*, *non-catachrestic borrowings* - .best_studio[embracen, fighten, speaken, writen] u.a. --- exclude: true #### Rank-Frequenz-Profil (Zipf-Profil) <div class="midcenter"> <iframe src="http://cc.oulu.fi/~scoats/rbokeh_TAI_rankfreq.html" style="max-width = 100%" sandbox="allow-same-origin allow-scripts" width="100%" height="550" scrolling="yes" seamless="seamless" frameborder="0" align="top"> </iframe> </div> Häufigste Lexeme Bedürfnislehnwörter, aber viele 'Luxuslehnwörter' --- ### Partizip II.: Assimilation Assimilierte Formen (z.B. .best_studio[gefixt]) häufiger als halbassimilierte Formen (.best_studio[gefixed]) (19.232 zu 4.924 Token) -- Formen mit /.ipa[aɪ]/, /.ipa[eɪ]/ und /.ipa[oʊ]/ Dipthonge behalten englische Partizipendung wegen phonemisch-graphemischer Diskrepanz zwischen Englisch und Deutsch - .best_studio[geliked > gelikt, geshaped > geshapt, gefollowed > gefollowt] -- Häufige Lexeme → mehr Assimilation --- #### Partizip II.: Assimilation <div class="midcenter"> <iframe src="http://cc.oulu.fi/~scoats/rbokeh_TAI.html" style="max-width = 100%" sandbox="allow-same-origin allow-scripts" width="100%" height="550" scrolling="yes" seamless="seamless" frameborder="0" align="top"> </iframe> </div> Häufiger Lexeme → mehr Assimilation --- ### Adjektivische Verwendung vom Partizip II. .small[
] --- ### .best_studio[-ier-/-isier-] Affix 249 bezeugte Wortformen, 1440 Token Häufigstes Exemplar dieser Kategorie, *makieren* = orthographischer Variant (Fehlschreibung) von *markieren* -- - .best_studio[@user Du kannst schon seit September Freunde in Beiträgen makieren. URL] - .best_studio[Immer wieder toll mit euch < wenn ich jemanden vergessen hab zu makieren tut es mir leid < ihr seid wunderbar < URL] -- Neue .best_studio[-ier-] Anglizismen: *relatieren*, *failieren* -- - .best_studio[Entfernt relatierter Link zu News, die eigentlich gar keine sind: URL] - .best_studio[Wenn man sich da mal die relatierten Videos ansieht - türkische Popmusik ist schon irgendwie ne Parallelwelt. :o] - .best_studio[\*schnarch, schnarch\* Auf reboot wart. Was auch immer da failiert hatte.. Das Ding hat weder einen Raid-Controller noch mehrere Festplatten. ] Aber: manche Formen sind Helvetismen (z.B. .best_studio[parkieren, grillieren]) --- ### Probleme - Kontamination von Worlisten (automatisch hergestellt von Webseiten – Duden Fremdwortwörterbuch stattdessen?) - Falsch-positive (Orthographische Fehler, z.B. .best_studio[erfaren, verwanten]) - Semantik von *Luxuslehnwörtern* oft spezialisiert (z.B. .best_studio[batteln, supporten]) – Verwendung von distributed semantics/word vectors --- ### Zusammenfassung (.small[Coats 2018]) - Neue Anglizismen sind zahlreich vertreten in einem Twitter-Korpus -- - Die häufigsten neuen Anglizismen bezeichnen neue Erfahrungen und Prozesse (meist Internet/IT/CMC) -- - Partizpien assimilieren zu den Schreibnormen der deutschen Standardsprache, vor allem bei adjektivischem Gebrauch -- - .best_studio[-ier-] ist noch produktiv -- #### Gegenwärtiges Projekt - Produktivität von Bindestrichkomposita mit Englischen Elementen - .best_studio[Tablet-Besitzer, Shopping-Auftrag, Urlaubs-Feeling] usw. - Verwendung von Metriken wie `\(\mathscr{P}\)`, `\(\mathscr{P}\)`<sup>*</sup>, .small[(Baayen 2001)], Entropie --- ## Seien Sie gethankt!! --- ### Literatur I .small[ .hangingindent[ Baayen, H. 2001. *Word Frequency Distributions*. Dordrecht: Kluwer. Baeskow, H. 2017. #Virtual Lexicality: The semantics of innovative prefixed verbal anglicisms in German. *Word Structure* 10.2, 173–203. Bird, S., Loper, E. and Klein, E. 2009. *Natural Language Processing with Python*. Newton, MA: O'Reilly. Burmasowa, S. 2010. *Empirische Untersuchung der Anglizismen im Deutschen am Material der Zeitung 'Die Welt'*. Bamberg: University of Bamberg Press. Carstensen, B. 1965. *Englische Einflüsse auf die Deutsche Sprache nach 1945*. Heidelberg: Carl Winter Verlag. Coats, Steven. (2018). Variation of new German verbal Anglicisms in a social media corpus. In Reinhild Vandekerckhove, Darja Fišer and Lisa Hilte (Eds.), *Proceedings of the 6th Conference on CMC and Social Media Corpora for the Humanities*, 27–32. Antwerp, Belgium: University of Antwerp. Davies, M. 2004–. *BYU-BNC (Based on the British National Corpus from Oxford University Press)*. [https://corpus.byu.edu/bnc](https://corpus.byu.edu/bnc). Davies, M. 2008–. *The Corpus of Contemporary American English (COCA): 560 million words, 1990-present*. [https://corpus.byu.edu/coca/](https://corpus.byu.edu/coca/). Davies, M. 2015. T*he Wikipedia Corpus: 4.6 million articles, 1.9 billion words*. [https://corpus.byu.edu/wiki/](https://corpus.byu.edu/wiki/). Eisenberg, P. 2011. *Das Fremdwort im Deutschen*. Berlin and New York: de Gruyter Mouton. Eisenberg, P. 2013. Anglizismen im Deutschen. *Reichtum und Armut der deutschen Sprache : Erster Bericht zur Lage der deutschen Sprache*. Ed. by Deutsche Akademie für Sprache und Dichtung, Union der deutschen Akademien der Wissenschaften. Berlin: de Gruyter, 57–119. Fitschen, A. 2004. *Ein Computerlinguistisches Lexikon als komplexes System*. Ph.D. Thesis. Universität Stuttgart. ]] --- ### Literatur II .small[ .hangingindent[ Görlach, M. 2003. *English Words Abroad*. Amsterdam: John Benjamins. Hanks, P. 2013. *Lexical Analysis: Norms and Exploitations*. Cambridge, MA: MIT Press. Kleuker, D. 2016. [Wortliste](https://github.com/davidak/wortliste). Onysko, A. 2007. *Anglicisms in German: Borrowing, Lexical Productivity, and Written Codeswitching*. Berlin: de Gruyter. Onysko, A. and Winter-Froemel, E. 2011. Necessary loans – luxury loans? Exploring the pragmatic dimension of borrowing. *Journal of Pragmatics* 43.6, 1550–1567. Öhmann, E. 1970. Suffixstudien VI: Das deutsche Verbalsuffix -ieren. *Neuphilologische Mitteilungen* 71.3, pp. 337–356. Polenz, P. von (1994). *Deutsche Sprachgeschichte vom Spätmittelalter bis zur Gegenwart. Band II: 17. und 18. Jahrhundert*. Berlin: de Gruyter. Roesslein, J. 2015. [Tweepy](https://github.com/tweepy/tweepy). Schmid, H., Fitschen, A. and Heid, U. 2004. SMOR: A German computational morphology covering derivation, composition, and inflection. *Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC 2004)*, 1263–1266. Yang, W. 1990. *Anglizismen im Deutschen: Am Beispiel des Nachrichtenmagazins Der Spiegel*. Tübingen: Niemeyer Verlag. ]]