<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.2 20120330//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
<!--<?xml-stylesheet type="text/xsl" href="article.xsl"?>-->
<article article-type="research-article" dtd-version="1.2" xml:lang="de" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id journal-id-type="issn">2749-4411</journal-id>
<journal-title-group>
<journal-title>Zeitschrift Korpora Deutsch als Fremdsprache</journal-title>
</journal-title-group>
<issn pub-type="epub">2749-4411</issn>
<publisher>
<publisher-name>Universit&#228;ts- und Landesbibliothek Darmstadt</publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/tujournals-3725</article-id>
<article-categories>
<subj-group>
<subject>Thematic issue articles</subject>
</subj-group>
</article-categories>
<title-group>
<article-title><italic>ZUMAL</italic>: ZIELGRUPPENSPEZIFISCHE GESPR&#196;CHSAUSWAHL AUS KORPORA GESPROCHENER SPRACHE</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author" corresp="yes">
<name>
<surname>Fandrych</surname>
<given-names>Christian</given-names>
</name>
<email>fandrych@uni-leipzig.de</email>
<xref ref-type="aff" rid="aff-1">1</xref>
</contrib>
<contrib contrib-type="author">
<name>
<surname>Mei&#223;ner</surname>
<given-names>Cordula</given-names>
</name>
<email>cordula.meissner@uibk.ac.at</email>
<xref ref-type="aff" rid="aff-2">2</xref>
</contrib>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">https://orcid.org/0000-0001-6738-4748</contrib-id>
<name>
<surname>Schwendemann</surname>
<given-names>Matthias</given-names>
</name>
<email>matthias.schwendemann@uni-leipzig.de</email>
<xref ref-type="aff" rid="aff-1">1</xref>
</contrib>
<contrib contrib-type="author">
<name>
<surname>Wallner</surname>
<given-names>Franziska</given-names>
</name>
<email>f.wallner@uni-leipzig.de</email>
<xref ref-type="aff" rid="aff-1">1</xref>
</contrib>
</contrib-group>
<aff id="aff-1"><label>1</label>Universit&#228;t Leipzig</aff>
<aff id="aff-2"><label>2</label>Universit&#228;t Innsbruck</aff>
<pub-date publication-format="electronic" date-type="pub" iso-8601-date="2023-07-24">
<day>24</day>
<month>07</month>
<year>2023</year>
</pub-date>
<pub-date pub-type="collection">
<year>2023</year>
</pub-date>
<volume>3</volume>
<issue>1</issue>
<fpage>13</fpage>
<lpage>43</lpage>
<permissions>
<copyright-statement>Copyright: &#x00A9; 2023 The Author(s)</copyright-statement>
<copyright-year>2023</copyright-year>
<license license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
<license-p>CC BY 4.0 International - Creative Commons, Namensnennung. See <uri xlink:href="http://creativecommons.org/licenses/by/4.0/">http://creativecommons.org/licenses/by/4.0/</uri>.</license-p>
</license>
</permissions>
<self-uri xlink:href="https://kordaf.tujournals.ulb.tu-darmstadt.de/articles/10.48694/tujournals-3725"/>
<abstract>
<p><italic>ZuMal</italic> ist ein im Rahmen des Projekts <italic>ZuMult</italic> entwickeltes Werkzeug, welches eine Vorauswahl an Sprechereignissen aus den beiden Korpora <italic>FOLK</italic> und <italic>GeWiss</italic> nach sprachdidaktisch relevanten und schwierigkeitsbezogenen Kriterien erm&#246;glicht. Hierf&#252;r werden zum einen Kriterien genutzt, die auf die Metadaten der Sprechereignisse zur&#252;ckgehen (so etwa die Art des Gespr&#228;chs, bspw. Telefongespr&#228;ch, Gespr&#228;ch beim Arbeitsamt, Tischgespr&#228;ch; die Gespr&#228;chsthemen, die Sprachregion und die Dauer). Zum anderen wird auf Informationen zur&#252;ckgegriffen, die automatisiert aus den Daten gewonnen werden k&#246;nnen und aus der Perspektive der Vermittlung des Deutschen als Fremd- und Zweitsprache mit besonderen Herausforderungen f&#252;r Lerner:innen mit Deutsch als L2 assoziiert werden. Dazu geh&#246;ren u.a. der Wortschatz und dessen Zugeh&#246;rigkeit zu den Niveaustufen des gemeinsamen Europ&#228;ischen Referenzrahmens, die Standardn&#228;he/-ferne, die Sprechgeschwindigkeit, die Anzahl an &#220;berlappungen verschiedener Sprecher:innen sowie das Vorkommen ausgew&#228;hlter M&#252;ndlichkeitsph&#228;nomene und Wortarten. Im Beitrag sollen die in <italic>ZuMal</italic> bereitgestellten Auswahlparameter n&#228;her beschrieben werden. Im Fokus stehen dabei insbesondere die sprachdidaktischen Konzepte, die den mit Schwierigkeit assoziierten Parametern zugrunde gelegt wurden. Anhand exemplarischer Auswertungen wird zudem gezeigt, welche Auspr&#228;gungen die aktuell in <italic>FOLK</italic> und <italic>GeWiss</italic> enthaltenen Daten im Hinblick auf die Auswahlparameter zeigen.</p>
</abstract>
<trans-abstract xml:lang="en">
<p><italic>ZuMal</italic> is a tool developed within the framework of the <italic>ZuMult</italic> project which enables a pre-selection of speech events from the two corpora <italic>FOLK</italic> and <italic>GeWiss</italic> according to language teaching criteria as well as criteria related to linguistic difficulty. The criteria are drawn from the metadata of the speech events (such as the type of conversation, e.g. telephone conversation, conversation at the employment office, kitchen table conversation; the topics of conversation, the language region and the duration of the speech event). In addition, information is used which can be obtained in an automated way from the data and which, from the perspective of teaching German as a foreign and second language, is associated with particular challenges for learners of German as an L2. These include, among others, vocabulary and its relation to the levels of the Common European Framework of Reference for Languages, closeness/remoteness to standard language, articulation rate, the number of overlaps of different speakers as well as the occurrence of selected oral phenomena and word classes. The article focuses on the parameters on which the selection options provided by <italic>ZuMal</italic> are based, in particular the didactic concepts underlying the parameters associated with linguistic difficulty. By means of exemplary evaluations, it will also be shown which characteristics the data currently contained in <italic>FOLK</italic> and <italic>GeWiss</italic> show with regard to the selection parameters.</p>
</trans-abstract>
<kwd-group>
<kwd>gesprochene Sprache</kwd>
<kwd>m&#252;ndliche Korpora</kwd>
<kwd>FOLK</kwd>
<kwd>GeWiss</kwd>
<kwd>Korpora in DaF/DaZ</kwd>
<kwd>Merkmalsauswahl von Sprechereignissen</kwd>
</kwd-group>
<kwd-group xml:lang="en">
<kwd>spoken language</kwd>
<kwd>oral corpora</kwd>
<kwd>FOLK</kwd>
<kwd>GeWiss</kwd>
<kwd>corpora in GFL/GSL</kwd>
<kwd>feature selection of speech events</kwd>
</kwd-group>
</article-meta>
</front>
<body>
<sec>
<title>1. Einleitung</title>
<p>Die Relevanz von m&#246;glichst realen, nicht simulierten oder eigens f&#252;r didaktische Zwecke erstellten Gespr&#228;chen und Texten f&#252;r den Sprachunterricht ist sehr gro&#223;: Nimmt man das Ziel der sprachlichen Handlungsf&#228;higkeit in einer zielsprachigen Umgebung ernst, so muss man die Lernenden auch mit den entsprechenden sprachlichen Handlungsmustern und den damit verbundenen sprachlichen Formen und Routinen vertraut machen. Dies gilt umso mehr f&#252;r Lehr-Lernsituationen fernab vom deutschen Sprachraum. Auch wenn Digitalisierung, Medialisierung und weltweite kommunikative Vernetzung inzwischen deutlich mehr M&#246;glichkeiten f&#252;r den direkten Kontakt mit der deutschen Sprache geschaffen haben (auch in ihrer m&#252;ndlichen Form), und trotz des wachsenden Angebots an spezifischen Sprachressourcen (online-W&#246;rterb&#252;cher, Grammatik-Nachschlageressourcen, Korpora der geschriebenen und gesprochenen Sprache) bleibt das Problem bestehen, gezielt kommunikative Ereignisse zu finden, die sich f&#252;r eine konkrete Unterrichtssequenz und f&#252;r bestimmte Lernziele besonders gut eignen. Insbesondere Korpora, also systematisch nach bestimmten Kriterien erhobene und aufbereitete Sprachdatenbanken, stellen f&#252;r den Sprachunterricht potenziell wertvolle Ressourcen dar. F&#252;r das Deutsche gilt jedoch, dass wichtige und gr&#246;&#223;ere Korpora meist mit bestimmten (linguistischen) Forschungsinteressen geschaffen und auch f&#252;r diese Ziele aufbereitet und nutzbar gemacht wurden (vgl. etwa <xref ref-type="bibr" rid="B27">Kupietz / Schmidt 2018</xref>; <xref ref-type="bibr" rid="B9">Deppermann et al. 2023</xref>), wodurch sie nur bedingt f&#252;r die direkte Nutzung in sprachdidaktischen Kontexten verwendbar sind<xref ref-type="fn" rid="n1">1</xref>. Dies liegt zum einen am Design der jeweiligen Korpora, das viele aus sprachdidaktischer Sicht relevante Suchfunktionen nicht vorsieht, zum anderen aber auch an den f&#252;r ihre Nutzung vorausgesetzten korpuslinguistischen Kompetenzen, die f&#252;r viele Gruppen von Nutzer:innen eine relativ gro&#223;e H&#252;rde darstellen (vgl. <xref ref-type="bibr" rid="B13">Fandrych et al. 2016</xref>).</p>
<p>Aus dieser Erkenntnis heraus wurde im Projekt <italic>ZuMult</italic> (<italic>Zug&#228;nge zu multimodalen Korpora gesprochener Sprache</italic>)<xref ref-type="fn" rid="n2">2</xref> mit <italic>ZuMal</italic> (<italic>Zugang zu Merkmalsauswahl von Gespr&#228;chen</italic>)<xref ref-type="fn" rid="n3">3</xref> ein Werkzeug entwickelt, das es erlaubt, m&#252;ndliche Interaktionen in gr&#246;&#223;eren Korpora des Deutschen aus sprachdidaktischer Perspektive gezielt auszuw&#228;hlen. <italic>ZuMal</italic> wurde so angelegt, dass es auch auf andere gesprochensprachliche Korpora anwendbar ist. Gegenw&#228;rtig ist es allerdings auf die Recherche in zwei gr&#246;&#223;eren Korpora der gesprochenen Sprache beschr&#228;nkt, die beide &#252;ber die Datenbank f&#252;r Gesprochenes Deutsch (DGD)<xref ref-type="fn" rid="n4">4</xref> des Leibniz-Instituts f&#252;r Deutsche Sprache (kurz: IDS) abrufbar sind: Das <italic>Forschungs- und Lehrkorpus Gesprochenes Deutsch</italic> (<italic>FOLK</italic>), das 400 Interaktionen mit einer Gesamtl&#228;nge von ca. 336 Stunden und 3,2 Millionen Token umfasst (Stand Januar 2023) sowie das Korpus <italic>Gesprochene Wissenschaftssprache kontrastiv</italic> (<italic>GeWiss</italic>), das ausgew&#228;hlte Gattungen aus der Hochschulkommunikation (im Bereich Germanistik / Deutsch als Fremdsprache sowie verschiedener weiterer Philologien) beinhaltet, mit 436 Interaktionen im Umfang von 146 Aufnahmestunden und ca. 1,2 Millionen Token<xref ref-type="fn" rid="n5">5</xref>.</p>
<p>F&#252;r die Auswahloptionen, die im Tool <italic>ZuMal</italic> angelegt wurden, wurde nun zun&#228;chst ermittelt, welche der in den Daten bereits angelegten Informationen f&#252;r sprachdidaktische Zwecke besonders relevant sein k&#246;nnten<xref ref-type="fn" rid="n6">6</xref>. Hierf&#252;r kamen einerseits die bei der Erarbeitung der Korpora miterhobenen Metadaten in Frage &#8211; also Angaben &#252;ber die Art und den Kontext der Interaktionen, ihre Dauer, die behandelten Themen sowie die Sprecher:innen. Zum anderen wurden aber auch weniger direkt abrufbare Informationen, die in den Datens&#228;tzen enthalten waren, auf ihre Relevanz f&#252;r sprachdidaktische Zwecke hin gesichtet. Dabei standen zwei Aspekte im Vordergrund: Zum einen die sprachliche Schwierigkeit, denn es ist f&#252;r die Sprachvermittlung nat&#252;rlich wichtig, einigerma&#223;en passgenaues Material f&#252;r eine bestimmte Lernendengruppe und einen bestimmten Lernkontext ausw&#228;hlen zu k&#246;nnen; zum anderen aber auch die Spezifik der M&#252;ndlichkeit, die ja nach wie vor in der Sprachdidaktik h&#228;ufig nicht ausreichend bedacht wird, nicht zuletzt aus Mangel an geeigneten Sprachbeispielen.</p>
<p>In der Folge werden diese Auswahlm&#246;glichkeiten und die ihnen zugrunde liegenden Kriterien, Konzepte sowie die Art ihrer Operationalisierung in <italic>ZuMal</italic> der Reihe nach vorgestellt. Nach einer kurzen &#252;berblicksartigen Darstellung der <italic>ZuMal</italic>-Oberfl&#228;che (Kap. 2) folgt zun&#228;chst eine &#220;bersicht &#252;ber die metadatenbezogenen Auswahl- und Filterm&#246;glichkeiten (Kap. 3). Im Anschluss werden sodann die schwierigkeitsbezogenen Auswahloptionen dargestellt (Kap. 4), danach die spezifisch auf die M&#252;ndlichkeit sowie auf die Frequenz von Wortarten bezogenen Filterm&#246;glichkeiten (Kap. 5). Den Abschluss bildet ein kurzer Abschnitt, der auf das Zusammenspiel und die Kombinationsm&#246;glichkeiten der verschiedenen Auswahloptionen eingeht (Kap. 6).</p>
</sec>
<sec>
<title>2. Die <italic>ZuMal</italic>-Oberfl&#228;che</title>
<p>Die <italic>ZuMal</italic>-Oberfl&#228;che wurde von Josip Batini&#263; als Vue.js-Anwendung entwickelt, die mit den im Projekt <italic>ZuMult</italic> entwickelten Backend-Komponenten kommuniziert (vgl. Schmidt et al. in diesem Heft). Mit Hilfe von <italic>ZuMal</italic> kann gezielt nach geeigneten Sprechereignissen aus dem <italic>FOLK</italic> und dem <italic>GeWiss</italic>-Korpus gesucht werden. Hierf&#252;r wurden verschiedene Filteroptionen implementiert, die es erm&#246;glichen, auf der Basis verschiedener Merkmale eine sprachdidaktisch orientierte Auswahl der Sprechereignisse zu treffen. Die Filter befinden sich auf der linken Seite der <italic>ZuMal</italic>-Oberfl&#228;che und sind in drei Bl&#246;cke untergliedert. Der erste Block beruht auf den Metadaten der Sprecherereignisse (darunter Gespr&#228;chstyp, Region, Dauer u.a., vgl. Kap. 3). Der zweite Block umfasst schwierigkeitsbezogene Parameter (darunter Niveaustufenzugeh&#246;rigkeit des Wortschatzes und Sprechgeschwindigkeit, vgl. Kap. 4). Der dritte Block beinhaltet Wortarten und M&#252;ndlichkeitsph&#228;nomene (vgl. Kap. 5). Je nach Merkmal umfassen die Filter weitere Subkategorien und Schieberegler, mit denen sich die jeweilige Auspr&#228;gung der Merkmale bestimmen l&#228;sst. Die Filter k&#246;nnen sowohl einzeln als auch in Kombination miteinander genutzt werden. Die Ergebnisse der Auswahl werden auf der rechten oberen Seite der <italic>ZuMal</italic>-Oberfl&#228;che in einem Streudiagramm visualisiert. Auf der x- und auf der y-Achse k&#246;nnen dabei jeweils die auf die Dauer, die Schwierigkeit, die Wortarten und die auf M&#252;ndlichkeitsph&#228;nomene bezogenen Parameter eingestellt werden. Die Visualisierung der Ergebnismenge im Streudiagramm passt sich jeweils dynamisch den in den Merkmalsfiltern ausgew&#228;hlten Einstellungen an, sodass nur die Sprechereignisse im Diagramm angezeigt werden, die den ausgew&#228;hlten Merkmalsauspr&#228;gungen entsprechen. Wird keine Anpassung der Filter vorgenommen, sind alle Sprech-ereignisse innerhalb des jeweils ausgew&#228;hlten Korpus in dem Streudiagramm zu sehen (vgl. <xref ref-type="fig" rid="F1">Abb. 1</xref>). Au&#223;erdem wird die durch die Anwendung der Filter vorgenommene Auswahl an Sprechereignissen in einer Tabelle unterhalb des Streudiagramms angezeigt. Ebenso wie das Streudiagramm passt sich die Anzeige der in den Merkmalsfiltern getroffenen Auswahl dynamisch an. In der voreingestellten Ansicht werden in der Tabelle die ID des Sprechereignisses im ausgew&#228;hlten Korpus, die Art des Gespr&#228;ches, die Dauer, die Normalisierungsrate (vgl. Kap. 4) und der Link zum Werkzeug <italic>ZuViel</italic> aufgelistet. Mit Hilfe dieses Links kann dann jedes einzelne Sprechereignis im Transkriptbrowser <italic>ZuViel</italic> (vgl. Schmidt / Schwendemann / Wallner in dieser Ausgabe) aufgerufen werden. Es ist aber auch m&#246;glich, die Tabellenansicht an individuelle Bed&#252;rfnisse anzupassen und f&#252;r jeden der verf&#252;gbaren Filter die entsprechenden Spalten hinzuzuf&#252;gen oder auch abzuw&#228;hlen. Dar&#252;ber hinaus lassen sich die Ergebnisse in dieser Ansicht auch sortieren, etwa um sich einen &#220;berblick zu verschaffen, welche Sprechereignisse besonders deutlich von einer (an der Schriftsprache orientierten) Standardvariante abweichen (ermittelt &#252;ber &#8222;Normalisierungsrate&#8220;, vgl. Kap. 4).</p>
<fig id="F1">
<label>Abbildung 1</label>
<caption>
<p><italic>ZuMal</italic>-Oberfl&#228;che<xref ref-type="fn" rid="n7">7</xref></p>
</caption>
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="kordaf-3725_fandrych-g1.png"/>
</fig>
<p>Im Folgenden werden nun die Auswahloptionen, die in der linken Spalte &#252;berblicksartig sichtbar sind, der Reihe nach dargestellt sowie die ihnen zugrunde liegenden &#220;berlegungen transparent gemacht.</p>
</sec>
<sec>
<title>3. Metadatenbezogener Zugang</title>
<p>Um den in <italic>ZuMal</italic> angelegten metadatenbezogenen Zugang zu Interaktionen und sprachlichen Ph&#228;nomenen einordnen zu k&#246;nnen, muss zun&#228;chst ein Blick auf die Art und Gliederung der mit den beiden Korpora <italic>FOLK</italic> und <italic>GeWiss</italic> verbundenen Metadaten geworfen werden, die derzeit mithilfe von <italic>ZuMal</italic> durchsuchbar sind. Sie sind die Grundlage f&#252;r verschiedene Auswahl- und Filterm&#246;glichkeiten, die auch f&#252;r sprachdidaktische Zwecke von gro&#223;er Bedeutung sind.</p>
<p>Um Korpora gesprochener Sprache gezielt nach verschiedenen relevanten Merkmalen der enthaltenen Daten durchsuchen zu k&#246;nnen, ist eine m&#246;glichst konsistente Kategorisierung der Gespr&#228;che in verschiedenster Hinsicht notwendig. So ist etwa von hoher Relevanz, in welchem Kontext bzw. in welcher Interaktionsdom&#228;ne ein Gespr&#228;ch stattfindet (privat, im Kontext einer Institution, &#246;ffentlich; in raum-zeitlicher Ko-Pr&#228;senz der Teilnehmenden oder vermittelt &#252;ber ein Medium), wie die Sprecherkonstellation ist (wie viele Personen nehmen an dem Gespr&#228;ch teil, welche Funktion haben sie in dem Gespr&#228;ch, wie vertraut sind sie untereinander) und wie das Gespr&#228;ch gestaltet ist (hat es einen handlungsbegleitenden Charakter oder nicht, welche Themen werden behandelt). Diese Merkmale k&#246;nnen noch deutlich weiter ausdifferenziert werden &#8211; bei der Interaktionsdom&#228;ne kann nach bestimmten Arten von institutionellen Kontexten weiter differenziert werden (Bildungsinstitutionen, Gesundheitswesen, Wirtschaftsbetriebe, &#196;mter etc.), bei der Personenkonstellation k&#246;nnen soziodemografische Merkmale der Sprecher:innen wie Alter, Herkunft, Bildungshintergrund, Sprachkompetenzen, beruflicher Hintergrund und vieles andere mehr wichtige Parameter darstellen, und die Zahl der Themen und der Themenfokussierung ist im Prinzip unbegrenzt und nicht leicht zu klassifizieren.</p>
<p>Die genannten Merkmale sind f&#252;r verschiedene Typen von Korpora unterschiedlich wichtig. Strebt man, wie das <italic>Forschungs- und Lehrkorpus Gesprochenes Deutsch</italic> (<italic>FOLK</italic>), das am Leibniz-Institut f&#252;r Deutsche Sprache angesiedelt ist, eine m&#246;glichst gro&#223;e Ausgewogenheit der in einem Korpus enthaltenen Daten in Bezug auf interaktionale, medial m&#252;ndliche Sprache in Deutschland an (vgl. <xref ref-type="bibr" rid="B8">Deppermann / Hartung 2012: 418</xref>), dann stellt sich die Frage nach der Art von Merkmalen sowie ihrer Kategorisierung und Verteilung in sehr grundlegender Weise. Bei spezifischeren Korpora, wie es das Korpus <italic>Gesprochene Wissenschaftssprache kontrastiv</italic> (<italic>GeWiss</italic>) mit seiner begrenzten Zahl an kommunikativen Ereignissen in einer klar definierten kommunikativen Dom&#228;ne darstellt, ist schon von vornherein eine relativ strikte Vorauswahl getroffen worden, die das Spektrum der Gespr&#228;chsmerkmale deutlich einschr&#228;nkt. W&#228;hrend bei <italic>FOLK</italic> eine m&#246;glichst breite Abdeckung verschiedenster als besonders relevant erkannter Merkmale im Vordergrund steht, um Aussagen &#252;ber das Spektrum der M&#252;ndlichkeit in unterschiedlichsten regionalen, sozialen und situativen Kontexten sowie bez&#252;glich verschiedener Merkmale der Sprechenden machen zu k&#246;nnen (vgl. <xref ref-type="bibr" rid="B8">Deppermann / Hartung 2012: 418&#8211;419</xref>; <xref ref-type="bibr" rid="B24">Kaiser 2018</xref>; <xref ref-type="bibr" rid="B35">Reineke / Deppermann / Schmidt 2023: 71&#8211;75</xref>), steht bei <italic>GeWiss</italic> die intra- und interlinguale Vergleichbarkeit gesprochener Sprache in relativ genau definierten Gattungen von Sprechenden mit einem verh&#228;ltnism&#228;&#223;ig &#228;hnlichen Bildungshintergrund im Vordergrund (vgl. <xref ref-type="bibr" rid="B12">Fandrych / Mei&#223;ner / Slavcheva 2012</xref>; <xref ref-type="bibr" rid="B18">Fandrych / Wallner 2023</xref>).</p>
<p>Die bei der Korpuserstellung als relevant angesehenen Merkmale werden dabei mithilfe von Metadaten erhoben und mit den Gespr&#228;chsereignissen verkn&#252;pft. So werden die Gespr&#228;chsereignisse gezielt nach bestimmten Eigenschaften durchsuchbar. Die Bestimmung, Auswahl und Zuordnung der Merkmale sowie die Abdeckung und Kombination der Merkmale ist eine sowohl theoretisch wie praktisch sehr herausfordernde Aufgabe, insbesondere, wenn &#8211; wie bei <italic>FOLK</italic> &#8211; das langfristige Ziel der Aufbau eines Referenzkorpus ist (vgl. <xref ref-type="bibr" rid="B8">Deppermann / Hartung 2012: 438&#8211;441</xref>; <xref ref-type="bibr" rid="B24">Kaiser 2018: 516&#8211;520</xref>). Neben der Auswahl der Parameter und Merkmale stellt auch deren Heterogenit&#228;t und Hierarchisierung ein theoretisches wie praktisches Problem dar. Bei <italic>FOLK</italic> wird zwischen &#8222;prim&#228;ren Parametern&#8220;, welche das Gespr&#228;chsereignis betreffen, und &#8222;sekund&#228;ren Parametern&#8220;, die sich auf Merkmale der Sprechenden beziehen, unterschieden (vgl. <xref ref-type="bibr" rid="B24">Kaiser 2018: 543&#8211;546</xref>; <xref ref-type="bibr" rid="B35">Reineke / Deppermann / Schmidt 2023: 74&#8211;75</xref>). Bei den gespr&#228;chsbezogenen prim&#228;ren Parametern wird zun&#228;chst nach vier grundlegenden <italic>Interaktionsdom&#228;nen</italic> unterschieden, n&#228;mlich privat, institutionell, &#246;ffentlich sowie &#8222;Sonstiges&#8220;<xref ref-type="fn" rid="n8">8</xref>. Weitere Untergliederungen betreffen dann die verschiedenen <italic>Lebensbereiche</italic>, in denen die Gespr&#228;che stattfinden (etwa Bildung, Verwaltung, Medizin, Vereinsleben bei den institutionellen Gespr&#228;chen; Politik, Wissenschaft, Wirtschaft und Unterhaltung bei den &#246;ffentlichen &#8211; massenmedialen &#8211; m&#252;ndlichen Ereignissen) sowie die Arten von <italic>Aktivit&#228;ten</italic>, die evtl. w&#228;hrend der Gespr&#228;che ausgef&#252;hrt werden (z.B. Renovieren, Kochen etc. im privaten Bereich; Fahrschulstunde, Meeting etc. im institutionellen Bereich; Mediation oder Panel-Diskussion in der &#246;ffentlichen Interaktionsdom&#228;ne; vgl. <xref ref-type="bibr" rid="B24">Kaiser 2018: 543</xref>). Bei den sekund&#228;ren Parametern wird nach Geschlecht, Alter und Bildung der Interaktanten differenziert sowie nach dem Ort der Sprachaufnahme, der als Indikator f&#252;r regionale Spracheinfl&#252;sse der Sprechenden angesehen wird<xref ref-type="fn" rid="n9">9</xref>.</p>
<p>Das Spezialkorpus <italic>GeWiss</italic> hingegen beschr&#228;nkt sich auf einen konkreten Ausschnitt aus der Hochschulkommunikation: Vortr&#228;ge und Pr&#252;fungsgespr&#228;che in ausgew&#228;hlten philologisch-angewandten F&#228;chern in vier verschiedenen Sprachen (Deutsch, Englisch, Polnisch, Italienisch) und an verschiedenen Standorten (in Deutschland, Gro&#223;britannien, Polen, Bulgarien, Italien und Finnland). Neben der Erforschung von sprach- und gattungsvergleichenden Fragen dient <italic>GeWiss</italic> auch der Untersuchung von unterschiedlichen Stufen der wissenschaftlichen Sozialisation und kommunikativen Kompetenz. So wurden sowohl Vortr&#228;ge von Expert:innen als auch von Studierenden erhoben, daneben auch gezielt &#228;hnlich viele kommunikative Ereignisse mit Sprechenden, die Deutsch als L1, sowie solchen, die Deutsch als L2 sprechen<xref ref-type="fn" rid="n10">10</xref> (vgl. ausf&#252;hrlicher <xref ref-type="bibr" rid="B12">Fandrych / Mei&#223;ner / Slavcheva 2012</xref>; <xref ref-type="bibr" rid="B18">Fandrych / Wallner 2023</xref>).</p>
<p>In <italic>ZuMal</italic> wurden nun auf der Basis der vielf&#228;ltigen erhobenen Metadaten bestimmte, f&#252;r die Recherche aus der Perspektive der (Fremd-)Sprachenvermittlung besonders relevante Auswahlfunktionen geschaffen, die es erlauben, gezielt nach unterschiedlichen Typen von Interaktionen zu suchen und diese f&#252;r die weitere Arbeit auszuw&#228;hlen. Wir stellen die metadatenbasierten Filterfunktionen im Folgenden kurz anhand der beiden Korpora <italic>FOLK</italic> und <italic>GeWiss</italic> dar und illustrieren dies mit einigen Beispielen. Wenn man <italic>ZuMal</italic> &#246;ffnet, findet man auf der linken Seite zun&#228;chst sechs zentrale Auswahloptionen:</p>
<fig id="F2">
<label>Abbildung 2</label>
<caption>
<p>Auswahloptionen nach Metadaten in <italic>ZuMal</italic></p>
</caption>
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="kordaf-3725_fandrych-g2.png"/>
</fig>
<p>Im Fenster oben links kann man zwischen den beiden Korpora <italic>FOLK</italic> und <italic>GeWiss</italic> w&#228;hlen. W&#228;hlt man <italic>FOLK</italic> (wie in <xref ref-type="fig" rid="F2">Abbildung 2</xref>), erh&#228;lt man die Kategorien &#8222;Gespr&#228;chstyp&#8220;, &#8222;Art&#8220;, &#8222;Themen&#8220; sowie &#8222;Sprachregion&#8220; und &#8222;Dauer&#8220;. Hinter dem Reiter &#8222;Gespr&#228;chstyp&#8220; verbergen sich die oben bereits genannten vier <italic>Interaktionsdom&#228;nen</italic> sowie die ihnen zugeordneten <italic>Lebensbereiche</italic>, aus denen man nun ausw&#228;hlen kann:</p>
<fig id="F3">
<label>Abbildung 3</label>
<caption>
<p>Auswahl der Gespr&#228;chstypen bei <italic>FOLK</italic></p>
</caption>
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="kordaf-3725_fandrych-g3.png"/>
</fig>
<p>In <xref ref-type="fig" rid="F3">Abbildung 3</xref> wurde aus der <italic>Interaktionsdom&#228;ne</italic> &#8222;institutionell&#8220; der <italic>Lebensbereich</italic> &#8222;Kunst/Unterhaltung/Sport&#8220; ausgew&#228;hlt &#8211; in Klammern sieht man hier bereits, wie viele Interaktionen dem jeweiligen Bereich zugeordnet sind. Ein Klick auf den Pfeil links neben &#8222;Kunst/Unterhaltung/Sport&#8220; &#246;ffnet weitere Unterkategorien (siehe das Szenario f&#252;r die Auswahl eines institutionellen Gespr&#228;chs unten). Sehr vielf&#228;ltig sind die Auswahloptionen, die sich hinter dem Reiter &#8222;Art&#8220; verbergen:</p>
<fig id="F4">
<label>Abbildung 4</label>
<caption>
<p>Auswahl der Gespr&#228;chsart bei <italic>FOLK</italic></p>
</caption>
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="kordaf-3725_fandrych-g4.png"/>
</fig>
<p>Wie aus dem Screenshot deutlich wird, sind die verschiedenen Interaktionen nach Kurzcharakterisierungen gegliedert, die wichtige weitere Merkmale benennen (und teils auf prim&#228;ren bzw. sekund&#228;ren Parametern basieren): &#8222;Backen mit Freunden&#8220; gibt einen Hinweis auf ein privates Gespr&#228;ch mit vertrauten Personen, das eine nicht-verbale Aktivit&#228;t begleitet, &#8222;Beratungsgespr&#228;ch Studienbeihilfe&#8220; auf ein institutionelles Gespr&#228;ch im Bildungskontext. Mit der Aufstellung ist keine gattungstheoretisch fundierte Kategorisierung verbunden (diese w&#228;re ohnehin kaum zu erreichen, vgl. die Diskussion dazu bei <xref ref-type="bibr" rid="B8">Deppermann / Hartung 2012: 427&#8211;430</xref>), vielmehr stand bei der Erhebung der Interaktionen im Vordergrund, ein m&#246;glichst breites Spektrum von vielf&#228;ltigen Interaktionen zu erheben; die im Auswahlfilter &#8222;Gespr&#228;chsart&#8220; genutzten Kurzbezeichnungen haben somit den Charakter einer Hilfestellung bei der Suche und Orientierung zu den aufgenommenen Interaktionen.</p>
<p>Die vierte Auswahloption, &#8222;Themen&#8220;, er&#246;ffnet eine sehr gro&#223;e Palette von Themenbegriffen; diese wurden bei der Erhebung und Transkription der Daten in nicht systematisierter Form den Gespr&#228;chen zugeordnet (wobei einzelne Gespr&#228;che auch mehrere Themen enthalten k&#246;nnen). Die verschiedenen Auswahlen beeinflussen sich gegenseitig, insofern ist der Einstieg in die Suche prinzipiell beliebig &#8211; mit einer Ausnahme: Ein Einstieg &#252;ber den Auswahlfilter &#8222;Themen&#8220; ist nicht m&#246;glich, da die Zahl der Themenschlagw&#246;rter hierf&#252;r zu gro&#223; und daher un&#252;bersichtlich zu handhaben ist. F&#252;r die Themenauswahl muss daher zun&#228;chst eine Vorauswahl bei den Filtern &#8222;Gespr&#228;chstyp&#8220; oder &#8222;Art&#8220; vorgenommen werden, um die Ergebnismenge zu reduzieren.</p>
<p>Unter &#8222;Sprachregion&#8220; l&#228;sst sich die Region des Aufnahmeorts einer Interaktion ausw&#228;hlen (s.o.). Hierf&#252;r wurden im <italic>FOLK</italic>-Projekt die verschiedenen Dialekt- und Regionalsprachenr&#228;ume in Deutschland auf der Basis dialektologischer Forschungsergebnisse in sechs Gro&#223;regionen unterteilt (vgl. <xref ref-type="bibr" rid="B24">Kaiser 2018: 540&#8211;542</xref>): Nordwest, Nordost, Mittelwest, Mittelost, S&#252;dwest, S&#252;dost. Da das Korpus auch Telefongespr&#228;che enth&#228;lt, kommt es auch zu Kombinationen der Regionen, daneben gibt es einige wenige Interaktionen, die au&#223;erhalb des zusammenh&#228;ngenden deutschen Sprachraums aufgenommen wurden (z.B. auf Urlaubsreisen). <italic>FOLK</italic> versteht sich nicht als Korpus, das die dialektale Vielfalt des deutschen Sprachraums abbildet, es sollen vielmehr &#8222;<italic>standardnahe bis gem&#228;&#223;igt dialektale Varianten</italic> des gesprochenen Deutsch&#8220; erhoben werden (<xref ref-type="bibr" rid="B8">Deppermann / Hartung 2012: 421</xref>, Hervorhebung im Original), dennoch finden sich Interaktionen, die relativ deutlich dialektal gef&#228;rbt sind (vgl. Kap. 5).</p>
<p>Zuletzt erm&#246;glicht es der Filter &#8222;Dauer&#8220;, mithilfe eines Schiebereglers eine Auswahl nach der L&#228;nge der Interaktionen zu treffen:</p>
<fig id="F5">
<label>Abbildung 5</label>
<caption>
<p>Auswahl der Gespr&#228;chsdauer</p>
</caption>
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="kordaf-3725_fandrych-g5.png"/>
</fig>
<p>Zu allen Filtern gibt es Kurzerkl&#228;rungen, die &#252;ber das jeweilige Fragezeichen oben rechts im Hauptfenster der Auswahloption aufrufbar sind. Direkt zugeordnet ist dort auch jeweils ein Link, der zu einer &#8222;Handreichung zur Arbeit mit ZuMal&#8220; f&#252;hrt<xref ref-type="fn" rid="n11">11</xref>.</p>
<p>Filtert man &#252;ber die genannten Tools nach bestimmten Kriterien, wird gleichzeitig im rechten Bereich &#252;berblickartig visualisiert, welche Interaktionen in der Auswahl verbleiben (Kap. 2): In der rechten oberen H&#228;lfte wird dies &#252;ber ein Streudiagramm angezeigt, das nach verschiedenen sprachdidaktischen und schwierigkeitsbezogenen Parametern eingestellt werden kann (siehe dazu genauer Kap. 4), in der rechten unteren H&#228;lfte durch eine Liste der verbleibenden Interaktionsereignisse, die ebenfalls modifiziert werden kann (siehe Kap. 2).</p>
<p>Anhand von zwei m&#246;glichen Szenarien soll nun kurz gezeigt werden, wie man f&#252;r einen bestimmten Sprachvermittlungskontext die besprochenen Filter einsetzen kann. Sucht man eine informelle private Interaktion, w&#228;hlt man bei Gespr&#228;chstyp &#8222;privat&#8220;. Eine weitere Spezifizierung ist in diesem Filter nicht vorgesehen. Diese kann allerdings &#252;ber die Auswahl &#8222;Art&#8220; vorgenommen werden: Hier wird eine ganze Reihe von privaten Gespr&#228;chen gelistet. Als einen typisch informellen Gespr&#228;chsanlass k&#246;nnte man etwa &#8222;Kaffeetrinken&#8220; w&#228;hlen. Klickt man dies an, verbleiben zwei Interaktionen (was man in der <italic>ZuMal</italic>-Ansicht auch in der Liste der Interaktionen auf der rechten Seite sieht). Der Auswahl-Filter &#8222;Themen&#8220; zeigt, dass die Liste der mit den beiden Kaffeetrinken-Interaktionen verbundenen Themen verh&#228;ltnism&#228;&#223;ig gro&#223; ist, was bei einer solchen Interaktion nicht verwundert. Die Auswahloption &#8222;Sprachregion&#8220; zeigt, dass beide Gespr&#228;che im Raum &#8222;Nordost&#8220; aufgenommen wurden. Die Dauer ist verh&#228;ltnism&#228;&#223;ig lang (knapp eine Stunde bei einem, eineinhalb Stunden bei dem anderen Gespr&#228;ch).</p>
<p>Als zweites Beispiel soll die Wahl einer institutionellen Interaktion dienen. Hier kann man nach der Auswahl &#8222;institutionell&#8220; beim Filter &#8222;Gespr&#228;chstyp&#8220; weiter differenzieren, indem man etwa &#8222;Bildung&#8220; ausw&#228;hlt. Dies f&#252;hrt zu 78 verbleibenden Interaktionen (vgl. <xref ref-type="fig" rid="F6">Abbildung 6</xref>):</p>
<fig id="F6">
<label>Abbildung 6</label>
<caption>
<p>Auswahl von &#8222;Bildung&#8220; innerhalb des Gespr&#228;chstyps &#8222;institutionell&#8220;</p>
</caption>
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="kordaf-3725_fandrych-g6.png"/>
</fig>
<p>Durch das Klicken auf den Pfeil links neben &#8222;Bildung&#8220; erh&#228;lt man ein weiteres Auswahlmen&#252;, das die verschiedenen Unterkategorien von Bildungsinteraktionen in <italic>FOLK</italic> auflistet. Interessiert man sich f&#252;r Feedback-Gespr&#228;che, markiert man diese Option und erh&#228;lt eine Auswahl von drei Interaktionen:</p>
<fig id="F7">
<label>Abbildung 7</label>
<caption>
<p>Auswahl von Feedback-Gespr&#228;chen als Unterkategorie von &#8222;Bildung&#8220;</p>
</caption>
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="kordaf-3725_fandrych-g7.png"/>
</fig>
<p>&#220;ber den Filter &#8222;Art&#8220; kann man sodann sehen, dass die drei m&#252;ndlichen Feedback-Interaktionen aus einem Feedbackgespr&#228;ch unter Lehrkr&#228;ften und zwei Unterrichtshospitationen bestehen. Der Sprachregions-Filter zeigt zudem an, dass das Gespr&#228;ch unter Lehrkr&#228;ften in der Region &#8222;Mittelwest&#8220;, die Unterrichtshospitationsgespr&#228;che im Raum &#8222;Nordwest&#8220; stattfanden. Auch bez&#252;glich der Dauer unterscheiden sich die beiden Unterrichtshospitationsgespr&#228;che vom Lehrkr&#228;ftegespr&#228;ch, was &#252;ber den Filter &#8222;Dauer&#8220;, aber auch &#252;ber die Liste der ausgew&#228;hlten Interaktionen in der &#220;bersicht rechts deutlich wird.</p>
<p>Je nach Interesse kann die Suche nach m&#252;ndlichen Sprachereignissen aber auch mit der Auswahl einer Sprachregion und / oder eines gew&#252;nschten Zeitrahmens (&#8222;Dauer&#8220;) beginnen und dann sukzessive verfeinert werden, auch in Kombination mit den Parametern f&#252;r Schwierigkeit und M&#252;ndlichkeitsph&#228;nomene (Kap. 4 und 5).</p>
<p>Bei <italic>GeWiss</italic> ist der Interaktionstyp, wie bereits geschildert, vorab festgelegt. Anders als bei <italic>FOLK</italic> allerdings sind verschiedene Sprachen im Korpus enthalten, weshalb statt des dort angebotenen Auswahlmen&#252;s &#8222;Gespr&#228;chstyp&#8220; der Filter &#8222;Sprachen&#8220; vorgesehen ist. Hier kann man nicht nur nach der verwendeten Sprache, sondern auch nach dem Status als L1 oder L2 filtern. In einer Reihe von Interaktionen partizipieren sowohl L1- als auch L2-Sprechende des Deutschen bzw. Englischen &#8211; auch dies wird bei der Auswahl separat angezeigt. Die Gespr&#228;chsart besteht im Wesentlichen aus den drei genannten Gattungen Expertenvortrag, studentischer Vortrag und Pr&#252;fungsgespr&#228;ch<xref ref-type="fn" rid="n12">12</xref>. Anders als bei <italic>FOLK</italic> wurden die ausgew&#228;hlten Gattungen von Beginn an projektintern in gemeinsamen Workshops m&#246;glichst konzise definiert und es wurde w&#228;hrend des Korpusaufbaus auf Vergleichbarkeit und Konsistenz der Gattungen im Gesamtkorpus geachtet<xref ref-type="fn" rid="n13">13</xref>. Auch im <italic>GeWiss</italic>-Korpus ist die Liste der behandelten Themen sehr gro&#223;, sodass die Themenauswahl erst erfolgen kann, wenn die Zahl der Interaktionen bereits durch das Setzen anderer Filter eingeschr&#228;nkt wurde. Auch hier besteht die M&#246;glichkeit, nach der Dauer der Interaktionen weiter zu filtern; das Auswahlmen&#252; &#8222;Sprachregion&#8220; zeigt beim <italic>GeWiss</italic>-Korpus allerdings nur die Aufnahmel&#228;nder als Ganze an &#8211; eine weitere regionale Zuordnung erfolgt an dieser Stelle nicht.</p>
<p>Interessiert man sich etwa f&#252;r deutschsprachige Pr&#252;fungsgespr&#228;che im universit&#228;ren Kontext, kann man sich nach der Wahl der Sprache (z. B. &#8222;Deutsch als L1&#8220;) und der Gespr&#228;chsart (&#8222;Pr&#252;fungsgespr&#228;ch&#8220;) &#252;ber das Auswahlmen&#252; &#8222;Themen&#8220; anzeigen lassen, welche Inhalte in den verbleibenden 18 Interaktionen behandelt wurden. W&#228;hlt man als Thema &#8222;Standard und Variation&#8220;, verbleiben drei Pr&#252;fungsgespr&#228;che, die alle eine Dauer von ca. einer Stunde aufweisen. Es muss dabei ber&#252;cksichtigt werden, dass das gew&#228;hlte Thema hier &#8211; und in vielen weiteren F&#228;llen &#8211; nur <italic>eines</italic> von mehreren behandelten Themen ist und man die genaueren Passagen innerhalb des Gespr&#228;chs erst mithilfe einer Durchsicht der Transkripte oder &#252;ber eine Suche nach bestimmten Schl&#252;sselw&#246;rtern identifizieren kann.</p>
<p>F&#252;r Sprachvermittlungszwecke ist es nun von besonders gro&#223;er Relevanz, dass man die in diesem Abschnitt beschriebenen metadatenbasierten Auswahloptionen mit verschiedenen weiteren Filterfunktionen kombinieren kann, die sich auf Aspekte der sprachlichen Schwierigkeit und auf bestimmte M&#252;ndlichkeitsph&#228;nomene beziehen. Diese werden in den folgenden beiden Abschnitten n&#228;her dargelegt.</p>
</sec>
<sec>
<title>4. Filter zur Auswahl nach schwierigkeitsbezogenen Parametern</title>
<p>Im Folgenden werden die schwierigkeitsbezogenen Filter vorgestellt. Diese umfassen Auswahlfilter zum in den Sprechereignissen vorhandenen Wortschatz, zur Standardn&#228;he (bzw. der Normalisierungsrate), zur Sprechgeschwindigkeit (bzw. zur Artikulationsrate) der am Gespr&#228;ch beteiligten Sprechenden und zu &#220;berlappungen, also gleichzeitig gesprochenen Sequenzen dieser Sprechenden.</p>
<sec>
<title>4.1 Zur Operationalisierung von Schwierigkeit im Rahmen des Projektes <italic>ZuMult</italic></title>
<p>Die &#8218;Schwierigkeit&#8216; von Sprechereignissen ist ein schwer fassbares Konstrukt und von vielen verschiedenen Faktoren abh&#228;ngig. Grunds&#228;tzlich sind unterschiedliche Operationalisierungen von Schwierigkeit denkbar<xref ref-type="fn" rid="n14">14</xref>. Um eine &#220;bertragbarkeit auf k&#252;nftige Korpuserweiterungen zu gew&#228;hrleisten, war es im Rahmen des Projekts <italic>ZuMult</italic> erforderlich, in den Korpusdaten Merkmale zu identifizieren, die mit Schwierigkeitskonzepten in Verbindung stehen und sich zugleich mit Hilfe automatisierter Verfahren ermitteln lassen.</p>
<p>Schwierigkeit wurde bei der Konzeption der Auswahlfilter vor allem als lernerseitige Schwierigkeit bei der Rezeption von Sprechereignissen konzeptualisiert. Die an dieser Stelle vorgestellten Auswahlfilter zielen daher darauf, die Rezeption der Sprechereignisse f&#252;r die Lernenden entweder zu erleichtern oder anspruchsvoller zu gestalten. So k&#246;nnte eine Erleichterung der Rezeption bspw. erfolgen, indem Sprechereignisse ausgew&#228;hlt werden, die &#252;ber einen potenziell weitgehend bekannten Wortschatz oder eine gr&#246;&#223;ere Standardn&#228;he verf&#252;gen. Eine anspruchsvollere Gestaltung der Rezeption k&#246;nnte wiederum vorgenommen werden, indem sehr dialogische Sprechereignisse ausgew&#228;hlt werden, bei denen sich Redesequenzen oft &#252;berschneiden und zus&#228;tzlich vielleicht eine Vielzahl an M&#252;ndlichkeitsph&#228;nomenen enthalten sind. Zugrunde gelegt wird hierbei die Beobachtung, dass Merkmale der gesprochenen Sprache, wie die Sprechgeschwindigkeit oder &#220;berlappungen verschiedener sprechender Personen, f&#252;r Lernende mit h&#246;herem kognitiven Verarbeitungsaufwand bei der Dekodierung einhergehen (vgl. <xref ref-type="bibr" rid="B22">Housen et al. 2019: 4</xref>). Sie sind demnach f&#252;r die Lernenden unter Umst&#228;nden schwieriger zu erfassen. Schwierigkeit (<italic>difficulty</italic>) wird bei Housen et al. (<xref ref-type="bibr" rid="B22">2019</xref>) als eine Dimension von Komplexit&#228;t (<italic>complexity</italic>) verstanden. In diesem Kontext wird zudem immer wieder die Unterscheidung zwischen relativer und absoluter Komplexit&#228;t herausgestellt, wobei &#8218;Schwierigkeit&#8216; der relativen Komplexit&#228;t zuzuordnen ist und auch als nutzerbezogene Komplexit&#228;t bezeichnet wird (vgl. <xref ref-type="bibr" rid="B22">Housen et al. 2019: 4</xref>)<xref ref-type="fn" rid="n15">15</xref>.</p>
<p>Schwierigkeit ist in diesem Zusammenhang immer nur individuell bestimmbar, da sie sich aus der Beziehung der Sprachnutzenden zu den jeweiligen Texten bzw. Sprechereignissen ergibt (vgl. <xref ref-type="bibr" rid="B7">Bult&#233; / Housen 2012: 23</xref>). Bei der kognitiven Verarbeitbarkeit der Sprechereignisse spielen hinsichtlich der Schwierigkeit zus&#228;tzlich Einflussfaktoren wie die generelle Sprachlerneignung, das Arbeitsged&#228;chtnis, der erstsprachliche Hintergrund oder auch das Sprachniveau in der Fremd- bzw. Zweitsprache Deutsch eine entscheidende Rolle (vgl. <xref ref-type="bibr" rid="B21">Housen / Simoens 2016: 167</xref>; <xref ref-type="bibr" rid="B22">Housen et al. 2019: 10</xref>). Vor diesem Hintergrund sind wir bei der Konzeption der Filter f&#252;r <italic>ZuMal</italic> davon ausgegangen, dass diese einerseits von Lehrkr&#228;ften dazu verwendet werden k&#246;nnen, um m&#246;glichst passgenaue Sprechereignisse f&#252;r spezifische Unterrichtskontexte auszuw&#228;hlen und andererseits von Lernenden dazu genutzt werden k&#246;nnen, um Sprechereignisse auszuw&#228;hlen, die sowohl den eigenen Interessen als auch dem jeweiligen Lernstand entsprechen und so eine gewinnbringende und lernf&#246;rderliche Auseinandersetzung mit den Transkripten erm&#246;glichen.</p>
<sec>
<title>Der Auswahlfilter &#8222;Wortschatz (Niveaustufe)&#8220;</title>
<p>Der erste der im Projekt entwickelten schwierigkeitsbezogenen Auswahlfilter ist der Filter &#8222;Wortschatz (Niveaustufe)&#8220;. Dieser Filter operationalisiert die Textdeckung eines Sprechereignisses mit Hilfe unterschiedlicher Wortschatzlisten. Die Textdeckung eines Textes bezieht sich auf die Anzahl an W&#246;rtern in einem Text oder einem Sprechereignis, die Lernenden mit Deutsch als Fremd- oder Zweitsprache, aber auch erstsprachlichen Lesenden oder H&#246;renden, mindestens bekannt sein m&#252;ssen, damit ein Text angemessen verstanden werden kann (vgl. <xref ref-type="bibr" rid="B49">Vilkait&#279;-Lozdien&#279; / Schmitt 2020: 80</xref>)<xref ref-type="fn" rid="n16">16</xref>. In <italic>ZuMal</italic> ist die Operationalisierung der Textdeckung bzw. des Wortschatzfilters einerseits eng an den Wortschatz einzelner GER-Niveaustufen angelehnt, da diese auf der Grundlage von verschiedenen Wortschatzlisten des Goethe-Instituts berechnet werden kann. Zu diesem Zweck stehen die A1-<xref ref-type="fn" rid="n17">17</xref>, A2<xref ref-type="fn" rid="n18">18</xref>- und die B1-Wortschatzliste<xref ref-type="fn" rid="n19">19</xref> zur Verf&#252;gung. Andererseits l&#228;sst sich die Textdeckung frequenzbezogen anhand der &#8218;Herder-Listen&#8216; ausgeben, die auf Grundlage des Frequenzw&#246;rterbuchs von Tschirner / M&#246;hring (<xref ref-type="bibr" rid="B44">2019</xref>) berechnet wurden. Diese erm&#246;glichen einen Abgleich mit den 1000, 2000, 3000, 4000 und 5000 h&#228;ufigsten W&#246;rtern des Deutschen. Die Frequenz eines Wortes wird dabei als Kriterium f&#252;r die Relevanz eines Wortes f&#252;r die Lernenden gesehen. Gleichzeitig wird ein indirekter Zusammenhang zwischen dem f&#252;r die GER-Niveaustufen konzipierten Wortschatz und den jeweiligen Wortschatzlisten und den frequenzbezogenen Wortschatzlisten angenommen. Dieser wird in der Regel &#252;ber die Wortschatzbreite operationalisiert. Tschirner / Hacking / Rubio (<xref ref-type="bibr" rid="B43">2018</xref>) arbeiten etwa f&#252;r die Niveaustufe A1 eine Wortschatzbreite von 837 W&#246;rtern, f&#252;r A2 eine Wortschatzbreite von 1640 und f&#252;r B1 eine Wortschatzbreite von 3246 W&#246;rtern heraus (vgl. <xref ref-type="bibr" rid="B43">Tschirner / Hacking / Rubio 2018: 70</xref>). Dies legt f&#252;r die Filter in <italic>ZuMal</italic> also vor allem Zusammenh&#228;nge zwischen den Filtern f&#252;r die Goethe-Wortsch&#228;tze A1, A2 und B1 und den Listen der 3000 h&#228;ufigsten W&#246;rter nahe, wobei f&#252;r einen Text mit B1-Wortschatz die Liste der 3000 h&#228;ufigsten W&#246;rter eine angemessene Schwelle darzustellen scheint.</p>
<p>&#220;ber die Filterfunktion kann f&#252;r diese acht Listen die gew&#252;nschte Textdeckung ausgew&#228;hlt werden. Mit Hilfe der Lemmata wird dann ein Abgleich der im Sprechereignis enthaltenen W&#246;rter mit der jeweils ausgew&#228;hlten Wortschatzliste durchgef&#252;hrt. Die zur Verf&#252;gung stehenden Wortschatzlisten erm&#246;glichen so eine wortschatzbezogene Einsch&#228;tzung des ausgew&#228;hlten Sprechereignisses. Ob allerdings eher die Wortschatzlisten des Goethe-Instituts oder die frequenzbezogenen Wortschatzlisten zur Einsch&#228;tzung der lernerseitigen Schwierigkeit eines Sprechereignisses herangezogen werden sollten, h&#228;ngt entscheidend davon ab, wie die von den Lernenden besuchten Kurse, die verwendeten Lehr- und Lernmaterialien und die zugrundeliegenden Curricula gestaltet sind.</p>
<p>F&#252;r das Lesen hat sich in den letzten Jahrzehnten eine Textdeckung von zwischen 95 % und 98 % als Schwellenwert etabliert, der ein weitgehendes Textverst&#228;ndnis sicherstellt (vgl. <xref ref-type="bibr" rid="B19">Hacking / Tschirner 2017: 503</xref>; <xref ref-type="bibr" rid="B43">Tschirner / Hacking / Rubio 2018: 60</xref>). Prinzipiell kann jedoch davon ausgegangen werden, dass f&#252;r gesprochene Sprache eine niedrigere Wortschatzdeckung zum Verstehen eines kommunikativen Ereignisses notwendig ist als in geschriebenen Texten (vgl. <xref ref-type="bibr" rid="B34">Read 2004: 149</xref>). Van Zeeland / Schmitt (<xref ref-type="bibr" rid="B47">2013</xref>) gehen f&#252;r das Englische etwa davon aus, dass 90&#8211;95 % Wortschatzdeckung f&#252;r das Verst&#228;ndnis eines H&#246;rtextes ausreichen, gleichzeitig gehen sie davon aus, dass f&#252;r eine solche Deckung in Sprechereignissen der Alltagssprache etwa 2000&#8211;3000 W&#246;rter bekannt sein m&#252;ssten. Es muss allerdings darauf hingewiesen werden, dass die Sch&#228;tzungen dar&#252;ber, wie viele W&#246;rter zum Erreichen der Schwellenwerte bekannt sein m&#252;ssen, stark differieren und zum Teil deutlich h&#246;here Werte angenommen werden. In diesem Zusammenhang ist es zudem wichtig zu erw&#228;hnen, dass Studien zur Wortschatzdeckung in m&#252;ndlichen Sprechereignissen f&#252;r das Deutsche noch weitgehend ausstehen.</p>
</sec>
<sec>
<title>Der Auswahlfilter &#8222;Standardn&#228;he (Normalisierungsrate)&#8220;</title>
<p>Der Auswahlfilter &#8222;Standardn&#228;he (Normalisierungsrate)&#8220; zielt, wie die Filter &#8222;Sprechgeschwindigkeit&#8220; und &#8222;&#220;berlappungen&#8220;, in besonderer Weise auf grundlegende Eigenschaften gesprochener Sprache ab, die einen Einfluss auf die relative Komplexit&#228;t bzw. auf die lernerseitig wahrgenommene Schwierigkeit eines Sprechereignisses haben k&#246;nnen<xref ref-type="fn" rid="n20">20</xref>. Gesprochene Sprache unterscheidet sich in ihrer Realisierung in vielerlei Hinsicht von geschriebener Sprache. Dies zeigt sich etwa in <italic>FOLK</italic> vor allem durch dialektal gesprochene Formen, aber auch durch typische Ph&#228;nomene der M&#252;ndlichkeit wie H&#228;sitationen, Korrekturen oder Klitisierungen. Im <italic>GeWiss</italic>-Korpus kommen zu diesen Ph&#228;nomenen potenziell noch lernersprachliche Strukturen hinzu, die durch eine grunds&#228;tzliche Variation (vgl. <xref ref-type="bibr" rid="B17">Fandrych / Wallner 2022</xref>; <xref ref-type="bibr" rid="B53">Wisniewski / L&#252;deling / Czinglar 2022</xref>) gekennzeichnet sind. Der Filter &#8222;Standardn&#228;he (Normalisierungsrate)&#8220; wird operationalisiert, indem die Anzahl der Token berechnet wird, die aufgrund der aussprachennahen Transkription der Gespr&#228;che von der orthografischen Standardschreibung differieren. Als Grundlage der aussprachenahen schriftlichen Wiedergabe der m&#252;ndlichen Daten dient dabei die Minimaltranskript-Version von cGAT2 (vgl. <xref ref-type="bibr" rid="B40">Schmidt / Sch&#252;tte / Winterscheid 2015</xref>); diese wurde in der Folge auf einer weiteren Transkriptspur in eine orthografisch bereinigte (&#8218;normalisierte&#8216;) Version &#252;bertragen (vgl. zur Normalisierung von gesprochenen Daten <xref ref-type="bibr" rid="B52">Winterscheid et al. 2019</xref>). Eine hohe Normalisierungsrate zeigt daher an, dass viele Token zwischen diesen beiden Spuren differieren und es sich damit um ein Sprechereignis handelt, das als &#8218;standardferner&#8216; beschrieben werden kann.</p>
<p>Diesem Filter liegt &#8211; der Logik dieser Operationalisierung folgend &#8211; die Annahme zugrunde, dass Transkripte, die durch eine gr&#246;&#223;ere &#8218;Standardn&#228;he&#8216; (und damit eine geringere Normalisierungsrate) gekennzeichnet sind, grunds&#228;tzlich zug&#228;nglicher f&#252;r Lernende des Deutschen als Zweit- und Fremdsprache sind, da bis heute in unterrichtlichen Kontexten nach wie vor eher am schriftsprachlichen Standard orientierte Strukturen des Deutschen vermittelt werden. Zu ber&#252;cksichtigen ist, dass die Normalisierungsrate ein Wert ist, der sich auf das gesamte Sprechereignis bezieht und die Werte innerhalb eines Sprechereignisses sowie bei einem Vergleich der Sprecher:innen untereinander durchaus variieren k&#246;nnen.</p>
</sec>
<sec>
<title>Der Auswahlfilter &#8222;Sprechgeschwindigkeit (Artikulationsrate)&#8220;</title>
<p>Dem Filter &#8222;Sprechgeschwindigkeit (Artikulationsrate)&#8220; liegt die &#220;berlegung zugrunde, dass Sprechereignisse f&#252;r Lernende mit einem h&#246;heren Dekodierungsaufwand einhergehen, wenn in diesen schneller gesprochen wird. Dieser Filter unterst&#252;tzt Lehrende und Lernende demnach dabei, schneller und langsamer gesprochene Sprechereignisse f&#252;r didaktische Zwecke auszuw&#228;hlen. Die Sprechgeschwindigkeit wird dabei &#252;ber die Rate der pro Sekunde artikulierten Silben operationalisiert. Zur Berechnung der Artikulationsrate werden die aussprachenahen Transkriptionen in die phonemische Umschrift SAMPA (vgl. <xref ref-type="bibr" rid="B50">Wells 1997</xref>) transponiert. Mithilfe der in dieser Umschrift markierten Silbengrenzen l&#228;sst sich f&#252;r jedes Sprechereignis die Gesamtzahl an Silben berechnen, die dann durch die Gesamtzahl an Sekunden dividiert wird. Eine solche Operationalisierung bildet folglich nicht ab, ob es innerhalb eines Gespr&#228;ches auch Phasen gibt, in denen deutlich langsamer gesprochen wird. Dies l&#228;sst sich allerdings &#252;ber den Density Viewer in <italic>ZuViel</italic> nachvollziehen (vgl. Schmidt / Schwendemann / Wallner in dieser Ausgabe).</p>
</sec>
<sec>
<title>Der Auswahlfilter &#8222;&#220;berlappungen&#8220;</title>
<p>&#196;hnlich wie der Filter &#8222;Sprechgeschwindigkeit (Artikulationsrate)&#8220; wurde der Filter &#220;berlappungen auf Basis der Annahme konzipiert, dass Gespr&#228;chssequenzen, in denen mehrere Personen gleichzeitig, d.h. &#252;berlappend, sprechen, von Lernenden eine gr&#246;&#223;ere Rezeptionsleistung verlangen. Die Ausz&#228;hlung &#252;berlappend gesprochener Sequenzen erfolgt direkt anhand der aussprachenahen Transkription, in der diese Sequenzen festgehalten werden. Wie f&#252;r den Filter &#8222;Sprechgeschwindigkeit (Artikulationsrate)&#8220; werden jeweils globale Werte f&#252;r ein Sprechereignis angegeben. Das bedeutet, dass die Auswahl eines Sprechereignisses mit einer hohen Rate an &#220;berlappungen nicht bedeutet, dass es in diesem Sprechereignis nicht auch Sequenzen gibt, in denen es kaum zu &#220;berlappungen kommt.</p>
<p>F&#252;r den Kontext DaF/DaZ ist an dieser Stelle grunds&#228;tzlich zu konstatieren, dass die systematische Analyse von konkreten Faktoren, die lernerseitig zu gr&#246;&#223;eren Schwierigkeiten bei der Rezeption von Sprechereignissen f&#252;hren k&#246;nnten, nur selten in den Forschungsfokus r&#252;ckt, auch weil diese Faktoren aufgrund ihrer gegenseitigen Abh&#228;ngigkeiten und dynamischen Beziehungen schwierig zu operationalisieren sind. Hier bestehen zudem noch dringende forschungsbezogene Desiderata<xref ref-type="fn" rid="n21">21</xref>. Die vorgestellten Filter aus <italic>ZuMal</italic> bilden dennoch einen Versuch, solche schwierigkeitsbezogenen Faktoren beim Einsatz von authentischen Sprechereignissen systematisch in Unterrichtskontexte einzubringen und mitzudenken.</p>
</sec>
</sec>
<sec>
<title>4.2 Die Filter in Anwendung: Spektren und Beispiele</title>
<p>Im Folgenden wird gezeigt, zu welchen Ergebnissen die Anwendung der schwierigkeitsbezogenen Filter bezogen auf die aktuelle Version 2.19 der DGD f&#252;r das <italic>FOLK</italic>-Korpus f&#252;hrt. Neben den derzeit beobachtbaren Spektren der Merkmalsauspr&#228;gungen wird auch jeweils angegeben, welche Werte die mittleren 50 % aller Sprechereignisse bez&#252;glich der einzelnen Merkmale aufweisen<xref ref-type="fn" rid="n22">22</xref>. Die Darstellung beruht dabei auf Informationen, die der tabellarischen Ergebnisansicht in <italic>ZuMal</italic> entnommen wurden. F&#252;r die Charakterisierung und Einordnung der Ergebnisse werden Interaktionsdom&#228;nen und Gespr&#228;chstypen angegeben. Erg&#228;nzend dazu werden zus&#228;tzlich auch einige ausgew&#228;hlte Befunde aufgef&#252;hrt, die auf Auswertungen mit dem Tool <italic>ZuRecht</italic> (vgl. auch Frick / Helmer / Wallner in dieser Ausgabe) beruhen.</p>
<sec>
<title>Spektren des Auswahlfilters &#8222;Wortschatz (Niveaustufe)&#8220;</title>
<p>F&#252;r die Nutzung dieses Filters muss zun&#228;chst eine der unter 4.1 genannten Wortschatzlisten ausgew&#228;hlt werden. Nach der Auswahl einer Liste wird unterhalb der Liste das Spektrum der Wortschatzdeckung angezeigt &#8211; also der minimale und der maximale Wert der Wortschatzdeckung, den die ausgew&#228;hlte Liste bei den Sprechereignissen in <italic>FOLK</italic> erreicht. Alternativ kann in der tabellarischen Ergebnisansicht die gew&#252;nschte Wortschatzliste als Spalte hinzugef&#252;gt werden. Die Sprechereignisse k&#246;nnen daraufhin in dieser Spalte nach Wortschatzdeckung sortiert werden. <xref ref-type="fig" rid="F8">Abbildung 8</xref> zeigt beide Optionen am Beispiel der Goethe-Zertifikatswortschatzliste der Niveaustufe A2:</p>
<fig id="F8">
<label>Abbildung 8</label>
<caption>
<p>Auswahlfilter &#8222;Wortschatz (Niveaustufe)&#8220;</p>
</caption>
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="kordaf-3725_fandrych-g8.png"/>
</fig>
<p>Bei der Anwendung der verschiedenen Goethe-Zertifikatswortschatzlisten auf die Sprechereignisse in <italic>FOLK</italic> lassen sich folgende Spektren bez&#252;glich der Wortschatzdeckung beobachten: 55 % &#8211; 97 % (A1), 64 % &#8211; 100 % (A2) und 69 % &#8211; 100 % (B1). Dabei zeigen die mittleren 50 % der Daten eine Wortschatzdeckung zwischen 75 % und 79 % (A1), 81 % und 85 % (A2) bzw. zwischen 88 % und 91 % (B1). Bezogen auf die Niveaustufen A1 und A2 liegt damit die H&#228;lfte der Daten unterhalb der &#8211; nach <xref ref-type="bibr" rid="B47">Van Zeeland / Schmitt 2013</xref> &#8211; f&#252;r ein ausreichendes H&#246;rverst&#228;ndnis erforderlichen Wortschatzdeckung von 90 %. Soll von vornherein eine Einschr&#228;nkung der Auswahl der Sprechereignisse &#8211; etwa mit einer Wortschatzdeckung von 90 % &#8211; vorgenommen werden, so ist dies mit Hilfe des Schiebereglers unterhalb der Anzeige der Deckungswerte (vgl. <xref ref-type="fig" rid="F8">Abbildung 8</xref>) m&#246;glich. Aktuell zeigen f&#252;r das Niveau A1 lediglich drei Datens&#228;tze eine Wortschatzdeckung von mindestens 90 %. Dabei handelt es sich um sehr kurze (weniger als eine Minute andauernde) Gespr&#228;che im Polizeirevier. F&#252;r das Niveau A2 erreichen neun Gespr&#228;che eine Wortschatzdeckung von mindestens 90 %. Neben f&#252;nf Gespr&#228;chen im Polizeirevier handelt es sich hierbei um zwei Tandemtreffen und zwei Verkaufsgespr&#228;che. F&#252;r das Niveau B1 ist die Auswahl deutlich gr&#246;&#223;er: Hier erreichen 212 Gespr&#228;che eine Wortschatzdeckung von mindestens 90 %. Abgesehen von den Gespr&#228;chen, die bereits f&#252;r A2 Deckungswerte &#252;ber 90 % aufweisen, zeigen eine Maptask-Interaktion, zwei ethnografische Interviews, ein Meeting in einem Wirtschaftsunternehmen sowie ein Gespr&#228;ch aus der Make-up-Artist-Ausbildung besonders hohe Werte von 94 %. Im Hinblick auf die Dom&#228;nenzugeh&#246;rigkeit f&#228;llt auf, dass die Gespr&#228;che mit einer Wortschatzdeckung von mindestens 90 % haupts&#228;chlich der privaten Interaktionsdom&#228;ne mit insgesamt 100 Gespr&#228;chen und der institutionellen Interaktionsdom&#228;ne mit 81 Gespr&#228;chen zuordnen lassen.</p>
<p>Bei der Anwendung der h&#228;ufigkeitsbezogenen Herder-Listen zeigen sich folgende Spektren in der Textdeckung: 77 % &#8211; 97 % (Herder 1000), 61 % &#8211; 97 % (Herder 2000), 63 % &#8211; 100 % (Herder 3000), 64 % &#8211; 100 % (Herder 4000) und 65 % &#8211; 100 % (Herder 5000). Die mittleren 50 % der Datens&#228;tze liegt zwischen 80 % und 84 % (Herder 1000), 83 % und 87 % (Herder 2000), 85 % &#8211; 88 % (Herder 3000), 86 % und 90 % (Herder 4000) und 87 % und 90 % (Herder 5000). Die H&#228;lfte der Gespr&#228;chsdaten erreicht damit erst f&#252;r die 4000 h&#228;ufigsten W&#246;rter eine Wortschatzdeckung von mindestens 90 %. Bez&#252;glich der h&#228;ufigsten 1000 W&#246;rter zeigt lediglich eines der sehr kurzen Gespr&#228;che im Polizeirevier eine Wortschatzdeckung von &#252;ber 90 %. Bez&#252;glich der 2000 h&#228;ufigsten W&#246;rter sind es bereits zw&#246;lf Gespr&#228;che, darunter erneut Gespr&#228;che im Polizeirevier, Tandemtreffen sowie Verkaufs- und Telefongespr&#228;che. Im Hinblick auf die 3000 h&#228;ufigsten W&#246;rter erreichen wiederum 43 Gespr&#228;che eine Wortschatzdeckung von mindestens 90 %, bez&#252;glich der 4000 h&#228;ufigsten W&#246;rter sind es schon 109 Gespr&#228;che und bez&#252;glich der 5000 h&#228;ufigsten W&#246;rter sind es 262 Gespr&#228;che. Hinsichtlich der h&#228;ufigsten 5000 W&#246;rter geh&#246;ren die Gespr&#228;che mit einer Wortschatzdeckung von mindestens 90 % &#252;berwiegend der privaten Interaktionsdom&#228;ne (mit 71 Gespr&#228;chen) an. 47 Gespr&#228;che lassen sich der institutionellen Interaktionsdom&#228;ne zuordnen.</p>
<p>Insgesamt wird deutlich, dass die Gespr&#228;chsdaten im <italic>FOLK</italic> vor allem ab der Niveaustufe B1 geeignet zu sein scheinen. Das hei&#223;t aber nicht, dass die Daten nicht auf niedrigeren Niveaustufen eingesetzt werden k&#246;nnen. Da es sich bei der Wortschatzdeckung um einen globalen Wert handelt, der sich auf das Gesamtgespr&#228;ch bezieht, ist durchaus denkbar, dass einzelne Sequenzen h&#246;here (ggf. aber auch niedrigere) Deckungswerte aufweisen und damit auch f&#252;r niedrigere Niveaustufen geeignet sein k&#246;nnen. Zudem ist es auch m&#246;glich, den nicht durch eine Wortliste gedeckten Wortschatz vorzuentlasten (vgl. hierzu Schmidt / Schwendemann / Wallner in dieser Ausgabe).</p>
</sec>
<sec>
<title>Spektren des Auswahlfilters &#8222;Standardn&#228;he (Normalisierungsrate)&#8220;</title>
<p>Die Spektren des Auswahlfilters &#8222;Standardn&#228;he (Normalisierungsrate)&#8220; lassen sich analog zur Wortschatzdeckung &#252;ber den Filter sowie &#252;ber die tabellarische Ergebnisansicht anzeigen (vgl. <xref ref-type="fig" rid="F9">Abbildung 9</xref>)<xref ref-type="fn" rid="n23">23</xref>.</p>
<fig id="F9">
<label>Abbildung 9</label>
<caption>
<p>Auswahlfilter &#8222;Standardn&#228;he (Normalisierungsrate)&#8220;</p>
</caption>
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="kordaf-3725_fandrych-g9.png"/>
</fig>
<p>Bez&#252;glich der Normalisierungsrate zeigen die Gespr&#228;chsdaten in <italic>FOLK</italic> ein sehr breites Spektrum. Dieses liegt zwischen 3 % und 57 %. Das hei&#223;t, dass bei einigen Sprechereignissen lediglich 3 % aller Token abweichend von der Standardorthografie transkribiert wurden und somit deutlich von der Standardlautung abwichen, w&#228;hrend dies bei einem Sprechereignis bei 57 % aller Token der Fall ist. Die mittleren 50 % der Daten besitzen eine Normalisierungsrate zwischen 11 % und 19 %. Besonders niedrige Normalisierungsraten lassen sich bei &#246;ffentlichen Gespr&#228;chsdaten beobachten (so etwa bei einer Plenarsitzung im Bundestag), bei mehreren Ausschusssitzungen sowie bei einer Podiumsdiskussion mit jeweils 3 %. Es ist davon auszugehen, dass es sich hierbei um &#252;berwiegend geplante, teilweise auch medial inszenierte Sprechereignisse handelt. Die h&#246;chste Normalisierungsrate, die sich in den aktuell verf&#252;gbaren Gespr&#228;chsdaten aus der &#246;ffentlichen Interaktionsdom&#228;ne beobachten l&#228;sst, liegt bei 12 %. Dabei handelt es sich um zwei &#246;ffentliche Schlichtungsgespr&#228;che. Besonders hohe Normalisierungsraten besitzen wiederum zwei Fokusgruppen-Interviews mit 57 % bzw. 49 %, in denen jeweils Schweizerdeutsch gesprochen wird. H&#246;here Normalisierungsraten lassen sich zudem bei Gespr&#228;chen aus der Interaktionsdom&#228;ne &#8222;privat&#8220; beobachten (bspw. ein Telefongespr&#228;ch mit 48 % und ein Tischgespr&#228;ch mit 47 %). Aber auch institutionelle Gespr&#228;che k&#246;nnen hohe Normalisierungsraten aufweisen (so etwa ein Meeting in einer sozialen Einrichtung mit 46 % und ein Gespr&#228;ch beim Friseur mit 41 %). Vielfach zeigen zudem Gespr&#228;chsdaten mit h&#246;heren Normalisierungsraten eine st&#228;rkere dialektale Pr&#228;gung (vgl. den Ausschnitt aus FOLK_E_00319_SE_01 mit 41 % Normalisierungsrate in <xref ref-type="fig" rid="F10">Abbildung 10</xref>).</p>
<fig id="F10">
<label>Abbildung 10</label>
<caption>
<p>Ausschnitt aus einem Gespr&#228;ch beim Friseur (FOLK_E_00319_SE_01)</p>
</caption>
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="kordaf-3725_fandrych-g10.png"/>
</fig>
<p>Die Gespr&#228;che mit durchschnittlichen Normalisierungsraten und hier insbesondere die mittleren 50 % der Daten, die zwischen 11 % und 19 % liegen, enthalten meist umgangssprachliche Ph&#228;nomene, die regionen&#252;bergreifend vorkommen (vgl. den Ausschnitt aus einem Meeting einer sozialen Einrichtung mit 14 % Normalisierungsrate in <xref ref-type="fig" rid="F11">Abbildung 11</xref>).</p>
<fig id="F11">
<label>Abbildung 11</label>
<caption>
<p>Ausschnitt aus einem Meeting in einer sozialen Einrichtung (FOLK_E_00254_SE_01)</p>
</caption>
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="kordaf-3725_fandrych-g11.png"/>
</fig>
<p>Grunds&#228;tzlich ist allerdings zu ber&#252;cksichtigen, dass anhand der Normalisierungsrate nicht erkennbar ist, inwieweit es sich um dialektale oder eher umgangssprachliche Ph&#228;nomene handelt.</p>
<p>Zu den h&#228;ufigsten &#252;bergreifend beobachtbaren Normalisierungsf&#228;llen geh&#246;ren Reduktionen wie bspw. <italic>is</italic>, welches 43.179 Mal zu <italic>ist</italic> normalisiert wurde und in 99 % der Sprechereignisse und bei 78 % der dokumentierten Sprecher:innen zu beobachten ist. Weitere &#252;bergreifend beobachtbare Reduktionen sind <italic>nich</italic> (25.195 Mal zu <italic>nicht</italic> normalisiert, beobachtbar in 94 % der Sprechereignisse und bei 86 % der dokumentierten Sprecher:innen) und <italic>s</italic> (19.867 Mal zu <italic>es</italic> normalisiert, beobachtbar in 98 % der Sprechereignisse und bei 96 % der dokumentierten Sprecher:innen). Daneben betreffen die Normalisierungen auch gesprochensprachliche Ersatz- oder auch Schnellsprechformen, wie bspw. <italic>nee</italic>, welches 9.507 Mal zu <italic>nein</italic> normalisiert wurde und in 93 % aller Sprechereignisse und bei 77 % aller dokumentierten Sprecher:innen vorkommt. Weitere Beispiele sind <italic>ham</italic> (8.921 Mal normalisiert zu <italic>haben</italic> und in 93 % der Sprechereignisse sowie bei 79 % der dokumentierten Sprecher:innen beobachtbar) sowie <italic>nix</italic> (2.369 Mal normalisiert zu <italic>nichts</italic> und in 71 % der Sprechereignisse sowie bei 49 % der dokumentierten Sprecher:innen beobachtbar).</p>
<p>&#220;berdies handelt es sich bei den Normalisierungsf&#228;llen oft auch um Klitisierungen. Zu den h&#228;ufigsten &#252;bergreifend vorkommenden Klitisierungen im <italic>FOLK</italic> z&#228;hlt aktuell <italic>son</italic> bzw. <italic>so_n</italic>, welches in 3.006 F&#228;llen zu <italic>so ein</italic> normalisiert wurde und in 78 % der Sprechereignisse sowie bei 54 % der Sprecher:innen beobachtet werden kann. Weitere h&#228;ufige und verbreitete Klitisierungen sind <italic>gibt_s</italic> (1.942 Mal normalisiert zu <italic>gibt es</italic>, beobachtbar in 71 % der Sprechereignisse und bei 51 % der dokumentierten Sprecher:innen) und <italic>geht_s</italic> (1.134 Mal normalisiert zu <italic>geht es</italic>, beobachtbar in 72 % der Sprechereignisse und bei 42 % der dokumentierten Sprecher:innen).</p>
</sec>
<sec>
<title>Spektren des Auswahlfilters &#8222;Sprechgeschwindigkeit (Artikulationsrate)&#8220;</title>
<p>Auch die Spektren zur Sprechgeschwindigkeit k&#246;nnen &#252;ber den Filter sowie &#252;ber die tabellarische Ergebnisansicht angezeigt werden (vgl. <xref ref-type="fig" rid="F12">Abbildung 12</xref>).</p>
<fig id="F12">
<label>Abbildung 12</label>
<caption>
<p>Auswahlfilter &#8222;Sprechgeschwindigkeit (Artikulationsrate)&#8220;</p>
</caption>
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="kordaf-3725_fandrych-g12.png"/>
</fig>
<p>Bei der Betrachtung der Artikulationsrate zeigen die Gespr&#228;chsdaten in <italic>FOLK</italic> aktuell ein Spektrum zwischen 2,04 Silben pro Sekunde und 6,48 Silben pro Sekunde. Die mittleren 50 % der Daten liegen zwischen 4,5 und 5,25 Silben pro Sekunde. Zu den Sprechereignissen mit besonders niedrigen Artikulationsraten geh&#246;ren Kommunikationen mit Tieren (bspw. FOLK_E_00345_SE_01 mit 2,04 Silben pro Sekunde) und verschiedene Interaktionen mit Kindern (darunter eine Sprachf&#246;rderung in der KiTa mit 3,04 Silben pro Sekunde, Gitarrenunterricht mit 3,14 Silben pro Sekunde und mehrere Vorlese-Interaktionen mit Kindern (z. B. FOLK_E_00076_SE_01 mit 3,39 Silben pro Sekunde). Besonders hohe Artikulationsraten zeigen u. a. ein Training in einer Hilfsorganisation mit 6,48 Silben pro Sekunde, ein Feedbackgespr&#228;ch unter Lehrkr&#228;ften mit 6,45 Silben pro Sekunde sowie ein Gespr&#228;ch beim Friseur mit 6,29 Silben pro Sekunde. Bez&#252;glich der Zugeh&#246;rigkeit zu den Interaktionsdom&#228;nen ist keine Tendenz erkennbar.</p>
<p>Insgesamt ist auch bez&#252;glich der Artikulationsrate zu beachten, dass diese erheblichen Schwankungen unterliegt. So wird bei der Betrachtung einzelner Sprecherbeitr&#228;ge deutlich, dass in fast allen Sprechereignissen und bei nahezu von allen dokumentierten Sprecher:innen sowohl eher langsame Sprecherbeitr&#228;ge (mit 2,0 bis 3,0 Silben pro Sekunde) als auch solche mit schnell gesprochene Sequenzen (mit 6,0 oder mehr Silben pro Sekunde) vorkommen. Ein erster explorativer Vergleich macht deutlich, dass es sich bei den langsameren Sprecherbeitr&#228;gen in den meisten F&#228;llen um der Verst&#228;ndnissignalisierung dienende Einzelw&#246;rter (wie <italic>ja, hmhm</italic> und <italic>hm</italic>) handelt, die h&#228;ufig auch &#252;berlappend gebraucht werden. Bei den Sprecherbeitr&#228;gen mit hoher Artikulationsrate &#252;berwiegen zwar auch die Einzelw&#246;rter, doch unterscheidet sich deren Frequenz nur geringf&#252;gig von Sequenzen, die mehrere Token umfassen.</p>
</sec>
<sec>
<title>Spektren des Auswahlfilters &#8222;&#220;berlappungen&#8220;</title>
<p>Die Spektren bez&#252;glich der Anzahl der &#220;berlappungen sind ebenfalls &#252;ber den Filter sowie &#252;ber die tabellarische Ergebnisansicht aufrufbar (vgl. <xref ref-type="fig" rid="F13">Abbildung 13</xref>).</p>
<fig id="F13">
<label>Abbildung 13</label>
<caption>
<p>Auswahlfilter &#8222;&#220;berlappungen&#8220;</p>
</caption>
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="kordaf-3725_fandrych-g13.png"/>
</fig>
<p>Ein Blick in die Daten zeigt, dass die Anzahl der &#220;berlappungen in <italic>FOLK</italic> erheblich differiert. So gibt es in einigen der Sprechereignisse keine &#220;berlappungen. Darunter fallen bspw. mehrere Gespr&#228;che im Polizeirevier (vgl. auch <xref ref-type="fig" rid="F13">Abbildung 13</xref>), ein Verkaufsgespr&#228;ch in der Apotheke und ein Verkaufsgespr&#228;ch im Supermarkt. Nur wenige &#220;berlappungen sind in zwei Ausschusssitzungen, einer Podiumsdiskussion sowie in zwei Interviews zu beobachten. Die h&#246;chste Anzahl an &#220;berlappungen zeigt wiederum ein Tischgespr&#228;ch mit durchschnittlich 66,94 &#220;berlappungen pro 1000 Token. Zudem geh&#246;ren zu den Sprechereignissen mit besonders vielen &#220;berlappungen zwei Spielinteraktionen, eine Kommunikation beim Kochen, ein WG-Casting, eine Teambesprechung und ein M&#228;delsabend.</p>
<p>Bei der Mehrheit der Sprechereignisse in <italic>FOLK</italic> sind zwischen 3,46 und 11,98 &#220;berlappungen pro 1000 Token zu beobachten. Hinsichtlich der Interaktionsdom&#228;ne zeigt sich jedoch keine Tendenz. Auff&#228;llig ist allerdings, dass es sich bei den &#220;berlappungen h&#228;ufig um kurze Sequenzen handelt, mit denen Sprecher:innen Verst&#228;ndnis r&#252;ckmelden bzw. Zustimmung oder Erstaunen signalisieren (<italic>hm hm, ach so, ja ja, ah ja, ja genau</italic>) oder die eigene Turn&#252;bernahme initialisieren (<italic>na ja, na dann, ja aber, ja ich</italic>).</p>
</sec>
</sec>
</sec>
<sec>
<title>5. Filter zur Auswahl nach Wortarten und M&#252;ndlichkeitsph&#228;nomenen</title>
<p>Ein weiterer Filterbereich erlaubt die Auswahl von Sprechereignissen nach der relativen Vorkommensh&#228;ufigkeit bestimmter linguistischer Kategorien. Es handelt sich dabei einerseits um Kategorien, die traditionelle Wortarten abbilden<xref ref-type="fn" rid="n24">24</xref>, andererseits um solche, die f&#252;r die POS-Annotation gesprochener Sprache und f&#252;r Spezifika der M&#252;ndlichkeit entwickelt wurden (vgl. <xref ref-type="bibr" rid="B54">Westpfahl et al. 2017</xref>). Im Filter werden sechs auf Inhaltswortarten bezogene Kategorien verf&#252;gbar gemacht: Nomen (NN), Eigennamen (NE), Verben (V), Adjektive (ADJ), Adverbien (ADV) sowie in Distanzstellung verwendete trennbare Verben (vermittelt &#252;ber das Tag PTKVZ f&#252;r die abgetrennte Partikel). Daneben umfasst der Bereich sechs Kategorien, die m&#252;ndlichkeitsbezogene Ph&#228;nomene abbilden: H&#228;sitationen (NGHES), die Gruppe der Interjektionen, Responsive bzw. Rezeptionssignale (NGIRR), Modalpartikeln (PTKMA), Diskursmarker (SEDM), Tag Questions (SEQU) und Klitisierungen (CLITIC).</p>
<sec>
<title>5.1 Vermittlungsbezogene Relevanz</title>
<p>Die M&#246;glichkeit, Gespr&#228;che im Korpus nach dem Vorkommen bestimmter Wortartenkategorien auszuw&#228;hlen, kann in verschiedener Hinsicht f&#252;r die Vermittlung des Deutschen als fremder Sprache relevant sein. Zun&#228;chst stellen Wortarten selbst einen Lern- bzw. Vermittlungsgegenstand dar, da an sie bestimmte grammatische Eigenschaften gebunden sind, die entsprechend realisiert werden m&#252;ssen (z. B. bzgl. Flexion, Position in der &#196;u&#223;erung, prosodischer Merkmale, Rektions- und Kongruenzbeziehungen, vgl. <xref ref-type="bibr" rid="B6">Bryant 2021</xref>; <xref ref-type="bibr" rid="B14">Fandrych / Thurmair 2021</xref>). Datenbeispiele ausw&#228;hlen zu k&#246;nnen, in denen eine bestimmte Wortartenkategorie h&#228;ufig zu finden ist, kann daher aus Perspektive der Grammatikvermittlung hilfreich sein<xref ref-type="fn" rid="n25">25</xref>. Daneben sind mit den einzelnen Wortarten auch unterschiedliche Schwierigkeitsprofile verbunden, die gezielt thematisiert werden k&#246;nnen. Beispielweise bilden Verben einen anspruchsvollen Lerngegenstand, da sie als relationale Wortart und semantisch-morphosyntaktische Schnittstelle des Satzes bzw. der &#196;u&#223;erung bei der Verarbeitung die gr&#246;&#223;te Integrationsleistung erfordern (vgl. z.B. <xref ref-type="bibr" rid="B33">Peters 2020: 129&#8211;130</xref>; <xref ref-type="bibr" rid="B3">Behrens 1999</xref>). F&#252;r das Deutsche sind zudem mit Partikelverben aufgrund ihrer morphologischen und syntaktischen Trennbarkeit besondere Herausforderungen verbunden, insbesondere f&#252;r Lernende, die in der L1 nicht &#252;ber vergleichbare Strukturen verf&#252;gen (vgl. <xref ref-type="bibr" rid="B5">Boers 2020: 152&#8211;153</xref>; <xref ref-type="bibr" rid="B45">Thurmair 1991</xref>). Vor diesem Hintergrund kann daher etwa eine Auswahl von authentischen Sprechereignissen mit einer relativ hohen Frequenz von getrennt gebrauchten Verben relevant sein.</p>
<p>Diskursmarker, Modalpartikeln, Verst&#228;ndnissicherungssignale, gef&#252;llte Pausen oder Klitisierungen stellen Ph&#228;nomene dar, die v.a. f&#252;r die gesprochene Sprache bzw. die interaktionale Kommunikation charakteristisch sind und somit Vermittlungsgegenst&#228;nde f&#252;r die M&#252;ndlichkeitsdidaktik bilden (vgl. <xref ref-type="bibr" rid="B31">Moraldo / Missaglia 2013</xref>; <xref ref-type="bibr" rid="B23">Imo / Moraldo 2015</xref>; <xref ref-type="bibr" rid="B1">Aguado 2021: 257</xref>). Am Beispiel von Klitisierungen, d. h. Verschmelzungen von Wortformen, l&#228;sst sich dies n&#228;her illustrieren. W&#228;hrend etwa im Bereich der Verschmelzungen von Pr&#228;position und Artikel auch schriftsprachlich einzelne Formen &#252;blich sind (vgl. <xref ref-type="bibr" rid="B2">Axel-Tobler 2022: 820&#8211;821</xref>), ist das Ph&#228;nomen in der gesprochenen Sprache h&#228;ufiger und hinsichtlich der betroffenen Formen vielf&#228;ltiger (vgl. <xref ref-type="bibr" rid="B46">Thurmair 2022: 553</xref>). So haben korpusbasierte Untersuchungen wie bspw. Lenort / Pohle / Sakhno (<xref ref-type="bibr" rid="B28">2022</xref>) gezeigt, dass schriftsprachlich seltener synthetisch verwendete Kombinationen (z.B. <italic>f&#252;rs, &#252;bers, vorm</italic>), im M&#252;ndlichen deutlich h&#228;ufiger auftreten. In der gesprochenen Sprache sind Klitisierungen auch bei Pronomen (<italic>biste</italic> [bist du], <italic>hamwa</italic> [haben wir]) und anderen Wortformen (z. B. <italic>h&#246;mma</italic> [h&#246;r mal]) zu finden (vgl. <xref ref-type="bibr" rid="B46">Thurmair 2022: 552, 554</xref>). Empirische Untersuchungen deuten hier auf dom&#228;nen- bzw. medialit&#228;tsspezifische Gebrauchspr&#228;ferenzen hin. So betrachten Schwendemann / Wallner (<xref ref-type="bibr" rid="B41">2022</xref>) das Verschmelzungsverhalten sprachlicher Einheiten in der gesprochenen Sprache auf der Basis des <italic>FOLK</italic>-Korpus insgesamt (ohne Einschr&#228;nkungen auf einen Klitisierungstyp) und zeigen, dass es einen deutlichen Unterschied in der Gebrauchsh&#228;ufigkeit in Abh&#228;ngigkeit von der Interaktionsdom&#228;ne gibt: In den Datens&#228;tzen der &#246;ffentlichen Dom&#228;ne (vgl. Kap. 3) erscheinen signifikant weniger Klitisierungen als in Datens&#228;tzen der institutionellen, privaten oder sonstigen Interaktionsdom&#228;ne (vgl. <xref ref-type="bibr" rid="B15">Fandrych / Mei&#223;ner / Wallner 2021: 14</xref>). Um authentischen m&#252;ndlichen Sprachgebrauch in der von den Lernenden angestrebten Zieldom&#228;ne zu vermitteln und auch die Besonderheit etwa medial vermittelter Sprechsituationen (Radio, Podcast) im Gegensatz zu allt&#228;glichen und beruflichen Sprechsituationen deutlich zu machen, kann daher eine Auswahl von Datens&#228;tzen nach der relativen H&#228;ufigkeit klitisierter Formen hilfreich sein.</p>
<p>Die genannten, M&#252;ndlichkeitsph&#228;nomene einschlie&#223;enden Wortartenkategorien stellen zudem nicht nur aus grammatisch-lexikalischer bzw. interaktionaler Perspektive Vermittlungsgegenst&#228;nde dar. Vielmehr bilden sie in ihrem quantitativ unterschiedlichen Vorkommen auch Merkmale von Registern und von verschiedenen m&#252;ndlichen Gattungen bzw. Textsorten. So haben Arbeiten der korpusbasierten Registeranalyse bspw. gezeigt, dass verschiedene schriftliche und m&#252;ndliche Kommunikationskontexte an der Hochschule spezifische H&#228;ufigkeitsprofile von Wortarten aufweisen (v. a. im Anteil von Nomen und Verben, vgl. <xref ref-type="bibr" rid="B4">Biber 2006: 47</xref>). Eine Auswahl von Sprechereignissen nach der H&#228;ufigkeit bestimmter Wortartenkategorien kann daher auch im Hinblick auf die Vermittlung register- bzw. textsortenbezogener Kompetenzen relevant sein (vgl. u.a. <xref ref-type="bibr" rid="B10">Efing 2014</xref>; <xref ref-type="bibr" rid="B11">Fandrych / Thurmair 2011</xref>), etwa um zu zeigen, f&#252;r welche Gespr&#228;chsarten ein h&#228;ufigeres Vorkommen der Kategorie typisch ist (z. B. die H&#228;ufigkeit von Nomen in Formen des &#246;ffentlichen Sprechens, wie es bspw. in Plenardebatten im Bundestag oder in Podiumsdiskussionen zu finden ist). Zum anderen kann f&#252;r die jeweilige Gespr&#228;chsart der Einsatz eines Mittels differenziert betrachtet werden (z. B. die Funktionen von R&#252;ckversicherungssignalen als frequentes Ph&#228;nomen bei einer Stadtf&#252;hrung, im Verkaufsgespr&#228;ch oder einem privaten Telefongespr&#228;ch). Anwendungen dieser Art gewinnen an Bedeutung angesichts der zunehmend dom&#228;nenspezifischen Bedarfe des Fremdsprachenlernens (v. a. im Kontext der Berufsorientierung), die eine verst&#228;rkte Vermittlung von register- bzw. variet&#228;tenspezifischen Kompetenzen erfordern (vgl. <xref ref-type="bibr" rid="B48">Venohr 2021: 175&#8211;176</xref>; <xref ref-type="bibr" rid="B26">Kniffka / Riemer 2022: 132</xref>).</p>
</sec>
<sec>
<title>5.2 Operationalisierung</title>
<p>Die Basis f&#252;r die Filterm&#246;glichkeiten nach den genannten Wortartenkategorien bildet die automatische POS-Annotation der Korpusdaten. Diese liegen hierf&#252;r aussprachenah transkribiert in den cGAT-Konventionen vor (vgl. <xref ref-type="bibr" rid="B40">Schmidt / Sch&#252;tte / Winterscheid 2015</xref>), die auf dem GAT2-Minimaltranskript (vgl. <xref ref-type="bibr" rid="B42">Selting et al. 2009</xref>) basieren. Sie werden zun&#228;chst in einem vorgelagerten Prozessschritt semi-automatisch orthografisch normalisiert (vgl. <xref ref-type="bibr" rid="B38">Schmidt 2016: 135&#8211;136</xref>)<xref ref-type="fn" rid="n26">26</xref> und anschlie&#223;end nach dem f&#252;r gesprochene Sprache entwickelten Tagset (vgl. <xref ref-type="bibr" rid="B54">Westpfahl et al. 2017</xref>) annotiert. Dieses Tagset basiert auf dem Stuttgart-T&#252;bingen-Tagset (vgl. <xref ref-type="bibr" rid="B37">Schmid 1995</xref>), das um Kategorien gesprochener Sprache erweitert wurde<xref ref-type="fn" rid="n27">27</xref>. Die Tags beziehen sich jeweils auf einzelne Token, Mehrworteinheiten werden also nicht abgebildet (vgl. <xref ref-type="bibr" rid="B54">Westpfahl et al. 2017: 6</xref>). Die Annotation liegt im Korpus f&#252;r jedes transkribierte Token eines Sprechereignisses vor. Es kann somit automatisch der prozentuale Anteil einer Tagkategorie relativ zu allen Token des Sprechereignisses ermittelt werden. F&#252;r den Filterbereich Wortarten und M&#252;ndlichkeitsph&#228;nomene in <italic>ZuMal</italic> wurden hier die oben genannten Kategorien ausgew&#228;hlt. Bei den Verben werden f&#252;r den Filter alle als Voll-, Modal- und Hilfsverbformen getaggten Einheiten (VV&#8230;, VM&#8230; und VA&#8230;) zusammengefasst. Bei Adjektiven umfasst der Filter als attributiv (ADJA) und als adverbial (ADJD) gebraucht getaggte Vorkommen. Zu Adverbien (ADV) z&#228;hlen gem&#228;&#223; dem STTS nur die nicht-flektierbaren Modifizierer, also keine adverbial gebrauchten Adjektive (vgl. <xref ref-type="bibr" rid="B36">Schiller et al. 1999: 55&#8211;56</xref>). Die f&#252;r den Filter ausgew&#228;hlten Kategorien von M&#252;ndlichkeitsph&#228;nomen haben folgende Grundlagen: H&#228;sitationssignale (NGHES) basieren auf den zur Form <italic>&#228;h</italic> normalisierten Realisierungen von gef&#252;llten Pausen (vgl. <xref ref-type="bibr" rid="B54">Westpfahl et al. 2017: 16</xref>). Die Kategorie NGIRR fasst Interjektionen, Responsive und Rezeptionssignale zusammen. NG in diesem Tag steht f&#252;r die Gruppe &#8218;nicht grammatischer&#8216; Elemente, die syntaktisch nicht in den Satz integriert sind (vgl. <xref ref-type="bibr" rid="B54">Westpfahl et al. 2017: 15</xref>). Neben lexikalischen Formen (etwa <italic>ach, oh</italic> als Interjektion) werden durch ihre positionale Alleinstellung auch homonym zu anderen Wortarten in der Funktion der Interjektion oder des Responsivs auftretende Einheiten erfasst (z. B. <italic>oh</italic> (NGIRR) <italic>gott</italic> (NGIRR) <italic>das ist so teuer</italic> oder <italic>ja</italic> (NGIRR) <italic>klar</italic> (NGIRR)<xref ref-type="fn" rid="n28">28</xref>, vgl. <xref ref-type="bibr" rid="B54">Westpfahl et al. 2017: 15&#8211;16</xref>). Die Kategorie PTKMA erfasst Modal- bzw. Abt&#246;nungspartikeln (z.B. <italic>das w&#228;re aber</italic> (PTKMA) <italic>cool</italic>), die aufgrund ihrer Stellungseigenschaften von Adverbien und Fokuspartikeln abgegrenzt werden (vgl. <xref ref-type="bibr" rid="B54">Westpfahl et al. 2017: 21</xref>). Diskursmarker (SEQU) werden zu &#8218;satzexternen Elementen&#8216; (SE) gez&#228;hlt, die im Vor-Vorfeld stehen und eine Verstehensanweisung f&#252;r die folgende &#196;u&#223;erung geben, die also im Unterschied zu NGIRR nicht am Ende eines Turns stehen k&#246;nnen (z. B. <italic>also</italic> (SEDM) <italic>da sprechen alle noch mehr oder weniger platt</italic>, vgl. <xref ref-type="bibr" rid="B54">Westpfahl et al. 2017: 26&#8211;27</xref>). Ebenfalls zu den satzexternen Elementen z&#228;hlen R&#252;ckversicherungssignale und Question-tags (SEQU), die h&#228;ufig im rechten Au&#223;enfeld auftreten, aber auch im Vor-Vorfeld erscheinen k&#246;nnen und an eine Struktur gebunden sind, deren Verstehen sie abfragen (z. B. <italic>ich bin dran gell</italic> (SEQU), vgl. <xref ref-type="bibr" rid="B54">Westpfahl et al. 2017: 27&#8211;28</xref>).</p>
<p>Neben den genannten direkt auf annotierten Tag-Kategorien basierenden Filteroptionen wurde mit den Klitisierungen (CLITIC) eine Kategorie hinzugef&#252;gt, der selbst keine Tag-Kategorie entspricht, die aber indirekt auf der Basis der vorliegenden Korpusdaten bestimmt werden kann. Um Klitisierungen auch f&#252;r zuk&#252;nftig ins Korpus aufgenommene Datens&#228;tze automatisch ermittelbar zu machen, wurde hierf&#252;r ein Verfahren gew&#228;hlt, das Informationen ausnutzt, die in der Transkription oder in den Wortartentags enthalten sind. Hierzu wurden als Klitisierungen einerseits die in der Transkription als assimiliert (<italic>kommt</italic>_<italic>s</italic>) festgehaltenen Formen gez&#228;hlt. Zum anderen wurden die F&#228;lle ausgewertet, in denen einem transkribierten Token im Rahmen der orthografischen Normalisierung zun&#228;chst zwei normalisierte Token und darauf basierend zwei POS-Tags zugeordnet wurden (z.B. wurden dem Token &#8222;<italic>s</italic>&#8220; in <italic>wenn s net selwer tusch</italic> (&#8218;wenn du es nicht selber tust&#8216;) die beiden normalisierten Formen <italic>du</italic> und <italic>es</italic> sowie entsprechend die beiden POS-Tags PPER und PPER zugeordnet). Durch manuelle &#220;berpr&#252;fung, eine Bereinigung auf POS-Abfolgen, die klitisiert vorkommen k&#246;nnen, und den Ausschluss von nur einmal auftretenden Kombinationen wurde so eine Liste an Klitisierungen ermittelt. Sie wurde f&#252;r den Auswahlfilter in ZuMal an eine Perzentilgrenze relativ zum Korpus gekoppelt, die aus der Ermittlung der prozentualen Anteile von Klitisierungen jeweils die 5 % der seltensten Klitisierungen (d.h. alle unterhalb des 5. Perzentils) ausschlie&#223;t<xref ref-type="fn" rid="n29">29</xref>.</p>
</sec>
<sec>
<title>5.3 Die Filter in Anwendung: Spektren und Beispiele</title>
<p>Im Folgenden soll f&#252;r die Wahloptionen des Filterbereichs &#8222;Wortarten und M&#252;ndlichkeitsph&#228;nomene&#8220; illustriert werden, welche Ergebnisse sich bei ihrer Anwendung zeigen und welche Spektren die Werte bezogen auf die aktuelle Version 2.19 der DGD f&#252;r das <italic>FOLK</italic>-Korpus annehmen. Veranschaulicht werden soll dabei, analog zu Kap. 4.2, jeweils ein Beispiel aus dem Bereich jener Sprech-ereignisse, die aktuell die h&#246;chsten relativen Anteile der jeweiligen Kategorien aufweisen. Es wurde hierf&#252;r in <italic>ZuMal</italic> in der Ergebnisliste die entsprechende Wortartenkategorie als Spalte dazugew&#228;hlt und nach absteigender Gr&#246;&#223;e der Werte sortiert. Das Spektrum der Werte ist zus&#228;tzlich auch im Auswahlmen&#252; auf der linken Seite ersichtlich.</p>
<p>So reicht das Spektrum f&#252;r Nomen (NN) von einem Anteil an 6 % bis zu 19 % der Token des Sprechereignisses. Hohe Werte mit &#252;ber 16 % finden sich in &#246;ffentlichen Gespr&#228;chen des Lebensbereichs Politik (Plenarsitzung im Bundestag, Ausschusssitzung), in einer Podiumsdiskussion, aber auch einer Unterrichtsstunde im Wirtschaftsgymnasium sowie einer F&#252;hrung im Schloss/Schlosspark. Der Blick in die Transkripte zeigt den jeweiligen Hintergrund f&#252;r die h&#228;ufige Verwendung der Nomen. So offenbart etwa die Ausschusssitzung FOLK_E_00388 einen an der konzeptionellen Schriftlichkeit (vgl. <xref ref-type="bibr" rid="B25">Koch / Oesterreicher 2008</xref>) orientierten und durch den fachlichen Gegenstandsbezug gepr&#228;gten Stil bei den Redebeitr&#228;gen, der sich in einem geh&#228;uften Gebrauch von Nomen wiederspiegelt (z. B. <italic>&#8230; drittens alle</italic> <bold><italic>ma&#223;nahmen</italic></bold><xref ref-type="fn" rid="n30">30</xref> <italic>zur</italic> <bold><italic>entspannung</italic></bold> <italic>der</italic> <bold><italic>wohnungsm&#228;rkte</italic></bold> <italic>und zur</italic> <bold><italic>begrenzung</italic></bold> <italic>der</italic> <bold><italic>mietpreisdynamik</italic></bold> <italic>&#176;h sind sicher zu begr&#252;&#223;en &#176;h insbesondere m&#252;ssen dringend zus&#228;tzliche &#176;h und bezahlbare</italic> <bold><italic>wohnungen</italic></bold> <italic>f&#252;r</italic> <bold><italic>einpersonenhaushalte</italic></bold> <italic>geschaffen werden &#8230;</italic>).</p>
<p>Bei Eigennamen (NE) zeigen die Datens&#228;tze in <italic>FOLK</italic> aktuell Anteile von 0 % bis 6 % der Token. Besonders hohe Werte liegen hier mit 5,63 % im Sprechereignis Vorlesen f&#252;r Kinder (FOLK_E_0002) oder mit 4,8 % in einer Radiosendung (FOLK_E_00162) vor (z. B. in Programmank&#252;ndigungen (<italic>die</italic> <bold><italic>cristel</italic></bold> (.) <italic>berichtet uns</italic> (.) <italic>&#252;ber</italic> (.) <italic>onlinevorlesungen</italic>) oder in den Nachrichten (<italic>die gewerkschaft</italic> <bold><italic>verdi</italic></bold> <italic>rief heute zu warnstreiks an vielen deutschen flugh&#228;fen auf</italic>).</p>
<p>Bei Verben (V) reichen die Anteile von 2 % der Token des Sprechereignisses bis zu 15 %. Hohe Werte weisen mit 14,47 % z.B. ein Fahrschulgespr&#228;ch (FOLK_E_00146) oder mit 14,43 % ein Training bei einer Hilfsorganisation (FOLK_E_000137) auf. In den Transkripten zeigt sich, dass die h&#228;ufige Verbverwendung hier mit instruktionalen Sprachhandlungen verbunden ist (etwa durch die Lehrperson im Fahrschulgespr&#228;ch z. B. &#8230; <italic>du</italic> <bold><italic>musst</italic></bold> <italic>dir ch das</italic> (<italic>0.23</italic>) <italic>du</italic> <bold><italic>musst</italic></bold> <italic>dir das vorher</italic> (<italic>0.49</italic>) <bold><italic>merken</italic></bold> (<italic>0.44</italic>) <bold><italic>pass</italic></bold> <italic>auf die kinder auf</italic> (<italic>0.22</italic>) <italic>und dann</italic> (.) <italic>entsprechend</italic> (.) <bold><italic>&#252;berpr&#252;fen</italic></bold> <italic>ob alles da</italic> <bold><italic>is</italic></bold> <italic>&#176;h</italic> (.) <italic>das</italic> <bold><italic>is</italic></bold> <italic>jedes mal am anfang das gleiche</italic> (<italic>0.82</italic>) <italic>&#176;h so wir</italic> <bold><italic>fahren</italic></bold> <italic>an der ampel</italic> (.) <italic>rechts weiter</italic> (<italic>4.24</italic>) <bold><italic>lass</italic></bold> <italic>die kupplung los</italic> &#8230; oder im Training der Hilfsorganisation durch die helfende Person an eine Patient:in z. B. <bold><italic>beruhigen</italic></bold> <italic>s[ie sich ] &#8230;</italic> <bold><italic>atmen</italic></bold> <italic>ganz locker &#8230;</italic> <bold><italic>setzen</italic></bold> <italic>sie sich mal hin</italic>).</p>
<p>Adjektive (ADJA/ADJD) nehmen in den <italic>FOLK</italic>-Datens&#228;tzen Anteile von 1 % bis 12 % ein. Einen hohen Wert weist mit 7,38 % etwa ein Verkaufsgespr&#228;ch im Gartencenter auf (FOLK_E_00211), in dem durch die Verkaufsperson u.a. Pflanzen beschrieben werden (z. B. &#8230; <italic>un <bold>gut winterh</bold>[<bold>art</bold> ja ]&#8230; das is n</italic> <bold><italic>japanischer</italic></bold> <italic>ahorn ein schlitzahorn</italic> (<italic>0.4</italic>) <italic>&#176;h &#228;hm der bekommt</italic> (.) <italic>eine krone die so n bisschen</italic> <bold><italic>dachf&#246;rmig</italic></bold> <italic>is &#176;h &#228;hm wie so n schirm</italic> (<italic>0.26</italic>) <italic>je nachdem</italic> (.) <italic>nach flanze die wachsen alle n bisschen</italic> <bold><italic>unterschiedlich</italic></bold> <italic>auch</italic> <bold><italic>eventuell</italic></bold> <italic>en bisschen</italic> <bold><italic>buschiger</italic></bold> <italic>oder n bisschen</italic> <bold><italic>h&#246;her</italic></bold> <italic>auch ne [&#176;hh ]&#228;hm w&#228;re was so f&#252;r den sonne bis halbschatten</italic> &#8230;).</p>
<p>Adverbien (ADV) zeigen in den Sprechereignissen aktuell Anteile von 0 % bis 18 % der Token. Besonders hohe Werte finden sich z. B. mit &#252;ber 17 % in den im Rahmen einer Experimentsituation gef&#252;hrten Maptask-Gespr&#228;chen, bei denen die Proband:innen Wegbeschreibungen produzieren m&#252;ssen. Daneben zeigt die Sportinterkation FOLK_E_00376 mit 16,61 % einen hohen Wert. Hier finden Adverbien u.a. Verwendung, um r&#228;umliche Orientierungen und die Z&#252;ge in einem Handballspiel wiederzugeben (z. B. JF: <bold><italic>dann</italic></bold> <italic>habe ich</italic> <bold><italic>dann</italic></bold> <italic>halt von</italic> <bold><italic>hinten</italic></bold> <italic>geschossen</italic> &#8230; NR: <italic>aber das</italic> ++++++ <italic>[</italic><bold><italic>da</italic></bold> <italic>war dass die ]Nilly nicht von</italic> <bold><italic>hinten</italic></bold> <italic>schie&#223;en kann die kann von</italic> <bold><italic>hinten</italic></bold> <italic>nicht schie&#223;en</italic> &#8230; NC: <italic>ja ich kann ja nicht</italic> <bold><italic>r&#252;ckw&#228;rts</italic></bold>)<xref ref-type="fn" rid="n31">31</xref>.</p>
<p>In Distanzstellung gebrauchte Verben, deren Anteil im Filter &#252;ber die H&#228;ufigkeit des Tags f&#252;r die abgetrennte Verbpartikel (PTKVZ) erfasst wird, nehmen in den Sprechereignissen Anteile von 0 % bis 3 % ein. Den mit 2,76 % h&#246;chsten Wert zeigt die Kommunikation mit Tieren FOLK_E_00424, in der f&#252;r die an ein Pferd gerichteten &#196;u&#223;erungen bzw. Anweisungen oft Partikelverben in Verberst- oder Verbzweitstellung verwendet werden (z. B. <italic>charlie heb ma ma de kopf</italic> <bold><italic>hoch</italic></bold> <italic>&#8230; komm</italic> <bold><italic>her</italic></bold> <italic>&#8230; sodele h&#176; jetz siekscht du wieder h&#252;bsch</italic> <bold><italic>aus</italic></bold> <italic>ge</italic>).</p>
<p>H&#228;sitationssignale (NGHES) weisen Anteile an den Token der Sprechereignisse von 0 % bis 11 % auf. Besonders ausgepr&#228;gt finden sie sich bspw. mit 7,88 % in der Ausschusssitzung FOLK_E_00389 oder mit 7,47 % im Pr&#252;fungsgespr&#228;ch FOLK_E_00057. Hier k&#246;nnen sie etwa auch in den &#196;u&#223;erungen des Pr&#252;fenden beobachtet werden, wo sie Planungsvorg&#228;nge deutlich machen (z. B. &#8230; <italic>das m&#246;cht ich auf jeden fall noch diskutiern &#176;h [</italic><bold><italic>&#228;h</italic></bold> <italic>h&#176; ]</italic>(.) <italic>also das ist</italic> (.) <bold><italic>&#228;h</italic></bold> (.) <italic>ein</italic> (.) <italic>begriff den sie</italic> (<italic>0.67</italic>) <italic>auff&#252;hren wie s wie er vor allem vom</italic> (.) <italic>von peter auer ver</italic> <bold><italic>&#228;h</italic></bold> <italic>vertreten wird &#176;h</italic> <bold><italic>&#228;h</italic></bold> <italic>also &#8230;</italic>).</p>
<p>Die Gruppe der Interjektionen, Responsive bzw. Rezeptionssignale (NGIRR) erreicht in den Sprechereignissen Anteile von 1 % bis 27 % der Token. Mit 22,03 % nimmt sie bspw. in einem Verkaufsgespr&#228;ch im Supermarkt (FOLK_E_00367) einen hohen Anteil ein (z. B. Kundin CR: <bold><italic>ah okay gut</italic></bold> (<italic>6.61</italic>) Verk&#228;uferin NN: <italic>ich einmal</italic> <bold><italic>bitte</italic></bold> <italic>den ausweis sehen</italic> CR: <bold><italic>hmhm</italic></bold> (<italic>8.41</italic>) NN: <bold><italic>danke</italic></bold> <italic>sch&#246;n</italic> (<italic>17.03</italic>) <italic>dreizehn euro dreiunsechzig</italic> +++ <bold><italic>bitte</italic></bold> (<italic>0.37</italic>) <italic>ham sie ne payback karte</italic> CR: <bold><italic>nee</italic></bold> (<italic>2.59</italic>) NN: <bold><italic>danke</italic></bold> <italic>sch&#246;n</italic>).</p>
<p>Modal- und Abt&#246;nungspartikeln (PTKMA) erreichen Anteile von 0 % bis 5 % der Token in den Sprechereignissen. Einen hohen Wert weist mit 5,01 % ein Telefongespr&#228;ch (FOLK_E_00439) auf (hier z. B. in einer narrativen Sequenz HB: <italic>&#8230; nja und dann hab ich s ihm</italic> <bold><italic>halt</italic></bold> <italic>so nach bestem</italic> (<italic>0.34</italic>) <italic>&#176;h wissen und gewissen geholfen hab</italic> <bold><italic>halt</italic></bold> (<italic>0.24</italic>) <bold><italic>einfach</italic></bold> <italic>so nach</italic> (<italic>0.26</italic>) <italic>logik oder</italic> (<italic>0.87</italic>) <italic>&#228;h &#176;hh orthografiefehlern</italic> <bold><italic>halt</italic></bold> <italic>geschaut und &#8230;</italic>).</p>
<p>Diskursmarker (SEDM) nehmen Anteile von 0 % bis 4 % der Token in den Sprechereignissen ein. Mit 3,71 % recht hoch liegt der Wert etwa im Pr&#252;fungsgespr&#228;ch FOLK_E_00003. SEDM finden sich darin u. a. bei der Pr&#252;fungskandidatin, die damit ihre Antwort strukturiert (DM: ((<italic>schmatzt</italic>)) <bold><italic>okay</italic></bold> (.) <italic>also zum ersten das</italic> (<italic>0.28</italic>) <italic>leveltmodell oder levelt [&#8230;] wie auch immer es genannt wird &#176;hhh &#228;hm</italic> (.) <bold><italic>also</italic></bold> <italic>das modell wird ja sehr oft [rezi]piert einfach auch in einem pyscholinguistischen einf&#252;hrungen</italic> (.) <italic>bei allen m&#246;glichen studien [&#176;hh] und &#228;hm &#176;hh</italic> <bold><italic>also</italic></bold> <italic>dieses modell bietet einfach</italic> (.) <bold><italic>also</italic></bold> <italic>s is sehr detailliert</italic> (.) <italic>auch im bezug auf die</italic> (.) <italic>artikulation &#8230;</italic>)</p>
<p>Verst&#228;ndnissicherungssignale oder Tag Questions (SEQU) weisen Anteile von 0 % bis 3 % auf. Mit 3,16 % besitzt die Stadtf&#252;hrung FOLK_E_00311 hier einen hohen Wert. Im Transkript zeigt sich, dass der Stadtf&#252;hrer dieses Mittel in seinem Vortrag regelm&#228;&#223;ig einsetzt (z. B. TO: <italic>&#8230; jetzt w&#252;rd ich eigentlich ganz gern en bisschen was zur architektur des schlosses erz&#228;hln wir ham jetzt nur en bisschen das problem dass wir jetz nich besonders viel sehn aber ich deute das zumindestens mal an &#176;h</italic> <bold><italic>ne</italic></bold> <italic>es gilt als das erste fr&#252;hklassizistische geb&#228;ude berlins</italic> (<italic>0.4</italic>) <bold><italic>ne</italic></bold> <italic>das kann man an der fassade ganz sch&#246;n sehn die is</italic> (<italic>0.69</italic>) <italic>im vergleich zu einem barockschloss noch verh&#228;ltnism&#228;&#223;ig stringent und einfach strukturiert &#176;h</italic> <bold><italic>ne</italic></bold> <italic>und en zweites element was auch auf diesen fr&#252;hklassizismus verweist &#176;h das is das dach</italic> (<italic>0.86</italic>) <bold><italic>ne</italic></bold> <italic>und zwar ham wir s hier mit m sogenannten walmdach zu tun &#176;h und barockschl&#246;sser die hatten flachd&#228;cher</italic> <bold><italic>ne</italic></bold> <italic>das kennt man vielleicht zum beispiel vom schloss versailles</italic> <bold><italic>ne</italic></bold> <italic>&#8230;</italic>)</p>
<p>Klitisierungen (CLITIC) betreffen 0 % bis 6 % der Token in den Sprechereignissen. Mit 5,71 % hat etwa die Schicht&#252;bergabe im Krankenhaus FOLK_E_00112 einen hohen Wert (z. B. <italic>fang mer an mit den damen</italic> (.) <bold><italic>mi m</italic></bold> <italic>viererzimmer</italic>).</p>
<p>Die gezeigten Beispiele verdeutlichen, wie mit Hilfe der Filter gezielt Gespr&#228;chsbeispiele aus dem FOLK-Korpus ausgew&#228;hlt werden k&#246;nnen, die nat&#252;rlich bzw. authentisch vermehrte Vorkommen bestimmter didaktisch fokussierter Wortartenkategorien enthalten.</p>
</sec>
</sec>
<sec>
<title>6. Didaktischer Ausblick: Die <italic>ZuMal</italic>-Filter im Zusammenspiel</title>
<p>In diesem Beitrag wurden die Filter und die Ergebnisse der Anwendung der Filter sowie die dann beobachtbaren Merkmalsauspr&#228;gungen jeweils einzeln betrachtet<xref ref-type="fn" rid="n32">32</xref>. Aus sprachdidaktischer Perspektive ist es jedoch sinnvoll, die Auspr&#228;gungen der Merkmale in Kombination miteinander zu betrachten, um Sprechereignisse zu identifizieren, die f&#252;r spezifische Unterrichtssequenzen und f&#252;r individuelle Lernziele besonders geeignet sind. In <italic>ZuMal</italic> ist dieses kombinatorische Vorgehen sehr leicht umzusetzen, da die ausgew&#228;hlten Filter die Ergebnismenge nacheinander weiter filtern. Das bedeutet, dass der zweite Filter, der in <italic>ZuMal</italic> gesetzt wird, die Ergebnismenge, die durch den ersten gesetzten Filter gefunden wurde, weiter filtert. Ein weiterer gesetzter Filter reduziert die relevanten Ergebnisse dann entsprechend weiter. Ein kurzes Anwendungsszenario k&#246;nnte dieses Zusammenspiel verschiedener Filter bei der Auswahl von Sprechereignissen verdeutlichen: Zun&#228;chst soll f&#252;r eine Unterrichtssequenz zu gesprochener Sprache ein privates Sprechereignis (n = 155) mit einer B1-Wortschatzdeckung von 90 % oder mehr ausgew&#228;hlt werden. Diese Auswahl reduziert die potenziellen Sprechereignisse auf 100, die zun&#228;chst aus Wortschatzperspektive f&#252;r einen Einsatz im Unterricht geeignet erscheinen. Zugleich weisen aber einige der Sprechereignisse eine sehr hohe Normalisierungsrate auf und passen aufgrund dieser Tatsache vielleicht weniger f&#252;r eine Gruppe von Lernenden auf Niveau B1. In einem n&#228;chsten Schritt wird daher der Filter &#8222;Standardn&#228;he (Normalisierungsrate)&#8220; auf einen Bereich zwischen 2 % und 10 % eingestellt, um Sprechereignisse mit einer m&#246;glichst geringen Normalisierungsrate auszuw&#228;hlen. Es bleiben noch 13 Sprechereignisse &#252;brig. Nun sollen aus dieser Ergebnismenge Sprechereignisse gew&#228;hlt werden, in denen m&#246;glichst wenig durcheinander gesprochen wird. Der Filter &#8222;&#220;berlappungen&#8220; wird daher auf einen Bereich zwischen 0 und 5 &#220;berlappungen pro 1000 Token eingestellt. Es bleiben noch vier Telefongespr&#228;che. In einem letzten Schritt werden diese vier Sprechereignisse nach der Sprechgeschwindigkeit gefiltert. Dazu wird der Filter auf den Wertebereich von 2&#8211;4 artikulierten Silben pro Sekunde eingestellt. Es bleibt ein Telefongespr&#228;ch &#252;brig (FOLK_E_00395_SE_01), welches folglich eine Reihe von schwierigkeitsbezogenen Voraussetzungen erf&#252;llt, um potenziell in einer Unterrichtssequenz auf dem Niveau B1 eingesetzt zu werden. Wenn nun der Filter &#8222;Themen&#8220; angesteuert wird, kann zus&#228;tzlich ein &#220;berblick &#252;ber die in diesem Sprechereignis behandelten Themen gewonnen werden. Diese sind: Gartenarbeit, Gottesdienst, Herbstbeginn, Internetauftritt, Kaminofen, Kirchenchor und Zugv&#246;gel. Es ist nun m&#246;glich, das Transkript dieses Sprechereignisses &#252;ber den <italic>ZuViel</italic>-Link aufzurufen und dieses dann mithilfe von <italic>ZuViel</italic> auf vielf&#228;ltige Weise f&#252;r den Einsatz im Unterricht aufzubereiten und besonders geeignete Sequenzen auszuw&#228;hlen<xref ref-type="fn" rid="n33">33</xref>.</p>
<p>Eine solch mehrperspektivische Auswahl von Sprechereignissen aus Korpora der gesprochenen Sprache f&#252;r unterrichtliche Kontexte war bisher nur unter gro&#223;em Aufwand m&#246;glich; <italic>ZuMal</italic> bietet nun einen niedrigschwelligen und intuitiven Zugang zu authentischen Gespr&#228;chsdaten f&#252;r Sprachdidaktiker:innen. <italic>ZuMal</italic> wurde hierzu in mehreren Durchl&#228;ufen von Studierenden im Masterstudiengang Deutsch als Fremd- und Zweitsprache am Herder-Institut der Universit&#228;t Leipzig erprobt und an die Nutzer:innenbed&#252;rfnisse angepasst. Wir hoffen nun auf eine weitere Erprobung von <italic>ZuMal</italic> in (fremd- und zweit-)sprachdidaktischen Zusammenh&#228;ngen und auf eine Erleichterung des Einsatzes von passgenauen und authentischen Sprechereignissen in Unterrichtskontexten. Wie genau die verschiedenen Filter und Filterkombinationen, und hier vor allem die schwierigkeitsbezogenen und die Wortarten- und M&#252;ndlichkeitsfilter, die Interaktion von Lernenden mit ausgew&#228;hlten Sprechereignissen beeinflussen, stellt dabei eines der gro&#223;en Desiderata der M&#252;ndlichkeitsforschung im Fachzusammenhang DaF/DaZ dar.</p>
</sec>
</body>
<back>
<fn-group>
<fn id="n1"><p>Eine Ausnahme stellt die Plattform Gesprochenes Deutsch dar, die an der Universit&#228;t M&#252;nster entwickelt wurde, vgl. <ext-link ext-link-type="uri" xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="https://dafdaz.sprache-interaktion.de/">https://dafdaz.sprache-interaktion.de/</ext-link> (15.02.2023). Sie ist allerdings in Umfang und Aufbereitung nicht mit den gro&#223;en Korpora, etwa des IDS, vergleichbar.</p></fn>
<fn id="n2"><p>Siehe dazu <ext-link ext-link-type="uri" xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="https://zumult.org/">https://zumult.org/</ext-link>. (15.02.2023).</p></fn>
<fn id="n3"><p>Verf&#252;gbar unter <ext-link ext-link-type="uri" xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="https://zumult.ids-mannheim.de/ProtoZumult/prototype/dist/zuMal.jsp">https://zumult.ids-mannheim.de/ProtoZumult/prototype/dist/zuMal.jsp</ext-link> (15.02.2023).</p></fn>
<fn id="n4"><p>Siehe <ext-link ext-link-type="uri" xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="https://dgd.ids-mannheim.de/dgd/pragdb.dgd_extern.welcome">https://dgd.ids-mannheim.de/dgd/pragdb.dgd_extern.welcome</ext-link> (15.02.2023). Das <italic>GeWiss</italic>-Korpus ist dort mit dem K&#252;rzel <italic>GWSS</italic> abrufbar.</p></fn>
<fn id="n5"><p><italic>GeWiss</italic> ist mehrsprachig, die deutschsprachigen Daten enthalten 276 Interaktionen mit 742.332 Token und 92 Aufnahmestunden, vgl. ausf&#252;hrlicher Fandrych / Wallner (<xref ref-type="bibr" rid="B18">2023</xref>).</p></fn>
<fn id="n6"><p>Eine Neuannotation war im Rahmen der Projektf&#246;rderung durch die DFG &#8211; der wir an dieser Stelle herzlich danken &#8211; aufgrund der Richtlinien der F&#246;rderlinie <italic>Wissenschaftliche Literaturversorgungs- und Informationssysteme</italic> (LIS) nicht m&#246;glich, daher musste das Projekt sich darauf beschr&#228;nken, die in den Datens&#228;tzen bereits angelegten Informationen zu sichten, auszuw&#228;hlen und geeignete Wege der Operationalisierung und technischen Umsetzung zu entwickeln.</p></fn>
<fn id="n7"><p>Vgl. <ext-link ext-link-type="uri" xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="https://zumult.ids-mannheim.de/ProtoZumult/prototype/dist/zuMal.jsp">https://zumult.ids-mannheim.de/ProtoZumult/prototype/dist/zuMal.jsp</ext-link> (15.02.2023).</p></fn>
<fn id="n8"><p>Hierunter fallen vor allem Interviews und Maptask-Interaktionen, vgl. Kaiser (<xref ref-type="bibr" rid="B24">2018: 421</xref>).</p></fn>
<fn id="n9"><p>Die Aufnahmeregion ist nat&#252;rlich kein verl&#228;sslicher Indikator f&#252;r die Art der regionalen Sprachpr&#228;gung der Sprechenden; mittelfristig strebt <italic>FOLK</italic> an, stattdessen die &#8222;pr&#228;gendste Aufenthaltsregion&#8220; der Sprechenden als aussagekr&#228;ftigeren Indikator zu nutzen, dies ist allerdings noch nicht umsetzbar, vgl. Kaiser (<xref ref-type="bibr" rid="B24">2018: 540-542</xref>).</p></fn>
<fn id="n10"><p>Daneben gibt es einige Sprechereignisse aus dem britischen Kontext mit Sprechenden, f&#252;r die Englisch die L2 darstellt &#8211; diese Auspr&#228;gung wurde nicht systematisch erhoben.</p></fn>
<fn id="n11"><p>Auch direkt abrufbar unter <ext-link ext-link-type="uri" xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="https://zumult.ids-mannheim.de/ProtoZumult/doc/Handreichung-ZuMal.html">https://zumult.ids-mannheim.de/ProtoZumult/doc/Handreichung-ZuMal.html</ext-link> (15.02.2023).</p></fn>
<fn id="n12"><p>Im finnischen Kontext wurden einige Diskussionen, die im Anschluss an studentische Vortr&#228;ge gef&#252;hrt wurden, separat aufgezeichnet; diese werden unter &#8222;Gespr&#228;chsart&#8220; separat ausgewiesen.</p></fn>
<fn id="n13"><p>Aufgrund der Vielzahl an Faktoren, die die konkrete Auspr&#228;gung der in <italic>GeWiss</italic> enthaltenen drei Gattungen beeinflussen, sind diese dennoch als relativ breite Kategorien zu verstehen &#8211; Faktoren, wie die genaue institutionelle und hochschuldidaktische Einbettung von studentischen Vortr&#228;gen, die Zahl der Zuh&#246;renden und der situationelle Rahmen von Expertenvortr&#228;gen, der Gegenstand, Status und Ablauf von m&#252;ndlichen Pr&#252;fungen k&#246;nnen sich im Einzelfall unterscheiden. Hierzu geben zwar die zu den jeweiligen Ereignissen erhobenen Metadaten n&#228;heren Aufschluss, diese sind aber nicht systematisch &#252;ber Auswahlfilter durchsuchbar, vgl. auch Fandrych / Wallner (<xref ref-type="bibr" rid="B17">2022</xref>).</p></fn>
<fn id="n14"><p>So k&#246;nnte die Schwierigkeit von Sprechereignissen etwa mit Hilfe von Expert:innen oder auch durch experimentelle Erhebungen mit verschiedenen Nutzer:innen / Lernenden bestimmt werden und im Rahmen eines mehrstufigen Ratings annotiert werden. Ein solches Vorgehen ist jedoch mit einem erheblichen personellen Aufwand verbunden und daher f&#252;r stetig wachsende Korpusressourcen nicht praktikabel.</p></fn>
<fn id="n15"><p>Absolute Komplexit&#228;t bezieht sich im Gegensatz dazu auf der Sprache selbst inh&#228;rente Konstruktionen und Strukturen (vgl. f&#252;r ausf&#252;hrliche Diskussionen zur absoluten Komplexit&#228;t und zur oft operationalisierten linguistischen Komplexit&#228;t <xref ref-type="bibr" rid="B22">Housen et al. 2019: 5</xref>; <xref ref-type="bibr" rid="B32">Pallotti 2015</xref>).</p></fn>
<fn id="n16"><p>Dieser Zusammenhang zwischen Textdeckung und Textverst&#228;ndnis wird in der Threshold-Hypothese zusammengefasst (vgl. <xref ref-type="bibr" rid="B30">Milton 2009</xref>). Dieser Hypothese liegt der Befund zugrunde, dass eine h&#246;here Textdeckung auch mit gr&#246;&#223;erem Textverstehen korreliert, dass aber gleichzeitig unterschiedliche Schwellen erreicht werden k&#246;nnen bzw. m&#252;ssen, um unterschiedliche Niveaus von Textverst&#228;ndnis zu erm&#246;glichen.</p></fn>
<fn id="n17"><p>Vgl. <ext-link ext-link-type="uri" xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="https://www.goethe.de/pro/relaunch/prf/de/A1_SD1_Wortliste_02.pdf">https://www.goethe.de/pro/relaunch/prf/de/A1_SD1_Wortliste_02.pdf</ext-link> (15.02.2023).</p></fn>
<fn id="n18"><p>Vgl. <ext-link ext-link-type="uri" xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="https://www.goethe.de/pro/relaunch/prf/de/Goethe-Zertifikat_A2_Wortliste.pdf">https://www.goethe.de/pro/relaunch/prf/de/Goethe-Zertifikat_A2_Wortliste.pdf</ext-link> (15.02.2023).</p></fn>
<fn id="n19"><p>Vgl. <ext-link ext-link-type="uri" xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="https://www.goethe.de/pro/relaunch/prf/de/Goethe-Zertifikat_B1_Wortliste.pdf">https://www.goethe.de/pro/relaunch/prf/de/Goethe-Zertifikat_B1_Wortliste.pdf</ext-link> (15.02.2023).</p></fn>
<fn id="n20"><p>Der Filter &#8222;Standardn&#228;he (Normalisierungsrate)&#8220; steht in <italic>ZuMal</italic> nur f&#252;r deutschsprachige Daten zur Verf&#252;gung.</p></fn>
<fn id="n21"><p>Gerade f&#252;r den Zusammenhang zwischen linguistischen Komplexit&#228;tsma&#223;en, die die Textkomplexit&#228;t als Ganze beeinflussen, und Lesekompetenzen wurden in j&#252;ngster Zeit immer wieder Zusammenh&#228;nge herausgearbeitet. Forschungen, die solche Zusammenh&#228;nge hinsichtlich multimedialer H&#246;r-Seh-Texte bzw. der Sprechereignisse in Korpora der gesprochenen Sprache wie <italic>FOLK</italic> oder <italic>GeWiss</italic> systematisch untersuchen, stehen bis heute jedoch weitgehend aus.</p></fn>
<fn id="n22"><p>Gemeint sind die Sprechereignisse, die innerhalb des Interquartilsabstands liegen und sich um den Mittelwert gruppieren. Es handelt sich dabei um diejenigen Sprechereignisse, die bez&#252;glich des jeweiligen Merkmals besonders nah beieinanderliegen und damit als besonders typisch angesehen werden k&#246;nnen.</p></fn>
<fn id="n23"><p>Zu beachten ist dabei, dass es sich in der tabellarischen Ansicht um Rundungswerte handelt und sich ggf. dadurch der niedrigste sowie der maximale Wert von den unterhalb der Filter angezeigten Werten geringf&#252;gig unterscheiden k&#246;nnen.</p></fn>
<fn id="n24"><p>Im Fall der getrennt gebrauchten Verbpartikel (PTKVZ) handelt es sich um Kategorien unterhalb der Wortart.</p></fn>
<fn id="n25"><p>In diesem Fall k&#246;nnen &#252;ber <italic>ZuMal</italic> Sprechereignisse ausgew&#228;hlt werden, die im Vergleich zu allen im Korpus verf&#252;gbaren Datens&#228;tzen eine relativ hohe Frequenz des Ph&#228;nomens aufweisen. Wenn ein so selegiertes Sprechereignis in <italic>ZuViel</italic> ge&#246;ffnet wird, erlaubt die Suche nach der POS-Kategorie eine Markierung aller Vorkommen im Transkript, die dann direkt im Kontext betrachtet werden k&#246;nnen.</p></fn>
<fn id="n26"><p>Die orthografische Normalisierung erfolgt zun&#228;chst in einem automatischen Schritt, der eine Fehlerquote von 20% aufweist und in einem zweiten Schritt manuell nachkorrigiert werden muss (vgl. <xref ref-type="bibr" rid="B38">Schmidt 2016: 136</xref>; vgl. auch <xref ref-type="bibr" rid="B39">Schmidt 2022: 458-460</xref>).</p></fn>
<fn id="n27"><p>Der Tagger wurde dazu anhand eines manuell annotierten Datensets (Goldstandard) trainiert. Die Annotation der Datens&#228;tze im <italic>FOLK</italic>-Korpus erfolgt automatisch durch den so trainierten Tagger. Dabei liegt die Fehlerquote der Wortartenannotation derzeit bei 5 % (vgl. <xref ref-type="bibr" rid="B51">Westpfahl / Schmidt 2016</xref>). Die didaktische Arbeit mit Markierungen von POS-Kategorien im Transkript, wie sie in <italic>ZuViel</italic> angeboten wird (vgl. Fu&#223;note 25), erfordert daher Bewusstheit daf&#252;r, dass dieser Visualisierung eine automatische Datenaufbereitung zugrunde liegt, die auch fehlerhafte Tagzuweisungen umfassen kann.</p></fn>
<fn id="n28"><p>In F&#228;llen wie <italic>oh gott</italic> und <italic>ja klar</italic> in den Beispielen lie&#223;en sich indirekt aus der Abfolge zweier als NGIRR getaggter Token auch Mehrworteinheiten rekonstruieren.</p></fn>
<fn id="n29"><p>CLITIC kann derzeit, anders als alle anderen beschriebenen POS-Kategorien, nicht in <italic>ZuViel</italic> im Transkript gesucht und markiert angezeigt werden. Eine Umwegl&#246;sung ist es, in <italic>ZuViel</italic> nach pos=.+ .+ zu suchen. Damit erh&#228;lt man Klitisierungen, die jedoch auch solche umfassen, die f&#252;r die <italic>ZuMal</italic>-Auswahl ausgeschlossen wurden (z. B. <italic>hmhm</italic> oder <italic>Stuttgart 21</italic>).</p></fn>
<fn id="n30"><p>In den Beispielen sind jeweils die Vorkommen der thematisierten Wortart hervorgehoben.</p></fn>
<fn id="n31"><p>Zur besseren Nachvollziehbarkeit wurde dieses Beispiel in der orthografisch normalisierten Fassung wiedergegeben.</p></fn>
<fn id="n32"><p>Dabei ist zu ber&#252;cksichtigen, dass sich die in diesem Beitrag berichteten Spektren auf die Sprechereignisse in <italic>FOLK</italic> Version 2.19 beziehen und sich nat&#252;rlich mit jeder Korpuserweiterung ver&#228;ndern k&#246;nnen.</p></fn>
<fn id="n33"><p>Weitere Beispiele f&#252;r die Anwendung des Werkzeugs <italic>ZuMal</italic> finden sich in Fandrych / Schwendemann / Wallner (<xref ref-type="bibr" rid="B16">2021</xref>) sowie in Mei&#223;ner / Wallner (<xref ref-type="bibr" rid="B29">2022</xref>).</p></fn>
</fn-group>
<ref-list>
<title>Literatur und Ressourcen</title>
<ref id="B1"><mixed-citation publication-type="book"><string-name><surname>Aguado</surname>, <given-names>Karin</given-names></string-name> (<year>2021</year>): <chapter-title>Sprachliche Teilkompetenzen (1): M&#252;ndlichkeit</chapter-title>. In: <string-name><surname>Altmayer</surname>, <given-names>Claus</given-names></string-name> / <string-name><surname>Biebigh&#228;user</surname>, <given-names>Katrin</given-names></string-name> / <string-name><surname>Haberzettl</surname>, <given-names>Stefanie</given-names></string-name> / <string-name><surname>Heine</surname>, <given-names>Antje</given-names></string-name> (Hrsg.): <source>Handbuch Deutsch als Fremd- und Zweitsprache. Kontexte &#8211; Themen &#8211; Methoden</source>. <publisher-loc>Stuttgart</publisher-loc>: <publisher-name>J.B. Metzler</publisher-name>, <fpage>253</fpage>&#8211;<lpage>267</lpage>.</mixed-citation></ref>
<ref id="B2"><mixed-citation publication-type="book"><string-name><surname>Axel-Tober</surname>, <given-names>Katrin</given-names></string-name> (<year>2022</year>): <chapter-title>Pr&#228;position</chapter-title>. In: <string-name><surname>W&#246;llstein</surname>, <given-names>Angelika</given-names></string-name> / <collab>Dudenredaktion</collab> (Hrsg.): <source>Duden: Die Grammatik</source>. <volume>10</volume>. v&#246;llig neu verfasste Aufl. <publisher-loc>Berlin</publisher-loc>: <publisher-name>Dudenverlag</publisher-name>, <fpage>810</fpage>&#8211;<lpage>821</lpage>.</mixed-citation></ref>
<ref id="B3"><mixed-citation publication-type="book"><string-name><surname>Behrens</surname>, <given-names>Heike</given-names></string-name> (<year>1999</year>): <chapter-title>Was macht Verben zu einer besonderen Kategorie im Spracherwerb?</chapter-title> In: <string-name><surname>Meibauer</surname>, <given-names>J&#246;rg</given-names></string-name> / <string-name><surname>Rothweiler</surname>, <given-names>Monika</given-names></string-name> (Hrsg.): <source>Das Lexikon im Spracherwerb</source>. <publisher-loc>T&#252;bingen</publisher-loc>: <publisher-name>Francke</publisher-name>, <fpage>32</fpage>&#8211;<lpage>50</lpage>.</mixed-citation></ref>
<ref id="B4"><mixed-citation publication-type="book"><string-name><surname>Biber</surname>, <given-names>Douglas</given-names></string-name> (<year>2006</year>): <source>University language. A corpus-based study of spoken and written registers</source>. <publisher-loc>Amsterdam</publisher-loc>: <publisher-name>John Benjamins</publisher-name>.</mixed-citation></ref>
<ref id="B5"><mixed-citation publication-type="book"><string-name><surname>Boers</surname>, <given-names>Frank</given-names></string-name> (<year>2020</year>): <chapter-title>Factors affecting the learning of multiword items</chapter-title>. In: <string-name><surname>Webb</surname>, <given-names>Stuart</given-names></string-name> (Hrsg.): <source>The Routledge handbook of vocabulary studies</source>. <publisher-loc>London</publisher-loc>: <publisher-name>Routledge</publisher-name>, <fpage>143</fpage>&#8211;<lpage>157</lpage>.</mixed-citation></ref>
<ref id="B6"><mixed-citation publication-type="book"><string-name><surname>Bryant</surname>, <given-names>Doreen</given-names></string-name> (<year>2021</year>): <chapter-title>Die deutsche Sprache aus der Lernendenperspektive</chapter-title>. In: <string-name><surname>Altmayer</surname>, <given-names>Claus</given-names></string-name> / <string-name><surname>Biebigh&#228;user</surname>, <given-names>Katrin</given-names></string-name> / <string-name><surname>Haberzettl</surname>, <given-names>Stefanie</given-names></string-name> / <string-name><surname>Heine</surname>, <given-names>Antje</given-names></string-name> (Hrsg.): <source>Handbuch Deutsch als Fremd- und Zweitsprache. Kontexte &#8211; Themen &#8211; Methoden</source>. <publisher-loc>Stuttgart</publisher-loc>: <publisher-name>J.B. Metzler</publisher-name>, <fpage>124</fpage>&#8211;<lpage>147</lpage>.</mixed-citation></ref>
<ref id="B7"><mixed-citation publication-type="book"><string-name><surname>Bult&#233;</surname>, <given-names>Bram</given-names></string-name> / <string-name><surname>Housen</surname>, <given-names>Alex</given-names></string-name> (<year>2012</year>): <chapter-title>Defining and operationalising L2 complexity</chapter-title>. In: <string-name><surname>Housen</surname>, <given-names>Alex</given-names></string-name> / <string-name><surname>Kuiken</surname>, <given-names>Folkert</given-names></string-name> / <string-name><surname>Vedder</surname>, <given-names>Ineke</given-names></string-name> (Hrsg.): <source>Dimensions of L2 Performance and Proficiency</source>. <publisher-loc>Amsterdam</publisher-loc>: <publisher-name>John Benjamins</publisher-name>, <fpage>21</fpage>&#8211;<lpage>46</lpage>. <pub-id pub-id-type="doi">10.1075/lllt.32.02bul</pub-id>.</mixed-citation></ref>
<ref id="B8"><mixed-citation publication-type="book"><string-name><surname>Deppermann</surname>, <given-names>Arnulf</given-names></string-name> / <string-name><surname>Hartung</surname>, <given-names>Martin</given-names></string-name> (<year>2012</year>): <chapter-title>Was geh&#246;rt in ein nationales Gespr&#228;chskorpus? Kriterien, Probleme und Priorit&#228;ten der Stratifikation des &#8222;Forschungs- und Lehrkorpus Gesprochenes Deutsch&#8220; (FOLK) am Institut f&#252;r Deutsche Sprache (Mannheim)</chapter-title>. In: <string-name><surname>Felder</surname>, <given-names>Ekkehard</given-names></string-name> / <string-name><surname>M&#252;ller</surname>, <given-names>Marcus</given-names></string-name> / <string-name><surname>Vogel</surname>, <given-names>Friedemann</given-names></string-name> (Hrsg): <source>Korpuspragmatik: Thematische Korpora als Basis diskurslinguistischer Analysen</source>. <publisher-loc>Berlin / Boston</publisher-loc>: <publisher-name>De Gruyter</publisher-name>, <fpage>415</fpage>&#8211;<lpage>450</lpage>.</mixed-citation></ref>
<ref id="B9"><mixed-citation publication-type="book"><string-name><surname>Deppermann</surname>, <given-names>Arnulf</given-names></string-name> / <string-name><surname>Fandrych</surname>, <given-names>Christian</given-names></string-name> / <string-name><surname>Kupietz</surname>, <given-names>Marc</given-names></string-name> / <string-name><surname>Schmidt</surname>, <given-names>Thomas</given-names></string-name> (Hrsg.) (<year>2023</year>): <source>Korpora in der germanistischen Sprachwissenschaft. M&#252;ndlich, schriftlich, multimedial</source>. Jahrbuch des Instituts f&#252;r Deutsche Sprache 2022. <publisher-loc>Berlin / Boston</publisher-loc>: <publisher-name>de Gruyter</publisher-name>.</mixed-citation></ref>
<ref id="B10"><mixed-citation publication-type="journal"><string-name><surname>Efing</surname>, <given-names>Christian</given-names></string-name> (<year>2014</year>): <article-title>Berufssprache &amp; Co.: Berufsrelevante Register in der Fremdsprache. Ein variet&#228;tenlinguistischer Zugang zum berufsbezogenen DaF-Unterricht</article-title>. In: <source>Informationen Deutsch als Fremdsprache</source> <volume>41</volume>: <issue>4</issue>, <fpage>415</fpage>&#8211;<lpage>441</lpage>. <pub-id pub-id-type="doi">10.1515/infodaf-2014&#8211;0403</pub-id>.</mixed-citation></ref>
<ref id="B11"><mixed-citation publication-type="journal"><string-name><surname>Fandrych</surname>, <given-names>Christian</given-names></string-name> / <string-name><surname>Thurmair</surname>, <given-names>Maria</given-names></string-name> (<year>2011</year>): <article-title>Pl&#228;doyer f&#252;r eine textsortenbezogene Sprachdidaktik</article-title>. In: <source>Deutsch als Fremdsprache</source> <volume>47</volume>: <issue>2</issue>, <fpage>84</fpage>&#8211;<lpage>93</lpage>.</mixed-citation></ref>
<ref id="B12"><mixed-citation publication-type="book"><string-name><surname>Fandrych</surname>, <given-names>Christian</given-names></string-name> / <string-name><surname>Mei&#223;ner</surname>, <given-names>Cordula</given-names></string-name> / <string-name><surname>Slavcheva</surname>, <given-names>Adriana</given-names></string-name> (<year>2012</year>): <chapter-title>The GeWiss Corpus: Comparing Spoken Academic German, English and Polish</chapter-title>. In: <string-name><surname>Schmidt</surname>, <given-names>Thomas</given-names></string-name> / <string-name><surname>W&#246;rner</surname>, <given-names>Kai</given-names></string-name> (Hrsg.): <source>Multilingual corpora and multilingual corpus analysis</source>. <publisher-loc>Amsterdam</publisher-loc>: <publisher-name>John Benjamins</publisher-name>, <fpage>319</fpage>&#8211;<lpage>337</lpage>.</mixed-citation></ref>
<ref id="B13"><mixed-citation publication-type="webpage"><string-name><surname>Fandrych</surname>, <given-names>Christian</given-names></string-name> / <string-name><surname>Frick</surname>, <given-names>Elena</given-names></string-name> / <string-name><surname>Hedeland</surname>, <given-names>Hanna</given-names></string-name> / <string-name><surname>Iliash</surname>, <given-names>Anna</given-names></string-name> / <string-name><surname>Jettka</surname>, <given-names>Daniel</given-names></string-name> / <string-name><surname>Mei&#223;ner</surname>, <given-names>Cordula</given-names></string-name> / <string-name><surname>Schmidt</surname>, <given-names>Thomas</given-names></string-name> / <string-name><surname>Wallner</surname>, <given-names>Franziska</given-names></string-name> / <string-name><surname>Weigert</surname>, <given-names>Kathrin</given-names></string-name> / <string-name><surname>Westpfahl</surname>, <given-names>Swantje</given-names></string-name> (<year>2016</year>): <chapter-title>User, who art thou? User Profiling for Oral Corpus Platforms</chapter-title>. In: <source>Proceedings of the Tenth International Conference on Language Resources and Evaluation</source>. <publisher-loc>Portoro&#382;</publisher-loc>: <publisher-name>European Language Resources Association (ELRA)</publisher-name>, <fpage>280</fpage>&#8211;<lpage>287</lpage>. <uri>http://www.lrec-conf.org/proceedings/lrec2016/pdf/210_Paper.pdf</uri> (15.02.2023).</mixed-citation></ref>
<ref id="B14"><mixed-citation publication-type="book"><string-name><surname>Fandrych</surname>, <given-names>Christian</given-names></string-name> / <string-name><surname>Thurmair</surname>, <given-names>Maria</given-names></string-name> (<year>2021</year>): <source>Grammatik im Fach Deutsch als Fremd- und Zweitsprache. Grundlagen und Vermittlung</source>. <edition>2</edition>. Auflage. <publisher-loc>Berlin</publisher-loc>: <publisher-name>Erich Schmidt</publisher-name>.</mixed-citation></ref>
<ref id="B15"><mixed-citation publication-type="journal"><string-name><surname>Fandrych</surname>, <given-names>Christian</given-names></string-name> / <string-name><surname>Mei&#223;ner</surname>, <given-names>Cordula</given-names></string-name> / <string-name><surname>Wallner</surname>, <given-names>Franziska</given-names></string-name> (<year>2021</year>): <article-title>Korpora gesprochener Sprache und Deutsch als Fremd- und Zweitsprache: Eine chancenreiche Beziehung</article-title>. In: <source>Korpora Deutsch als Fremdsprache</source> <volume>1</volume>: <issue>2</issue>, <fpage>5</fpage>&#8211;<lpage>30</lpage>. <pub-id pub-id-type="doi">10.48694/tujournals-76</pub-id>.</mixed-citation></ref>
<ref id="B16"><mixed-citation publication-type="journal"><string-name><surname>Fandrych</surname>, <given-names>Christian</given-names></string-name> / <string-name><surname>Schwendemann</surname>, <given-names>Matthias</given-names></string-name> / <string-name><surname>Wallner</surname>, <given-names>Franziska</given-names></string-name> (<year>2021</year>): <article-title>&#8222;Ich brauch da dringend ein passendes Beispiel &#8230;&#8220;: Sprachdidaktisch orientierte Zugriffsm&#246;glichkeiten auf Korpora der gesprochenen Sprache aus dem Projekt ZuMult</article-title>. In: <source>Informationen Deutsch als Fremdsprache</source> <volume>48</volume>: <issue>6</issue>, <fpage>711</fpage>&#8211;<lpage>729</lpage>.</mixed-citation></ref>
<ref id="B17"><mixed-citation publication-type="journal"><string-name><surname>Fandrych</surname>, <given-names>Christian</given-names></string-name> / <string-name><surname>Wallner</surname>, <given-names>Franziska</given-names></string-name> (<year>2022</year>): <article-title>Funktionale und stilistische Merkmale gesprochener fortgeschrittener Lerner:innensprache: Methodische und konzeptionelle &#220;berlegungen am Beispiel von GeWiss</article-title>. In: <source>Zeitschrift f&#252;r germanistische Linguistik</source> <volume>50</volume>: <issue>1</issue>, <fpage>202</fpage>&#8211;<lpage>239</lpage>.</mixed-citation></ref>
<ref id="B18"><mixed-citation publication-type="book"><string-name><surname>Fandrych</surname>, <given-names>Christian</given-names></string-name> / <string-name><surname>Wallner</surname>, <given-names>Franziska</given-names></string-name> (<year>2023</year>): <chapter-title>Das GeWiss-Korpus: Neue Forschungs- und Vermittlungsperspektiven zur m&#252;ndlichen Hochschulkommunikation</chapter-title>. In: <string-name><surname>Deppermann</surname>, <given-names>Arnulf</given-names></string-name> / <string-name><surname>Fandrych</surname>, <given-names>Christian</given-names></string-name> / <string-name><surname>Kupietz</surname>, <given-names>Marc</given-names></string-name> / <string-name><surname>Schmidt</surname>, <given-names>Thomas</given-names></string-name> (Hrsg): <source>Korpora in der germanistischen Sprachwissenschaft: M&#252;ndlich, schriftlich, multimedial</source>. <publisher-loc>Berlin / Boston</publisher-loc>: <publisher-name>De Gruyter</publisher-name>, <fpage>129</fpage>&#8211;<lpage>160</lpage>.</mixed-citation></ref>
<ref id="B19"><mixed-citation publication-type="journal"><string-name><surname>Hacking</surname>, <given-names>Jane F.</given-names></string-name> / <string-name><surname>Tschirner</surname>, <given-names>Erwin</given-names></string-name> (<year>2017</year>): <article-title>The Contribution of Vocabulary Knowledge to Reading Proficiency. The Case of College Russian</article-title>. In: <source>Foreign Language Annals</source> <volume>50</volume>: <issue>3</issue>, <fpage>500</fpage>&#8211;<lpage>518</lpage>.</mixed-citation></ref>
<ref id="B20"><mixed-citation publication-type="book"><string-name><surname>Housen</surname>, <given-names>Alex</given-names></string-name>, / <string-name><surname>Kuiken</surname>, <given-names>Folkert</given-names></string-name> / <string-name><surname>Vedder</surname>, <given-names>Ineke</given-names></string-name> (Hrsg.) (<year>2012</year>): <source>Dimensions of L2 Performance and Proficiency</source>. <publisher-loc>Amsterdam</publisher-loc>: <publisher-name>John Benjamins</publisher-name>. <pub-id pub-id-type="doi">10.1075/lllt.32</pub-id>.</mixed-citation></ref>
<ref id="B21"><mixed-citation publication-type="journal"><string-name><surname>Housen</surname>, <given-names>Alex</given-names></string-name> / <string-name><surname>Simoens</surname>, <given-names>Hannelore</given-names></string-name> (<year>2016</year>): <article-title>Introduction: Cognitive Perspectives on Difficulty and Complexity in L2 Acquisition</article-title>. In: <source>Studies of Second Language Acquisition</source> <volume>38</volume>: <issue>2</issue>, <fpage>163</fpage>&#8211;<lpage>175</lpage>. <pub-id pub-id-type="doi">10.1017/S0272263116000176</pub-id>.</mixed-citation></ref>
<ref id="B22"><mixed-citation publication-type="journal"><string-name><surname>Housen</surname>, <given-names>Alex</given-names></string-name> / <string-name><surname>De Clerq</surname>, <given-names>Bastien</given-names></string-name> / <string-name><surname>Kuiken</surname>, <given-names>Folkert</given-names></string-name> / <string-name><surname>Vedder</surname>, <given-names>Ineke</given-names></string-name> (<year>2019</year>): <article-title>Multiple approaches to complexity in second language research</article-title>. In: <source>Second Language Research</source> <volume>35</volume>: <issue>1</issue>, <fpage>3</fpage>&#8211;<lpage>21</lpage>.</mixed-citation></ref>
<ref id="B23"><mixed-citation publication-type="book"><string-name><surname>Imo</surname>, <given-names>Wolfgang</given-names></string-name> / <string-name><surname>Moraldo</surname>, <given-names>Sandro M.</given-names></string-name> (Hrsg.) (<year>2015</year>): <source>Interaktionale Sprache und ihre Didaktisierung im DaF-Unterricht</source>. <publisher-loc>T&#252;bingen</publisher-loc>: <publisher-name>Stauffenburg</publisher-name>.</mixed-citation></ref>
<ref id="B24"><mixed-citation publication-type="webpage"><string-name><surname>Kaiser</surname>, <given-names>Julia</given-names></string-name> (<year>2018</year>): <chapter-title>Zur Stratifikation des FOLK-Korpus: Konzeption und Strategien</chapter-title>. In: <source>Gespr&#228;chsforschung</source> <volume>19</volume>, <fpage>515</fpage>&#8211;<lpage>552</lpage>. <uri>https://ids-pub.bsz-bw.de/frontdoor/index/index/start/0/rows/10/sortfield/score/sortorder/desc/searchtype/simple/query/Kaiser+stratifikation/docId/8668</uri> (15.03.2023).</mixed-citation></ref>
<ref id="B25"><mixed-citation publication-type="book"><string-name><surname>Koch</surname>, <given-names>Peter</given-names></string-name> / <string-name><surname>Oesterreicher</surname>, <given-names>Wulf</given-names></string-name> (<year>2008</year>): <chapter-title>M&#252;ndlichkeit und Schriftlichkeit von Texten</chapter-title>. In: <string-name><surname>Janich</surname>, <given-names>Nina</given-names></string-name> (Hrsg.): <source>Textlinguistik. 15 Einf&#252;hrungen</source>. <publisher-loc>T&#252;bingen</publisher-loc>: <publisher-name>Narr</publisher-name>, <fpage>199</fpage>&#8211;<lpage>215</lpage>.</mixed-citation></ref>
<ref id="B26"><mixed-citation publication-type="journal"><string-name><surname>Kniffka</surname>, <given-names>Gabriele</given-names></string-name> / <string-name><surname>Riemer</surname>, <given-names>Claudia</given-names></string-name> (<year>2022</year>): <article-title>Methodisch-didaktische Prinzipien f&#252;r die Sprachvermittlung und Sprachf&#246;rderung DaF und DaZ &#8211; mehr Synergien als Unterschiede?</article-title> In: <source>Deutsch als Fremdsprache</source> <volume>59</volume>: <issue>3</issue>, <fpage>131</fpage>&#8211;<lpage>141</lpage>. <pub-id pub-id-type="doi">10.37307/j.2198&#8211;2430.2022.03.02</pub-id>.</mixed-citation></ref>
<ref id="B27"><mixed-citation publication-type="book"><string-name><surname>Kupietz</surname>, <given-names>Marc</given-names></string-name> / <string-name><surname>Schmidt</surname>, <given-names>Thomas</given-names></string-name> (Hrsg.) (<year>2018</year>): <source>Korpuslinguistik</source>. <publisher-loc>Berlin, Boston</publisher-loc>: <publisher-name>De Gruyter</publisher-name>. <pub-id pub-id-type="doi">10.1515/9783110538649</pub-id>.</mixed-citation></ref>
<ref id="B28"><mixed-citation publication-type="journal"><string-name><surname>Lenort</surname>, <given-names>Lisa</given-names></string-name> / <string-name><surname>Pohle</surname>, <given-names>Anna</given-names></string-name> / <string-name><surname>Sakhno</surname>, <given-names>Anna</given-names></string-name> (<year>2022</year>): <article-title>Zur Verschmelzung von Pr&#228;position und bestimmtem Artikel im gesprochenen Deutsch</article-title>. In: <source>Deutsch als Fremdsprache</source> <volume>59</volume>: <issue>1</issue>, <fpage>27</fpage>&#8211;<lpage>37</lpage>. <pub-id pub-id-type="doi">10.37307/j.2198&#8211;2430.2022.01.04</pub-id>.</mixed-citation></ref>
<ref id="B29"><mixed-citation publication-type="book"><string-name><surname>Mei&#223;ner</surname>, <given-names>Cordula</given-names></string-name> / <string-name><surname>Wallner</surname>, <given-names>Franziska</given-names></string-name> (<year>2022</year>): <chapter-title>Korpora gesprochener Sprache als virtuelle Lernr&#228;ume der M&#252;ndlichkeitsdidaktik: Affordanzen eines au&#223;erunterrichtlichen Sprachlernsettings</chapter-title>. In: <string-name><surname>Feick</surname>, <given-names>Diana</given-names></string-name> / <string-name><surname>Rymarczyk</surname>, <given-names>Jutta</given-names></string-name> (Hrsg.): <source>Zur Digitalisierung von Lernorten &#8211; Fremdsprachenlernen im virtuellen Raum</source>. Tagungsband zum 28. <publisher-name>DGFF-Kongress an der Julius-Maximilians-Universit&#228;t W&#252;rzburg 2019</publisher-name>, <fpage>215</fpage>&#8211;<lpage>239</lpage>.</mixed-citation></ref>
<ref id="B30"><mixed-citation publication-type="book"><string-name><surname>Milton</surname>, <given-names>James</given-names></string-name> (<year>2009</year>): <source>Measuring Second Language Vocabulary Acquisition</source>. <publisher-loc>Bristol</publisher-loc>: <publisher-name>Multilingual Matters</publisher-name>. <pub-id pub-id-type="doi">10.21832/9781847692092</pub-id>.</mixed-citation></ref>
<ref id="B31"><mixed-citation publication-type="book"><string-name><surname>Moraldo</surname>, <given-names>Sandro M.</given-names></string-name> / <string-name><surname>Missaglia</surname>, <given-names>Federica</given-names></string-name> (Hrsg.) (<year>2013</year>): <source>Gesprochene Sprache im DaF-Unterricht. Grundlagen, Ans&#228;tze, Praxis</source>. <publisher-loc>Heidelberg</publisher-loc>: <publisher-name>Winter</publisher-name>.</mixed-citation></ref>
<ref id="B32"><mixed-citation publication-type="journal"><string-name><surname>Pallotti</surname>, <given-names>Gabriele</given-names></string-name> (<year>2015</year>): <article-title>A simple view of linguistic complexity</article-title>. In: <source>Second Language Research</source> <volume>31</volume>: <issue>1</issue>, <fpage>117</fpage>&#8211;<lpage>134</lpage>. <pub-id pub-id-type="doi">10.1177/0267658314536435</pub-id>.</mixed-citation></ref>
<ref id="B33"><mixed-citation publication-type="book"><string-name><surname>Peters</surname>, <given-names>Elke</given-names></string-name> (<year>2020</year>): <chapter-title>Factors affecting the learning of single word items</chapter-title>. In: <string-name><surname>Webb</surname>, <given-names>Stuart</given-names></string-name> (Hrsg.): <source>The Routledge handbook of vocabulary studies</source>. <publisher-loc>London</publisher-loc>: <publisher-name>Routledge</publisher-name>, <fpage>125</fpage>&#8211;<lpage>142</lpage>.</mixed-citation></ref>
<ref id="B34"><mixed-citation publication-type="journal"><string-name><surname>Read</surname>, <given-names>John</given-names></string-name> (<year>2004</year>): <article-title>Research in Teaching Vocabulary</article-title>. In: <source>Annual Review of Applied Linguistics</source> <volume>24</volume>, <fpage>146</fpage>&#8211;<lpage>161</lpage>.</mixed-citation></ref>
<ref id="B35"><mixed-citation publication-type="book"><string-name><surname>Reineke</surname>, <given-names>Silke</given-names></string-name> / <string-name><surname>Deppermann</surname>, <given-names>Arnulf</given-names></string-name> / <string-name><surname>Schmidt</surname>, <given-names>Thomas</given-names></string-name> (<year>2023</year>): <chapter-title>Das Forschungs- und Lehrkorpus f&#252;r Gesprochenes Deutsch (FOLK). Zum Nutzen eines gro&#223;en annotierten Korpus gesprochener Sprache f&#252;r interaktionslinguistische Fragestellungen</chapter-title>. In: <string-name><surname>Deppermann</surname>, <given-names>Arnulf</given-names></string-name> / <string-name><surname>Fandrych</surname>, <given-names>Christian</given-names></string-name> / <string-name><surname>Kupietz</surname>, <given-names>Marc</given-names></string-name> / <string-name><surname>Schmidt</surname>, <given-names>Thomas</given-names></string-name> (Hrsg.): <source>Korpora in der germanistischen Sprachwissenschaft. M&#252;ndlich, schriftlich, multimedial</source>. Jahrbuch der Jahrestagung des Leibniz-Instituts f&#252;r Deutsche Sprache 2022. <publisher-loc>Berlin, Boston</publisher-loc>: <publisher-name>De Gruyter</publisher-name>, <fpage>71</fpage>&#8211;<lpage>102</lpage>.</mixed-citation></ref>
<ref id="B36"><mixed-citation publication-type="webpage"><string-name><surname>Schiller</surname>, <given-names>Anne</given-names></string-name> / <string-name><surname>Teufel</surname>, <given-names>Simone</given-names></string-name> / <string-name><surname>St&#246;ckert</surname>, <given-names>Christine</given-names></string-name> / <string-name><surname>Thielen</surname>, <given-names>Christine</given-names></string-name> (<year>1999</year>): <article-title>Guidelines f&#252;r das Tagging deutscher Textcorpora mit STTS (Kleines und gro&#223;es Tagset)</article-title>. <uri>http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf</uri> (15.02.2023).</mixed-citation></ref>
<ref id="B37"><mixed-citation publication-type="webpage"><string-name><surname>Schmid</surname>, <given-names>Helmut</given-names></string-name> (<year>1995</year>): <chapter-title>Improvements in Part-of-Speech Tagging with an Application to German</chapter-title>. In: <source>Proceedings of the ACL SIGDAT-Workshop</source>. <publisher-loc>Dublin</publisher-loc>. <uri>http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tree-tagger2.pdf</uri> (15.02.2023).</mixed-citation></ref>
<ref id="B38"><mixed-citation publication-type="journal"><string-name><surname>Schmidt</surname>, <given-names>Thomas</given-names></string-name> (<year>2016</year>): <article-title>Construction and dissemination of a corpus of spoken interaction &#8211; tools and workflows in the FOLK project</article-title>. In: <source>Journal for language technology and computational linguistics (JLCL)</source> <volume>31</volume>: <issue>1</issue>, <fpage>127</fpage>&#8211;<lpage>154</lpage>.</mixed-citation></ref>
<ref id="B39"><mixed-citation publication-type="book"><string-name><surname>Schmidt</surname>, <given-names>Thomas</given-names></string-name> (<year>2022</year>): <chapter-title>Werkzeuge f&#252;r die Transkription gesprochener Sprache</chapter-title>. In: <string-name><surname>Bei&#223;wenger</surname>, <given-names>Michael</given-names></string-name>/ <string-name><surname>Lemnitzer</surname>, <given-names>Lothar</given-names></string-name> / <string-name><surname>M&#252;ller-Spitzer</surname>, <given-names>Carolin</given-names></string-name> (Hrsg.): <source>Forschen in der Linguistik. Eine Methodeneinf&#252;hrung f&#252;r das Germanistik-Studium</source>. <publisher-loc>Paderborn</publisher-loc>: <publisher-name>Wilhelm Fink</publisher-name>, <fpage>451</fpage>&#8211;<lpage>460</lpage>.</mixed-citation></ref>
<ref id="B40"><mixed-citation publication-type="webpage"><string-name><surname>Schmidt</surname>, <given-names>Thomas</given-names></string-name> / <string-name><surname>Sch&#252;tte</surname>, <given-names>Wilfried</given-names></string-name> / <string-name><surname>Winterscheid</surname>, <given-names>Jenny</given-names></string-name> (<year>2015</year>): <source>cGAT. Konventionen f&#252;r das computergest&#252;tzte Transkribieren in Anlehnung an das Gespr&#228;chsanalytische Transkriptionssystem 2 (GAT2)</source>. <publisher-name>Institut f&#252;r Deutsche Sprache</publisher-name>. <publisher-loc>Mannheim</publisher-loc>. <uri>https://ids-pub.bsz-bw.de/frontdoor/index/index/docId/4616</uri> (15.02.2023).</mixed-citation></ref>
<ref id="B41"><mixed-citation publication-type="webpage"><string-name><surname>Schwendemann</surname>, <given-names>Matthias</given-names></string-name> / <string-name><surname>Wallner</surname>, <given-names>Franziska</given-names></string-name> (<year>2022</year>): <article-title>M&#252;ndlichkeitsph&#228;nomene in der gesprochenen Wissenschaftssprache: Korpuslinguistische Befunde und didaktische Perspektiven</article-title>. Vortrag auf der 49. Jahrestagung des Fachverbandes Deutsch als Fremd- und Zweitsprache (FaDaF) 2022 in Kassel. <uri>https://zumult.org/wp-content/uploads/2022/09/FaDaF-2022_Schwendemann-Wallner.pdf</uri> (15.02.2023).</mixed-citation></ref>
<ref id="B42"><mixed-citation publication-type="webpage"><string-name><surname>Selting</surname>, <given-names>Margret</given-names></string-name> / <string-name><surname>Auer</surname>, <given-names>Peter</given-names></string-name> / <string-name><surname>Barth-Weingarten</surname>, <given-names>Dagmar</given-names></string-name> / <string-name><surname>Bergmann</surname>, <given-names>J&#246;rg</given-names></string-name> / <string-name><surname>Bergmann</surname>, <given-names>Pia</given-names></string-name> / <string-name><surname>Birkner</surname>, <given-names>Karin</given-names></string-name> et al. (<year>2009</year>): <article-title>Gespr&#228;chsanalytisches Transkriptionssystem 2 (GAT 2)</article-title>. In: <source>Gespr&#228;chsforschung: Online-Zeitschrift zur verbalen Interaktion</source> <volume>10</volume>, <fpage>353</fpage>&#8211;<lpage>402</lpage>. <uri>https://ids-pub.bsz-bw.de/frontdoor/index/index/start/1/rows/10/sortfield/score/sortorder/desc/searchtype/simple/query/gat+2/docId/222</uri> (15.02.2023).</mixed-citation></ref>
<ref id="B43"><mixed-citation publication-type="other"><string-name><surname>Tschirner</surname>, <given-names>Erwin</given-names></string-name> / <string-name><surname>Hacking</surname>, <given-names>Jane F.</given-names></string-name> / <string-name><surname>Rubio</surname>, <given-names>Fernando</given-names></string-name> (<year>2018</year>): <chapter-title>The Relationship Between Reading Proficiency and Vocabulary Size. An Empirical Investigation</chapter-title>. In: <string-name><surname>Ecke</surname>, <given-names>Peter</given-names></string-name> / <string-name><surname>Rott</surname>, <given-names>Susanne</given-names></string-name> (Hrsg.): <source>Understanding Vocabulary Learning and Teaching: Implications for Language Program Development</source>. <publisher-loc>Boston</publisher-loc>: <publisher-name>Cengage</publisher-name>, <fpage>58</fpage>&#8211;<lpage>77</lpage>.</mixed-citation></ref>
<ref id="B44"><mixed-citation publication-type="book"><string-name><surname>Tschirner</surname>, <given-names>Erwin</given-names></string-name> / <string-name><surname>M&#246;hring</surname>, <given-names>Jupp</given-names></string-name> (<year>2019</year>): <source>A Frequency Dictionary of German. Core vocabulary for learners</source>. <edition>2</edition>. Auflage. <publisher-loc>London, New York</publisher-loc>: <publisher-name>Routledge</publisher-name>.</mixed-citation></ref>
<ref id="B45"><mixed-citation publication-type="journal"><string-name><surname>Thurmair</surname>, <given-names>Maria</given-names></string-name> (<year>1991</year>): <article-title>Warten auf das Verb. Die Ged&#228;chtnisrelevanz der Verbklammer im Deutschen</article-title>. In: <source>Jahrbuch Deutsch als Fremdsprache</source> <volume>17</volume>, <fpage>174</fpage>&#8211;<lpage>202</lpage>. <pub-id pub-id-type="doi">10.5283/EPUB.25061</pub-id>.</mixed-citation></ref>
<ref id="B46"><mixed-citation publication-type="book"><string-name><surname>Thurmair</surname>, <given-names>Maria</given-names></string-name> (<year>2022</year>): <chapter-title>Gesprochene Sprache</chapter-title>. In: <string-name><surname>W&#246;llstein</surname>, <given-names>Angelika</given-names></string-name> / <collab>Dudenredaktion</collab> (Hrsg.): <source>Duden: Die Grammatik</source>. <volume>10</volume>. v&#246;llig neu verfasste Auflage. <publisher-loc>Berlin</publisher-loc>: <publisher-name>Dudenverlag</publisher-name>, <fpage>288</fpage>&#8211;<lpage>315</lpage>, 551&#8211;559, 886&#8211;899.</mixed-citation></ref>
<ref id="B47"><mixed-citation publication-type="journal"><string-name><surname>Van Zeeland</surname>, <given-names>Hilde</given-names></string-name> / <string-name><surname>Schmitt</surname>, <given-names>Norbert</given-names></string-name> (<year>2013</year>): <article-title>Lexical Coverage in L1 and L2 Listening Comprehension: The Same or Different from Reading Comprehension?</article-title> In: <source>Applied Linguistics</source> <volume>34</volume>, <fpage>457</fpage>&#8211;<lpage>479</lpage>.</mixed-citation></ref>
<ref id="B48"><mixed-citation publication-type="book"><string-name><surname>Venohr</surname>, <given-names>Elisabeth</given-names></string-name> (<year>2021</year>): <chapter-title>Variet&#228;ten- und Soziolinguistik in DaF/DaZ unter besonderer Ber&#252;cksichtigung von Fachsprachen</chapter-title>. In: <string-name><surname>Altmayer</surname>, <given-names>Claus</given-names></string-name> / <string-name><surname>Biebigh&#228;user</surname>, <given-names>Katrin</given-names></string-name> / <string-name><surname>Haberzettl</surname>, <given-names>Stefanie</given-names></string-name> / <string-name><surname>Heine</surname>, <given-names>Antje</given-names></string-name> (Hrsg.): <source>Handbuch Deutsch als Fremd- und Zweitsprache. Kontexte &#8211; Themen &#8211; Methoden</source>. <publisher-loc>Stuttgart</publisher-loc>: <publisher-name>J.B. Metzler</publisher-name>, <fpage>163</fpage>&#8211;<lpage>179</lpage>.</mixed-citation></ref>
<ref id="B49"><mixed-citation publication-type="book"><string-name><surname>Vilkait&#279;-Lozdien&#279;</surname>, <given-names>Laura</given-names></string-name> / <string-name><surname>Schmitt</surname>, <given-names>Norbert</given-names></string-name> (<year>2020</year>): <chapter-title>Frequency as a Guide for Vocabulary Usefulness. High-, Mid-, and Low-Frequency Words</chapter-title>. In: <string-name><surname>Webb</surname>, <given-names>Stuart</given-names></string-name> (Hrsg.): <source>The Routledge Handbook of Vocabulary Studies</source>. <publisher-loc>London / New York</publisher-loc>: <publisher-name>Routledge</publisher-name>, <fpage>81</fpage>&#8211;<lpage>96</lpage>.</mixed-citation></ref>
<ref id="B50"><mixed-citation publication-type="book"><string-name><surname>Wells</surname>, <given-names>John</given-names></string-name> (<year>1997</year>): <chapter-title>SAMPA computer readable phonetic alphabet</chapter-title>. In: <string-name><surname>Gibbon</surname>, <given-names>Dafydd</given-names></string-name> / <string-name><surname>Moore</surname>, <given-names>Roger</given-names></string-name> / <string-name><surname>Winski</surname>, <given-names>Richard</given-names></string-name> (Hrsg.): <source>Handbook of Standards and Resources for Spoken Language Systems. Band 4: Spoken Language Reference Materials</source>. <publisher-loc>Berlin, Boston</publisher-loc>: <publisher-name>De Gruyter Mouton</publisher-name>, <fpage>60</fpage>&#8211;<lpage>107</lpage>.</mixed-citation></ref>
<ref id="B51"><mixed-citation publication-type="webpage"><string-name><surname>Westpfahl</surname>, <given-names>Swantje</given-names></string-name> / <string-name><surname>Schmidt</surname>, <given-names>Thomas</given-names></string-name> (<year>2016</year>): <chapter-title>FOLK-Gold &#8212; A gold standard for part-of-speech-tagging of spoken German</chapter-title>. In: <string-name><surname>Calzolari</surname>, <given-names>Nicoletta</given-names></string-name> / <string-name><surname>Choukri</surname>, <given-names>Khalid</given-names></string-name> / <string-name><surname>Declerck</surname>, <given-names>Thierry</given-names></string-name> / <string-name><surname>Goggi</surname>, <given-names>Sara</given-names></string-name> / <string-name><surname>Grobelnik</surname>, <given-names>Marko</given-names></string-name> (Hrsg.): <source>Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Portoro&#382;, Slovenia</source>. <publisher-loc>Paris</publisher-loc>: <publisher-name>European Language Resources Association (ELRA)</publisher-name>, <fpage>1493</fpage>&#8211;<lpage>1499</lpage>. <uri>https://ids-pub.bsz-bw.de/frontdoor/index/index/docId/5078</uri> (15.02.2023).</mixed-citation></ref>
<ref id="B52"><mixed-citation publication-type="webpage"><string-name><surname>Winterscheid</surname>, <given-names>Jenny</given-names></string-name> / <string-name><surname>Deppermann</surname>, <given-names>Arnulf</given-names></string-name> / <string-name><surname>Schmidt</surname>, <given-names>Thomas</given-names></string-name> / <string-name><surname>Sch&#252;tte</surname>, <given-names>Wilfried</given-names></string-name> / <string-name><surname>Schedl</surname>, <given-names>Evi</given-names></string-name> / <string-name><surname>Kaiser</surname>, <given-names>Julia</given-names></string-name> (<year>2019</year>): <source>Normalisieren mit OrthoNormal. Konventionen und Bedienungshinweise f&#252;r die othografische Normalisierung von Folker-Transkripten</source>. Version1.1. <publisher-loc>Mannheim</publisher-loc>. <uri>https://ids-pub.bsz-bw.de/frontdoor/deliver/index/docId/9326/file/Winterscheid_etal._Normalisierungskonventionen_2019.pdf</uri> (15.02.2023).</mixed-citation></ref>
<ref id="B53"><mixed-citation publication-type="journal"><string-name><surname>Wisniewski</surname>, <given-names>Katrin</given-names></string-name> / <string-name><surname>L&#252;deling</surname>, <given-names>Anke</given-names></string-name> / <string-name><surname>Czinglar</surname>, <given-names>Christine</given-names></string-name> (<year>2022</year>): <article-title>Zum Umgang mit Variation in der Lernersprachenanalyse. Perspektiven aus und f&#252;r DaF / DaZ</article-title>. In: <source>Deutsch als Fremdsprache</source> <volume>59</volume>: <issue>4</issue>, <fpage>195</fpage>&#8211;<lpage>206</lpage>.</mixed-citation></ref>
<ref id="B54"><mixed-citation publication-type="webpage"><string-name><surname>Westpfahl</surname>, <given-names>Swantje</given-names></string-name> / <string-name><surname>Schmidt</surname>, <given-names>Thomas</given-names></string-name> / <string-name><surname>Jonietz</surname>, <given-names>Jasmin</given-names></string-name> / <string-name><surname>Borlinghaus</surname>, <given-names>Anton</given-names></string-name> (<year>2017</year>): <source>STTS 2.0. Guidelines f&#252;r die Annotation von POS -Tags f&#252;r Transkripte gesprochener Sprache in Anlehnung an das Stuttgart T&#252;bingen Tagset (STTS)</source>. <uri>https://ids-pub.bsz-bw.de/frontdoor/index/index/docId/6063</uri> (15.02.2023).</mixed-citation></ref>
</ref-list>
<sec>
<title>Biographische Notiz:</title>
<p>Christian Fandrych ist Professor f&#252;r Linguistik des Deutschen als Fremdsprache am Herder-Institut der Universit&#228;t Leipzig. Schwerpunkte seiner T&#228;tigkeit sind Wortbildung und Wortschatz des Deutschen, Grammatikvermittlung, Wissenschaftssprache, Text- und Gespr&#228;chslinguistik sowie Korpuslinguistik im Kontext des Deutschen als Fremd- und Zweitsprache.</p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2"><bold>Kontaktanschrift:</bold></styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">Christian Fandrych</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">Herder-Institut der Universit&#228;t Leipzig</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">Beethovenstr. 15</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">04107 Leipzig</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">Deutschland</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2"><ext-link ext-link-type="uri" xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="mailto:fandrych@uni-leipzig.de">fandrych@uni-leipzig.de</ext-link></styled-content></p>
</sec>
<sec>
<title>Biographische Notiz:</title>
<p>Cordula Mei&#223;ner ist Assistenzprofessorin am Institut f&#252;r Germanistik an der Universit&#228;t Innsbruck. Ihre Forschungsschwerpunkte umfassen u. a. die gebrauchsbasierte Sprachbeschreibung im Kontext der bildungsbezogenen Linguistik, Korpuspragmatik und Lexikogrammatik geschriebener und gesprochener Sprache sowie die Sprachverwendung in Wissenschaft, Bildung und Beruf.</p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2"><bold>Kontaktanschrift:</bold></styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">Cordula Mei&#223;ner</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">Institut f&#252;r Germanistik</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">Universit&#228;t Innsbruck</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">Innrain 52d</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">A-6020 Innsbruck</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">&#214;sterreich</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2"><ext-link ext-link-type="uri" xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="mailto:cordula.meissner@uibk.ac.at">cordula.meissner@uibk.ac.at</ext-link></styled-content></p>
</sec>
<sec>
<title>Biographische Notiz:</title>
<p>Matthias Schwendemann ist wissenschaftlicher Mitarbeiter im Bereich Linguistik am Herder-Institut der Universit&#228;t Leipzig. Seine Arbeitsschwerpunkte in Forschung und Lehre liegen in den Bereichen Lexikologie, Wissenschaftssprache und Erwerb und Entwicklung des Deutschen als Fremd- und Zweitsprache sowie der Analyse von Lernersprache.</p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2"><bold>Kontaktanschrift:</bold></styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">Matthias Schwendemann</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">Herder-Institut der Universit&#228;t Leipzig</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">Beethovenstr. 15</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">04107 Leipzig</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">Deutschland</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2"><ext-link ext-link-type="uri" xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="mailto:matthias.schwendemann@uni-leipzig.de">matthias.schwendemann@uni-leipzig.de</ext-link></styled-content></p>
</sec>
<sec>
<title>Biographische Notiz:</title>
<p>Franziska Wallner ist wissenschaftliche Mitarbeiterin am Herder-Institut der Universit&#228;t Leipzig. Ihre Forschungsschwerpunkte sind unter anderen das Deutsche als fremde Bildungs- und Wissenschaftssprache, die korpusbasierte Erforschung der gesprochenen Sprache, M&#252;ndlichkeitsdidaktik sowie die Nutzung von Korpora im Kontext von Deutsch als Fremd- und Zweitsprache.</p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2"><bold>Kontaktanschrift:</bold></styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">Franziska Wallner</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">Herder-Institut</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">Universit&#228;t Leipzig</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">Beethovenstr. 15</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">04107 Leipzig</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2">Deutschland</styled-content></p>
<p><styled-content style="text-align: right; display: block; line-height: 0.2"><ext-link ext-link-type="uri" xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="mailto:f.wallner@uni-leipzig.de">f.wallner@uni-leipzig.de</ext-link></styled-content></p>
</sec>
</back>
</article>
