Categorieën
Woordenboeken

Woord­combinaties

Het Instituut voor de Nederlandse Taal (INT) houdt zich in het project Woordcombinaties bezig met de verschillende combinaties die woorden kunnen aangaan met andere woorden. Het project zal bestaan uit een database en een onlineapplicatie en is vooral nuttig voor NT2-leerders: mensen die Nederlands leren als tweede taal.

English

Words usually don’t get real meaning until they are used in context: in combination with other words. It only becomes clear in what sense the verb blazen is used when we see it in combination with windrookbestuurderaftochtlachen, etc. De wind blaast shows a different blazen from  the blazen in hij blies de rook in mijn gezichtde bestuurder moest blazen, hij blies de aftocht or dat is lachen geblazen. Dictionaries often use example sentences to show words in context, but example sentences are not enough. Anybody who would like to learn to speak and write a foreign language as fluently as a native speaker, first needs to learn quite a large number of fixed and less fixed word combinations and sentence patterns.

Word Combinations

Within the Word Combination project, the Dutch Language Institute is working on a systematic inventory and description of word combinations. It comprises a database and a user application. In this project, we use ‘combinations’ as an umbrella term for:

  • collocations: frequent and/or typical semi-fixed combinations such as een aanbod accepteren of afslaan, spelers fanatiek of enthousiast aanmoedigen, supporteren voor, rekenen op, huiswerk maken, boodschappen doen.
  • fixed combinations, such as expressions, sayings and conversational formulas, e.g. de boot afhouden, de kat de bel aanbinden, Spreken is zilver, zwijgen is goud, ik dacht het niet.
  • patterns (only for verbs): syntactic constructions corresponding with certain meanings. Patterns with verbs are the so-called valence patterns in which PoS positions are occupied by sets of words (lexical sets) from a certain semantic category (semantic type). In the pattern ‘iemand versiert iets’ denoting ‘versieringen aanbrengen’ (‘to put up decorations’), for example, the dummy ‘iets’ (‘something’) is usually occupied by words from the categories ‘physical object’ or ‘space’ (de kerstboom, de muur, de kamer), so the semantic types are ‘physical object’ and ‘space’. The lexical set exists of de kerstboom, de muur, de kamer, etc. However, in the pattern ‘iemand1 versiert iemand2‘ denoting ‘verleiden’ (to seduce’), ‘iemand2’ is occupied by the semantic type ‘person’, filled in by the lexical set of een vrouw, een meisje, een man, etc.

Target groups

The main target groups of the project are advanced C-level NT2 learners and NT2 teachers. To them, the institute will be an important provider of language data in the field of word combinations. But other users will also benefit from the project:

  • copywriters in the broadest sense of the word: professional and amateur writers, secondary school and university students writing papers and other prose. They can use the application as a writing aid.
  • lexicographers of general dictionaries and bilingual dictionaries. They can incorporate the material in their dictionaries.
  • linguists in general and computational linguists. They can use the material for linguistic research or for applications in the field of natural language processing (NLP), for example automatic translation (machine translation). Existing computational lexica can be expanded with new multiword expressions and the material can be used as training material for machine learning in aid of semantic parsing, i.e. automatic parsing with the semantic types as added semantic information, which can significantly improve automatic translation programs.
  • developers of language learning programs for specific target groups. With the Word Combinations material (online) exercises can be developed, to name one example.

Contents

First, a pilot was made with a selection of verbs. After the pilot we started with verbs from the frequency dictionary (Tiberius, C., & Schoonheim, T. (2013). A Frequency Dictionary of Dutch: core vocabulary for learners. Routledge). In 2022 we also started work on the nouns. Eventually all verbs and nouns from the Dutch frequency dictionary will be analysed.

Corpus material

Thanks to developments in computational corpus linguistics and e-lexicography, lexicographers have been provided with large collections of language material (corpora) they can make accessible with lexicographic tools. The registration of combinations used to be done manually, based on quotation collections that were limited in size and diversity. Nowadays we can use statistical methods on large corpora to establish which words like each others company. Combinations such as  zwarte chocolade and donkere chocolade, for example, are not impossible in Dutch, but the combination pure chocolade is the most usual one, as appears from the Dutch corpus material. In English however,  dark chocolate is the usual expression. In other words, Pure chocolade and dark chocolate are conventionalised word combinations in Dutch and English respectively. Thanks to developments in language technology such combinations can now be detected and recorded faster and more systematically.

Language eduaction

CCompetence in language production demands knowledge of and quick access to language conventions. Both in general education and in NT2 education there is a need for tools that support computer-assisted language learning (CALL), especially in the field of language production (speaking and writing). Traditional dictionaries do not really meet that need, because they are primarily written from a viewpoint of language reception: they explain words and expressions but do not give a systematic overview of how to use words in context. In other words: they primarily answer the question ‘What does this word or expression mean?’, ignoring the question ‘How do I use this word or this expression in a sentence or in combination with another words?’ In Dutch you can say: een vrouw versieren, but in English you can’t say: (to decorate a woman). Another example: it is possible to say: iemand aanmoedigen vanaf de zijlijn, but you can’t say: iemand supporteren or animeren vanaf de zijlijn. Nevertheless, supporterenanimerenaanzetten, etc., are listed in some dictionaries as synonyms of aanmoedigen, although these verbs are not equally used in all syntactic patterns and meanings.

Products/Applications

Search Word Combinations

Woorden krijgen vaak pas echt betekenis als ze gebruikt worden in context, dus in combinatie met andere woorden. Zo wordt pas duidelijk in welke betekenis het werkwoord blazen gebruikt is als we het zien in combinatie met windrookbestuurderaftochtlachen, enz. De wind blaast is een ander blazen dan hij blies de rook in mijn gezichtde bestuurder moest blazen, hij blies de aftocht of dat is lachen geblazen. Woordenboeken illustreren betekenissen ook meestal met voorbeeldzinnen zodat je woorden in context kunt zien. Maar vaak zijn voorbeeldzinnen alleen niet genoeg. Wie een vreemde taal bijna even vloeiend wil leren spreken en schrijven als een moedertaalgebruiker, moet ook een behoorlijk aantal vaste en minder vaste woordcombinaties en zinspatronen leren om goed te kunnen communiceren.

Het project Woordcombinaties

Het Instituut voor de Nederlandse Taal wil werk maken van een meer systematische inventarisatie en beschrijving van combinaties in het project Woordcombinaties, dat zal bestaan uit een database en een applicatie voor gebruikers.

‘Combinaties’ gebruiken wij in het project als overkoepelende term voor:

  • collocaties: frequente en/of typische semivaste combinaties als een aanbod accepteren of afslaan, spelers fanatiek of enthousiast aanmoedigen, supporteren voor, rekenen op, huiswerk maken, boodschappen doen.
  • vaste combinaties, zoals uitdrukkingen, spreekwoorden en conversatieformules, bv. de boot afhouden, de kat de bel aanbinden, Spreken is zilver, zwijgen is goud, ik dacht het niet.
  • patronen (alleen voor werkwoorden): syntactische constructies die corresponderen met bepaalde betekenissen. Patronen met werkwoorden zijn de zogeheten valentiepatronen waarin zinsdeelplaatsen bezet worden door sets van woorden (lexicale sets, lexical sets) uit een bepaalde semantische categorie (semantisch type, semantic type). In het patroon ‘iemand versiert iets’ in de zin van ‘versieringen aanbrengen’, bijvoorbeeld, wordt de dummy ‘iets’ meestal bezet door woorden uit de categorieën ‘fysiek object’ of ‘ruimte’ (de kerstboom, de muur, de kamer). De semantische types zijn dus ‘fysiek object’ en ‘ruimte’. De lexicale set bestaat uit de kerstboom, de muur, de kamer, enz. In het patroon ‘iemand1 versiert iemand2‘ in de zin van ‘verleiden’ daarentegen, wordt ‘iemand2’ bezet door het semantisch type ‘persoon’, ingevuld door de lexicale set een vrouw, een meisje, een man, enz.

Doelgroepen

Gevorderde NT2-leerders (C-niveau) en NT2-docenten zijn belangrijke doelgroepen van het project. Het instituut zal dan ook een belangrijke leverancier worden van taaldata op combinatorisch gebied voor taalleerders en docenten, maar daarnaast hebben meer gebruikers baat bij Woordcombinaties:

  • tekstschrijvers in de ruimste zin van het woord: professionele schrijvers, amateurschrijvers, leerlingen en studenten die werkstukken en ander proza schrijven. Zij kunnen het woordenboek als schrijfhulp gebruiken.
  • lexicografen van algemene woordenboeken en vertaalwoordenboeken. Zij kunnen het materiaal in hun woordenboeken opnemen.
  • taalkundigen in het algemeen en computerlinguïsten. Zij kunnen het materiaal gebruiken voor taalkundig onderzoek of voor toepassingen in natural language processing (NLP), bijvoorbeeld automatisch vertalen (machine translation). Bestaande computationele lexica kunnen uitgebreid worden met nieuwe meerwoordexpressies en het materiaal kan gebruikt worden als trainingsmateriaal voor machine learning t.b.v. semantisch parseren (semantic parsing), d.i. automatische zinsontleding met de semantische types als toegevoegde betekenisinformatie, hetgeen automatische vertaalprogramma’s aanzienlijk kan verbeteren.
  • ontwikkelaars van taalprogramma’s voor specifieke doelgroepen. Met het materiaal uit Woordcombinaties kunnen (online) oefeningen e.d. gemaakt worden.

Opbouw

Er is eerst een pilot gemaakt met een selectie werkwoorden. Na de pilot zijn we begonnen met de werkwoorden uit het Frequentiewoordenboek (Tiberius, C., & Schoonheim, T. (2013). A Frequency Dictionary of Dutch: core vocabulary for learners. Routledge). In 2022 zijn we ook begonnen met de substantieven. Uiteindelijk zullen alle werkwoorden en substantieven uit het Nederlandse frequentiewoordenboek bewerkt worden.

Corpusmateriaal

Door ontwikkelingen in de computationele corpuslinguïstiek en de e-lexicografie hebben lexicografen nu de beschikking over grote verzamelingen taalmateriaal (corpora) die ze met lexicografische tools kunnen ontsluiten. Vroeger gebeurde de registratie van combinaties handmatig op basis van citatenverzamelingen die beperkt waren in omvang en diversiteit. Maar nu kunnen we nu in grote corpora met statistische methodes veel beter inventariseren welke woorden zich graag in elkaars gezelschap ophouden. Combinaties als zwarte chocolade en donkere chocolade, bijvoorbeeld, zijn niet onmogelijk in het Nederlands, maar de combinatie pure chocolade is wel de meest gebruikelijke, zo blijkt uit het Nederlandse corpusmateriaal. In het Engels daarentegen is dark chocolate de gebruikelijke uitdrukking. Pure chocolade en dark chocolate zijn, met andere woorden, geconventionaliseerde woordcombinaties in het Nederlands respectievelijk het Engels. Dankzij taaltechnologische ontwikkelingen kunnen we dergelijke combinaties nu systematischer en sneller opsporen en registreren.

Taalonderwijs

Competentie in taalproductie vereist kennis van en snelle toegang tot deze taalconventies. Zowel in het algemeen onderwijs als het NT2-onderwijs is er vraag naar tools die computerondersteund taalleren (computer-assisted language learning (CALL) ondersteunen en dan met name op het gebied van taalproductie (het spreken en schrijven). Traditionele woordenboeken voorzien minder in die behoefte, omdat ze voornamelijk geschreven zijn vanuit het standpunt van taalreceptie: ze verklaren woorden en uitdrukkingen, maar geven niet systematisch aan hoe woorden gebruikt worden in context. Met andere woorden, ze geven vooral antwoord op de vraag Wat betekent dit woord of deze uitdrukking?, maar niet of nauwelijks op de vraag Hoe gebruik ik dit woord of deze uitdrukking in een zin of in combinatie met een ander woord? In het Nederlands kunnen we een vrouw versieren, in het Engels niet (*to decorate a woman). Een ander voorbeeld: je kan iemand aanmoedigen vanaf de zijlijn, maar je kan niet iemand supporteren of animeren vanaf de zijlijn. Toch worden supporterenanimerenaanzetten, enz., in een aantal woordenboeken genoemd als synoniemen voor aanmoedigen, maar de werkwoorden worden niet in alle syntactische patronen en betekenissen door elkaar gebruikt.