Valoda: nozīme un forma / Language: Meaning and Form 12, 2021, 7–30. [PDF]
https://doi.org/10.22364/vnf.12.01

Grammatical patterns in the corpus-driven “Lexical Database of Lithuanian”

Agnė Bielinskienė, Jolanta Kovalevskaitė, Erika Rimkutė
Vytautas Magnus University
V. Putvinskio str. 23–216, LT-44243, Kaunas, Lithuania

This paper describes the grammatical patterning of two parts of speech – nouns and adjectives – included in the corpus-driven “Lexical Database of Lithuanian” as a foreign language. The lexical database is a lexicographic application of the Lithuanian Pedagogic Corpus (approx. 620.000 tokens) which was used to develop headword lists and to collect word usage information in the form of corpus patterns. In this project, we adopted a partially automated inductive procedure of Corpus Pattern Analysis for 207 verbs, 386 nouns, 87 adjectives, and 41 adverbs. The detected corpus patterns reflect different meanings of the headword. Each pattern presents information on grammatical, semantic, and lexical levels. Manually selected examples illustrate all pattern components.
In this paper, 673 patterns with nouns and 99 patterns with adjectives will be analysed discussing their syntactic behaviour in detail and providing some comments on lexis-grammar interface. The majority of patterns with nouns and adjectives are minimal patterns which include only the closest syntactical partners. This result is influenced by different procedures used to describe patterns with nouns, adjectives, and adverbs and patterns with verbs. Due to rich grammatical information, there are several similar patterns with one main (usually the most frequent) type and its variants. Pattern variants show that the grammatical characteristics of a specific word usage are rather individual.

Keywords: lexical database; Lithuanian language; “Lithuanian Pedagogic Corpus”; Corpus Pattern Analysis; pattern.


„Lietuviešu valodas lietošanas leksikona” gramatisko modeļu korpusa pētījums

Kopsavilkums
Šajā rakstā tiek raksturotas divu vārdšķiru – substantīvu un adjektīvu – gramatiskās lietošanas īpašības. Datu avots – leksikas datubāze „Lietuvių kalbos vartosenos leksikonas” ‘Lietuviešu valodas lietošanas leksikons’, kura pamatā ir „Lietuviešu valodas mācību korpuss” (ap 620 tūkst. vārdu). Korpuss tika izmantots šķirkļu saraksta izveidei un informācijas par vārdu lietošanu apkopošanai. Piemērojot adaptētu un daļēji automatizētu lietošanas modeļu analīzi, šajā projektā modeļu apraksti sagatavoti 207 verbiem, 386 substantīviem, 87 adjektīviem un 41 adverbam. Lietošanas modeļi tiek sasaistīti ar atšķirīgām aprakstāmā vārda nozīmēm. Lietošanas modelī tiek izdalīti trīs līmeņi: gramatiskais, semantiskais un leksiskais. Manuāli atlasītos atlasītos piemēros tiek atspoguļoti visi komponenti, kas tika piefiksēti modelī.
Šajā rakstā tiek analizēti 673 lietošanas modeļi ar substantīviem un 99 lietošanas modeļi ar adjektīviem: tiek raksturotas to sintaktiskās īpašības, skaidrotas leksikas un gramatikas saiknes. Modeļu ar substantīviem un adjektīviem lielāko daļu sastāda minimālie modeļi, kuros tiek iekļauti vistuvākie sintaksiskie partneri. Tādu rezultātu ietekmēja atšķirīgi vārdšķiru aprakstīšanas principi – viena veida principi tika piemēroti verbiem, citādi – substantīviem, adjektīviem un adverbiem. Lietošanas modeļi aptver plašu gramatisko informāciju, tādēļ līdzīgu modeļu grupā tiek izdalīts pamatmodelis (parasti tas, kurš ir visbiežāk sastopams) un tā varianti. Variantu daudzveidība parāda, ka ir cieša saikne starp gramatiskām īpašībām un individuālu vārda lietojumu.

Atslēgvārdi: leksikas bāze; lietuviešu valoda; „Lietuviešu valodas mācību korpuss”; lietošanas modeļu analīze; lietošanas modelis.

 


Rakstam ir Creative Commons Attiecinājuma 4.0 Starptautiskā licence (CC BY 4.0) / This article is licensed under the Creative Commons Attribution 4.0 International License (CC BY 4.0) (https://creativecommons.org/licenses/by/4.0/)


Uz saturu / To contents