Корпусна лінгвістика - Енциклопедія Сучасної України
Beta-версія
Корпусна лінгвістика

КО́РПУСНА ЛІНГВІ́СТИКА – галузь мовознавства, предме­­том дослідження якої є принципи та методи формування корпусів текстів, а також розроб­­лення комп’ютерних систем для їхнього опрацювання. Корпус розглядають як модель мовної системи, реалізовану в текстах різних функціонал. стилів, струк­­тури, тематики, призначення, території та часу їх створення. Залежно від призначення виділяють фундам. і пошукові (дослідн.) корпуси, для роботи з якими створюють спец. текстові процесори – системи опрацювання інформації про мовні оди­­ниці морфол., синтаксич., логіко-семантич. структур. рівнів тексту. Такі системи зорієнтовані на анотацію (розмічення) тексту, яка передбачає формаліз. виділення у ньому мовних одиниць певних типів. Завдяки наявності автоматиз. засобів аналізу інформації корпуси при­­датні для виконання за допомогою комп’ютера теор. і практ. завдань мовознавства. За повнотою подання текстів, їхнім структуруванням та наявністю засобів автоматиз. аналізу корпуси відрізняють від електрон. б-к, картотек і баз цитат. Сучасні нац. корпуси мають здебільшого фундам. характер, їхній обсяг сягає 200 і більше млн слововживань. Такими є, напр., Британ. нац. корпус (British Na­­tional Corpus), Нац. корпус рус. языка, Narodowy Korpus Ję­­zy­ka Polskiego або корпус текстів (Frantext) для укладення словника «Trésor de la langue fran­­çaise» («Скарбниця французької мови»). Корпуси текстів різних типів та призначення мають естон., італ., китай., нім., польс., рос., серб., словен., словац., турец., укр. і чес. мови. В Україні перші корпуси україномовних текстів з’явилися у 1990-х pp., зокрема корпус наук.-реферат. та публіцист. текстів, на базі якого співроб. відділу структурно-матем. лінгвістики (нині у скла­­ді Ін-ту укр. мови НАНУ, Київ) створили систему автомат. орфогр. контролю тексту «Рута» та систему машинного рос.-укр. і укр.-рос. перекладу «Плай», а також корпус укр. худож., публіцист. і наук. текстів, сформов. у лаб. комп’ютер. лінгвістики Ки­­їв. ун-ту. Над укладанням фундам. нац. корпусів україномовних текстів працюють науковці Укр. мовно-інформ. фонду НАНУ (Київ) та Ін-ту укр. мови НАНУ. Від 2009 при Міжнар. ком-ті сла­­вістів працює Комісія з корпус. лінгвістики на чолі з М. Лазинським (Варшава), яка координує діяльність розробників корпусів слов’ян. мов. Від 1996 ви­­ходить «International Journal of Corpus Linguistics».

Літ.: Фрэнсис У. Н. Проблемы формирования и машинного представления большого корпуса текстов / Пер. с англ. // Новое в зарубеж. лингвистике. Вып. 14. Проблемы и методы лексикографии. Москва, 1983; Автоматизация анализа научного текста. К., 1984; Баранов А. Н. Автоматизация лингвис­­тических исследований: корпус текстов как лингвистическая проблема // Русис­­тика сегодня. 1998. № 1–2; Корпусна лінгвістика. К., 2005; Демська-Кульчи­­цька О. М. Основи національного корпусу української мови. К., 2005; Резникова Т. И. Славянская корпусная лингвистика: современное состояние ресурсов // Нац. корпус рус. языка: 2006–08. Новые результаты и перс­­пек­­тивы. С.-Пе­тербург, 2009.

Є. А. Карпіловська

Стаття оновлена: 2014