Комп’ютерна лінгвістика
Визначення і загальна характеристика
КОМПʼЮ́ТЕРНА ЛІНГВІ́СТИКА — галузь мовознавства, що вивчає мову за допомогою компʼютера, а також створює лінгвістичне забезпечення для компʼютерних систем опрацювання інформації. Як самост. наук. напрям сформувалася в 1960-і рр. на базі досягнень структур., матем. та приклад. лінгвістики, лінгвосеміотики, а також обчислюв. техніки, кібернетики й інформатики. Появу К. л. спричинила потреба суспільства в нових оператив. способах опрацювання мовної інформації, зокрема необхідність створення систем машин. перекладу, в основу яких покладено формал. аналоги мови. У світ. науці сформувалося широке розуміння обʼєкта й предмета вивчення К. л., що розвʼязує як фундам. теор., так і прикладні завдання сучас. мовознавства. До фундам. завдань належить створення моделей мовних явищ і процесів, придат. для опрацювання компʼютером, що передбачає виявлення таких закономірностей будови та функціонування мови, які можна описати з використанням формал.-логіч. і матем. методів. Різнотипні моделі мови — статичні й динам., дедуктивні й індуктивні, аналіт. (інтерпретац.) й синтетичні (генеративні, породжувальні) — закладають основу для розвʼязання практич. завдань компʼютер. опрацювання мовної інформації: автоматич. укладання словників, створення систем машин. перекладу, інформ.-пошук., навч. та експерт. систем, корпусів мови, аналізаторів і синтезаторів усного мовлення. Провід. напрямами сучас. К. л. є компʼютерна лексикографія, корпусна лінгвістика, автоматич. аналіз тексту. З появою Інтернету формується новий напрям — мережна лінгвістика, або інтернет-лінгвістика.
В укр. мовознавстві перші праці в цій галузі зʼявилися в серед. 1960-х рр. і були повʼязані з моделюванням штуч. інтелекту, вивченням статистич. закономірностей письмового й усного мовлення, створенням формал. граматик мови. Основи К. л. в Україні заклали відділи докум. інформ. систем на чолі з Е. Скороходьком та розпізнавання й синтезу звук. образів під керівництвом Т. Вінцюка Інституту кібернетики АН УРСР, відділ структурно-матем. лінгвістики Інституту мовознавства АН УРСР (обидва — нині НАНУ) на чолі з В. Перебийніс, 1986–2004 його очолювала Н. Клименко (від 2011 — у складі Інституту української мови НАНУ, зав. — Є. Карпіловська; усі — Київ), каф. матем. лінгвістики Київ. університету під керівництвом Ф. Нікітіної (1985 реорганізов. у каф. матем. інформатики, яку очолив А. Анисимов), каф. заг. та приклад. мовознавства Харків. університету на чолі з В. Акуленком (нині зав. — І. Кравчук). Сьогодні в Україні над проблемами К. л. працюють також Укр. мовно-інформ. фонд НАНУ (Київ; дир. — В. Широков), лаб. компʼютер. лінгвістики Київ. університету (зав. — Н. Дарчук), Київ. лінгвіст. університету (зав. — Т. Бобкова). У розвиток теор. бази укр. К. л. вагомий внесок зробили А. Білецький, В. Перебийніс, Е. Скороходько, Ф. Нікітіна, Н. Клименко, І. Севбо, М. Пещак, В. Войнов, І. Штерн, Л. Пшенична, М. Муравицька, Л. Орлова, Т. Грязнухіна. Укр. науковці розвивають також ідеї світ. К. л., втілені в працях С. Шаумяна, М. Андреєва, Ю. Апресяна, І. Ревзіна, І. Мельчука, Р. Піотровського, Г. Бєлоногова, Ю. Тулдави, А. Шайкевича, О. Падучевої, В. Плунгяна, К. Рахіліної, Н. Хомського, З. Харриса, Ч. Хокета, Ю. Найди, У. Френсіса. Проблеми К. л. висвітлюють ж. «Українська мова», «Мовознавство», зб. «Українське мовознавство», «Лінгвістичні студії» та «Лінгвокомпʼютерні дослідження». Укр. компʼютерна лексикографія представлена знач. кількістю електрон. версій традиц. (уклад. вручну) словників. Для вільного доступу в Інтернеті викладено бл. 300 укр. словників різних типів. На базі компʼютер. версій традиц. словників створ. інтегров. словник. бази, що дають змогу користувачам одержувати різні відомості про слово, зокрема інтегров. лексикогр. система «Словники України», яку розробив і виклав в Інтернеті Укр. мовно-інформ. фонд НАНУ, містить електронні версії орфогр., орфоепіч., граматич. та фразеол. словників, а також словників синонімів та антонімів. Крім версій традиц. словників, є й автомат. словники, або словники, уклад. компʼютером. Саме такі праці в К. л. називають словниками нового покоління. Вони можуть становити самост. джерело інформації про мову, як, напр., частотно-валент. «Словник афіксальних морфем української мови», який уклали Н. Клименко, Є. Карпіловська, В. Карпіловський, Т. Недозим (електронну версію створ. 1991, опубл. 1998). Автомат. словники можуть входити також до складу лінгвіст. забезпечення різних компʼютер. систем опрацювання інформації. Такими є словники (орфогр., тезаурус, конкорданс, або словник сполучуваності слів) у складі системи орфогр. контролю укр. текстів «Рута» та системи укр.-рос. й рос.-укр. машин. перекладу «Плай», що становлять укр. офіс операц. системи Windows фірми «Microsoft» (розробники — Т. Грязнухіна, Л. Орлова, В. Критська, Т. Пуздирева, Т. Недозим, Н. Дарчук, Л. Алексієнко, Г. Колєнов і В. Сорокін), або перекладні компʼютерні словники в складі навч. комплексу «Глоса», який створив колектив лаб. компʼютер. лінгвістики Київ. лінгвіст. університету під керівництвом В. Перебийніс. В основу укр. офісу системи Windows покладено системи морфол., синтаксич. та логіко-семантич. аналізу укр. і рос. текстів, які впродовж 1980–90-х рр. створ. у відділі структурно-матем. лінгвістики Інституту мовознавства НАНУ. Нац. корпус мови як показове за обсягом зібрання текстів різних стилів і жанрів, придатне для опрацювання компʼютер. технологіями, вже став поруч зі словником і граматикою надій. інструментом наук. дослідж. мови та розвʼязання практич. завдань суспільства. На сьогодні корпуси показового обсягу (від 200 млн до понад 1 млрд слововживань) мають не лише такі провідні зх.-європ. мови, як англ., франц., нім., а й словʼян. мови: рос., польс., словац., чеська. В Україні над створенням Укр. нац. лінгвіст. корпусу від кін. 1990-х рр. працює Укр. мовно-інформ. фонд, проте відкритого доступу до цього корпусу користувачі поки що не мають. В Інтернеті розміщено лише Корпус української мови (обсягом 13 млн слововживань), створ. у лаб. компʼютер. лінгвістики Київ. університету під керівництвом Н. Дарчук. Він охоплює тексти худож., наук. та публіцист. стилів. У цьому корпусі здійснено спец. лінгвіст. анотацію текстів (морфол., синтаксичну й семантичну) для виконання теор. і практич. дослідж. із К. л. та для потреб лінгводидактики.
Літ.: Перебийніс В. С. Коли робот заговорить (Мовне спілкування людини з електронною машиною). К., 1972; Лексична семантика в системі «людина–машина». К., 1986; Компьютерная лингвистика // Новое в зарубеж. лингвистике. Москва, 1989. Вып. 24; Использование ЭВМ в лингвистических исследованиях. К., 1990; Морфологический анализ научного текста на ЭВМ. К., 1990; Анисимов А. В. Компьютерная лингвистика для всех: Мифы. Алгоритмы. Язык. К., 1991; Клименко Н. Ф., Русанівський В. М. Від універсальної бази лінгвістичних знань до компʼютерного укладання словників // Мовознавство. 1996. № 4–5; Пещак М. М. Нариси з компʼютерної лінгвістики. Уж., 1999; Синтаксический анализ научного текста на ЭВМ. К., 1999; D. Cristal. Language and the Internet. Cambridge, 2001; Карпіловська Є. А. Вступ до компʼютерної лінгвістики. Д., 2003; Перебийніс В. І., Сорокін В. М. Традиційна та компʼютерна лексикографія. К., 2009; Резникова Т. И. Славянская корпусная лингвистика: современное состояние ресурсов // Нац. корпус рус. языка: Новые результаты и перспективы. С.-Петербург, 2009.
Є. А. Карпіловська