Комп’ютерна лінгвістика - Енциклопедія Сучасної України
Beta-версія
Комп’ютерна лінгвістика

КОМП’Ю́ТЕРНА ЛІНГВІ́СТИКА – галузь мовознавства, що вивчає мову за допомогою комп’ю­тера, а також створює лінгвістичне забезпечення для комп’ю­терних систем опрацювання ін­­формації. Як самост. наук. напрям сформувалася в 1960-і рр. на базі досягнень структур., матем. та приклад. лінгвістики, лінгвосеміотики, а також обчислюв. техніки, кібернетики й інформатики. Появу К. л. спричинила потреба сусп-ва в нових оператив. способах опрацюван­­ня мовної інформації, зокрема необхідність створення систем машин. перекладу, в основу яких покладено формал. аналоги мо­ви. У світ. науці сформувалося широке розуміння об’єкта й пред­мета вивчення К. л., що розв’язує як фундам. теор., так і прикладні завдання сучас. мо­­во­знавства. До фундам. зав­дань належить створення моделей мовних явищ і процесів, придат. для опрацювання ком­п’ю­тером, що передбачає виявлення таких закономірностей будови та функціонування мови, які можна описати з використанням формал.-логіч. і матем. методів. Різнотипні моделі мови – статичні й динам., дедуктивні й індуктивні, аналіт. (інтерпретац.) й синтетичні (генеративні, поро­джувальні) – закладають основу для розв’язання практич. зав­дань комп’ютер. опрацювання мовної інформації: автоматич. укладання словників, створення систем машин. перекладу, ін­­форм.-пошук., навч. та експерт. систем, корпусів мови, аналіза­­торів і синтезаторів усного мов­лення. Провід. напрямами сучас. К. л. є комп’ютерна лексикографія, корпусна лінгвістика, автоматич. аналіз тексту. З появою Інтернету формується новий напрям – мережна лінгвістика, або інтернет-лінгвістика.

В укр. мовознавстві перші праці в цій галузі з’явилися в серед. 1960-х рр. і були пов’язані з моделюванням штуч. інтелекту, вивченням статистич. закономірностей письмового й усно­го мовлення, створенням формал. граматик мови. Основи К. л. в Україні заклали відділи докум. інформ. систем на чолі з Е. Скоро­ходьком та розпізнавання й син­­тезу звук. образів під кер-вом Т. Вінцюка Ін-ту кібернетики АН УРСР, відділ структурно-матем. лінгвістики Ін-ту мовознавства АН УРСР (обидва – нині НАНУ) на чолі з В. Перебийніс, 1986–2004 його очолювала Н. Клименко (від 2011 – у складі Ін-ту укр. мови НАНУ, зав. – Є. Карпілов­ська; усі – Київ), каф. матем. лін­гвістики Київ. ун-ту під кер-вом Ф. Нікітіної (1985 реорганізов. у каф. матем. інформатики, яку очолив А. Анисимов), каф. заг. та приклад. мовознавства Хар­ків. ун-ту на чолі з В. Акуленком (нині зав. – І. Кравчук). Сьогодні в Україні над проблемами К. л. працюють також Укр. мовно-інформ. фонд НАНУ (Київ; дир. – В. Широков), лаб. комп’ю­тер. лінгвістики Київ. ун-ту (зав. – Н. Дарчук), Київ. лінгвіст. ун-ту (зав. – Т. Бобкова). У розвиток теор. бази укр. К. л. вагомий внесок зробили А. Білецький, В. Перебийніс, Е. Скороходько, Ф. Нікітіна, Н. Клименко, І. Севбо, М. Пещак, В. Войнов, І. Штерн, Л. Пшенична, М. Муравицька, Л. Орлова, Т. Грязнухіна. Укр. науковці розвивають також ідеї світ. К. л., втілені в працях С. Шау­­мяна, М. Андреєва, Ю. Апресяна, І. Ревзіна, І. Мельчука, Р. Піот­ровського, Г. Бєлоногова, Ю. Тул­дави, А. Шайкевича, О. Паду­чевої, В. Плунгяна, К. Рахіліної, Н. Хомського, З. Харриса, Ч. Хо­­ке­та, Ю. Найди, У. Френсіса. Проб­леми К. л. висвітлюють ж. «Українська мова», «Мово­знав­ство», зб. «Українське мовознав­ство», «Лінгвістичні студії» та «Лінгвокомп’ютерні дослідження». Укр. комп’ютерна лексикографія представлена знач. кіль­кістю електрон. версій традиц. (уклад. вручну) словників. Для вільного доступу в Інтернеті викладено бл. 300 укр. словників різних типів. На базі комп’ютер. версій традиц. словників створ. інтегров. словник. бази, що дають змогу користувачам одержувати різні відомості про слово, зокрема інтегров. лексикогр. система «Словники України», яку розробив і виклав в Інтернеті Укр. мовно-інформ. фонд НАНУ, містить електронні версії орфогр., орфоепіч., граматич. та фразеол. словників, а також словників синонімів та антонімів. Крім версій традиц. словників, є й автомат. словники, або слов­ники, уклад. комп’ютером. Саме такі праці в К. л. називають слов­никами нового покоління. Вони можуть становити самост. джерело інформації про мову, як, напр., частотно-валент. «Словник афіксальних морфем української мови», який уклали Н. Кли­менко, Є. Карпіловська, В. Карпіловський, Т. Недозим (електронну версію створ. 1991, опубл. 1998). Автомат. словники можуть входити також до складу лінгвіст. забезпечення різних комп’ютер. систем опрацювання інформації. Такими є словни­ки (орфогр., тезаурус, конкорданс, або словник сполучуваності слів) у складі системи ор­­фогр. конт­ролю укр. текстів «Ру­­та» та системи укр.-рос. й рос.-укр. машин. перекладу «Плай», що становлять укр. офіс операц. системи Windows фірми «Microsoft» (роз­­робники – Т. Грязнухіна, Л. Ор­­лова, В. Критська, Т. Пуздирева, Т. Недозим, Н. Дарчук, Л. Алексієнко, Г. Колєнов і В. Сорокін), або перекладні комп’ютерні слов­­ники в складі навч. комплексу «Глоса», який створив колектив лаб. комп’ютер. лінгвістики Київ. лінгвіст. ун-ту під кер-вом В. Перебийніс. В основу укр. офісу системи Windows покладено системи морфол., синтаксич. та логіко-семантич. аналізу укр. і рос. текстів, які впродовж 1980–90-х рр. створ. у відділі структурно-матем. лін­гвіс­тики Ін-ту мовознавства НАНУ. Нац. корпус мови як показове за обсягом зібрання текстів різ­них стилів і жанрів, придатне для опрацювання комп’ютер. технологіями, вже став поруч зі словником і граматикою надій. інструментом наук. дослідж. мови та розв’язання практич. завдань сусп-ва. На сьогодні корпуси показового обсягу (від 200 млн до понад 1 млрд слововживань) мають не лише такі провідні зх.-європ. мови, як англ., франц., нім., а й слов’ян. мови: рос., польс., словац., чеська. В Україні над створенням Укр. нац. лінгвіст. корпусу від кін. 1990-х рр. працює Укр. мовно-інформ. фонд, проте від­критого доступу до цього корпусу користувачі поки що не мають. В Інтернеті розміщено лише Корпус укр. мови (обсягом 13 млн слововживань), створ. у лаб. комп’ютер. лінгвістики Київ. ун-ту під кер-вом Н. Дарчук. Він охоплює тексти худож., наук. та публіцист. стилів. У цьому корпусі здійснено спец. лінгвіст. анотацію текстів (морфол., син­таксичну й семантичну) для виконання теор. і практич. дослідж. із К. л. та для потреб лін­гводидактики.

Літ.: Перебийніс В. С. Коли робот заговорить (Мовне спілкування людини з електронною машиною). К., 1972; Лексична семантика в системі «людина–машина». К., 1986; Компьютерная лингвистика // Новое в зарубеж. лингвистике. Москва, 1989. Вып. 24; Ис­­поль­­­­зование ЭВМ в лингвистических исследованиях. К., 1990; Морфологи­ческий анализ научного текста на ЭВМ. К., 1990; Анисимов А. В. Компьютер­ная лингвистика для всех: Мифы. Алго­рит­мы. Язык. К., 1991; Клименко Н. Ф., Русанівський В. М. Від універсальної бази лінгвістичних знань до комп’ю­тер­ного укладання словників // Мовознав­ство. 1996. № 4–5; Пещак М. М. На­­риси з комп’ютерної лінгвістики. Уж., 1999; Синтаксический анализ научного текста на ЭВМ. К., 1999; D. Cristal. Language and the Internet. Cambridge, 2001; Карпіловська Є. А. Вступ до ком­п’ютерної лінгвістики. Д., 2003; Пере­­бий­ніс В. І., Сорокін В. М. Традиційна та комп’ютерна лексикографія. К., 2009; Резникова Т. И. Славянская корпусная лингвистика: современное состояние ресурсов // Нац. корпус рус. язы­ка: Новые результаты и перспективы. С.-Петербург, 2009.

Є. А. Карпіловська

Стаття оновлена: 2014