Корпусная лінгвістыка (экзамен)КОРПУСНАЯ ЛІНГВІСТЫКА

Корпус як асаблівы лінгвістычны рэсурс. Структура корпуса.

Корпусная лінгвістыка – раздзел камп’ютарнай лінгвістыкі, які займаецца распрацоўкай агульных прынцыпаў будавання і выкарыстання лінгвістычных корпусаў (корпусаў тэкстаў) з выкарыстаннем камп’ютарных тэхналогій.

Сёння корпусную лінгвістыку разумеюць як адносна новы падыход да лінгвістыкі, які мае справу з вывучэннем мовы ў рэальным жыцці з дапамогай камп’ютараў.

Галоўная мэта корпуснай лінгвістыкі – лінгвістычнае апісанне моўнай сістэмы, а таксама адлюстраванне моўнага матэрыялу ў выглядзе корпуса тэкстаў, які ў сваю чаргу можа выкарыстоўвацца іншымі лінгвістычнымі дысцыплінамі.

Прадметам корпуснай лінгвістыкі з’яўляюцца тэарэтычныя асновы і практычныя механізмы стварэння і выкарыстання вялікіх масіваў моўных дадзеных, якія прадназначаны для лінгвістычных даследаванняў шырокага кола карыстальнікаў.

Аб’ектам даследавання з’яўляюцца корпусы тэкстаў, якія ўяўляюць сабой зыходны матэрыял для корпуснай лінгвістыкі.

Задачы корпуснай лінгвістыкі:

Стварэнне корпусаў і правядзенне лінгвістычных даследаванняў на іх базе.

Аб’ектыўнае лінгвістычнае апісанне моўнай сістэмы.

Пад назвай лінгвістычны, ці моўны, корпус тэкстаў разумеецца вялікі, прадстаўлены ў электронным выглядзе, уніфікаваны, структураваны, размечаны, філалагічна кампетэнтны масіў моўных дадзеных, які выкарыстоўваецца для рашэння канкрэтных лінгвістычных задач.

У наш час існуе вялікая колькасць азначэнняў паняцця “корпус”.

Корпус – гэта рэпрэзентатаўны збор тэкстаў, звычайна ў машынначытаемым фармаце, які ўключае інфармацыю аб сітуацыі, у якой тэкст быў створаны (такую, як інфармацыя аб аўтары, адрасаце або аўдыторыі).

Корпус – гэта вялікі, структураваны набор тэкстаў (звычайна ў электронным выглядзе), які выкарыстоўваецца для статыстычнага аналізу і праверкі гіпотэз, а таксама праверкі выпадкаў сустракаемасці або абаснавання моўных правіл па пэўным абласцям (Вікіпедыя).

Т. Макэнеры Э.Вільсан даюць наступнае азначэнне: корпус – гэта збор языкавых фрагментаў, атабраных у адпаведнасці з дакладнымі моўнымі крытэрыямі для выкарыстання ў якасці мадэлі мовы.

В.В.Рыкаў вызначае корпус тэкстаў як нейкі збор тэкстаў, у аснове якога ляжыць лагічная задума, лагічная ідэя, якая аб’ядноўвае гэтыя тэксты і ўвасобленая ў правілах арганізацыі тэкстаў у корпус, алгарытме і праграме аналіза корпуса тэкстаў.

У прыведзеных азначэннях падкрэсліваюцца асноўныя рысы сучанага корпуса тэкстаў – мэта (лагічная ідэя), машынначытаемы фармат, рэпрэзентаціўнасць як вынік асобай працэдуры адбору, наяўнасць металінгвістычнай інфармацыі. Стандартызаванае прадстаўленне слоўнага матэрыялу на машынным носьбіце дазвале прымяняць стандартныя праграмы яго апрацоўкі.

Структура корпуса

Тэрмін «корпус» звычайна абазначае збор тэкстаў канечнага фіксаванага памеру, які існуе ў электронным выглядзе.

У паняцце «корпус тэкстаў» таксама ўваходзіць сістэма кіравання тэкставымі і лінгвістычнымі дадзенымі, якую называюць корпусным менеджарам (ці корпус-менеджарам) (англ. corpus manager). Гэта спецыялізаваная пошукавая сістэма, у склад якой уваходзяць праграмныя сродкі для пошуку дадзеных у корпусе, атрымання статыстычнай інфармацыі і вынікаў для карыстальніка ў зручнай форме.

Корпусны менеджар – гэта своеасаблівая аперацыйная абалонка лінгвістычнага корпуса, якая ўяўляе сабой цэлы рад магчымасцей для даследавання мовы.

Пошук у корпусе дадзеных дазваляе па любым слове пабудаваць канкарданс – спіс усіх ужыванняў дадзенага слова ў кантэксце са спасылкамі на крыніцу.

Канкардансер – гэта спецыяльная праграма, якая дазваляе аналізаваць вялікія масівы тэкста на прадмет пошуку заканамернасцей выкарыстання слоў і выразаў у мове.

Канкандансер ажыццяўляе пошук зададзенага слова ў корпусе і выдае ў новым акне некалькі фрагментаў сказаў з розных тэкстаў, у якіх выкарыстоўваецца дадзенае слова ці выраз.

2.Корпусная лінгвістыка ў дынамічным аспекце

Першыя лінгвістычныя корпусы тэкстаў з’явіліся ў 60-я гады ХХ ст.

У 1963 г. у Браўнаўскім універсітэце (ЗША) упершыню быў створаны вялікі корпус тэкстаў на машынным носьбіце Браўнаўскі корпус (Brown Corpus). Аўтары корпуса У. Фрэнсіс (W. Francis) і Г. Кучэра (H. Kucera) спраектавалі яго як набор празаічных друкаваных тэкстаў амерыканскага варыянта англійскай мовы (усяго такіх тэкстаў 500, аб’ём кожнага 2000 слоў). Тэксты належалі да пятнаццаці найбольш масавых жанраў англамоўнай друкаванай прозы ЗША. Слова корпус было ў жыта ў значэнні ‘сукупнасць тэкстаў, якая можа лічыцца прадстаўнічай для дадзенай мовы, дыялекту ці іншага падмноства мовы, прызначаная для лінгвістычнага аналізу’.

Браўнаўскі корпус суправаджаўся не толькі пашыраным апісаннем, але і вялікай колькасцю матэрыялаў яго першаснай статыстычнай апрацоўкі – частотны і алфавітна-частотны слоўнік, разнастайныя статыстычныя дадзеныя.

Аўтары корпуса У.Фрэнсіс і Г.Кучэра ставілі за мэту прадставіць корпус тэкстаў, якія адпавядаюць ясным і выразным крытэрыям адбору:

1. Паходжанне і склад тэксту (аўтар павінен быць народжаным носьбітам амерыканскага варыянта англійскай мовы, дыялог павінен займаць менш за палову аб’ёма тэксту);

2. Сінхранізацыя (уключаны тэксты ўпершыню выдадзеныя ў 1961 годзе);

3. Прадуманыя суадносіны колькаснай прадстаўленасці розных жанраў і адбор асобных тэкстаў;

4. Даступнасць для камп’ютарнай апрацоўкі.

Мэта стварэння Браўнаўскага корпуса – забяспечыць сістэмнае вывучэнне асобных жанраў пісьмовай англійскай мовы. З’яўленне Браўнаўскага корпуса выклікала агульную зацікаўленасць і гарачыя дыскусіі. Перш за ўсё яны закранулі прынцыпы адбору тэкстаў і шэраг задач, якія патэнцыяльна вырашаюцца з дапамогай такога корпуса.

Неўзабаве з’явіўся брытанскі аналаг Браўнаўскага корпуса Ланкастэрскі корпус (Ланкастэрска-Осла-Бергенскі) англійскай мовы (Lancaster-Oslo-Bergen Corpus, LOB), названы, як і Браўнаўскі, паводле месца яго стварэння. Корпус уключаў 1 млн. слоў брытанскага варыянта англійскай мовы (500 тэкстаў па 2000 слоў). Яго складальнікі амаль дакладна прытрымліваліся прынцыпаў, на якіх грунтаваўся Браўнаўскі корпус.

Браўнаўскі і Ланкастэрскі – гэта два самыя раннія вялікія корпусы амерыканскага і брытанскага варыянтаў англійскай мовы, якімі карыстаюцца і зараз шматлікія даследчыкі англійскай мовы.

У першай палове 90-х гадоў ХХ ст. корпусная лінгвістыка канчаткова сфарміравалася як асобны накірунак навукі аб мове.

Сярод сучасных корпусаў англійскай мовы найбольш вядомы Брытанскі нацыянальны корпус (British National Corpus, BNC, адрас: www.sara.natcorp.ox.ac.uk), які з’яўляецца ўзорам нацыянальнага моўнага корпуса. Агульны аб’ём корпуса 100 млн словаўжыванняў. Ён складаецца з падкорпуса пісьмовай англійскай мовы і падкорпуса размоўнай англійскай мовы. Корпус складаецца толькі са слоў сучаснай англійскай мовы, таму адлюстроўвае стан англійскай мовы (яе брытанскага варыянта) 2-ой паловы XX ст. Распрацаваны ён быў у Оксфардскім універсітэце пры ўдзеле Ланкастэрскага ўніверсітэта і Брытанскай бібліятэкі. Праца над стварэннем корпуса працягвалася з 1991 па 1994 год.

Падкорпус, які прадстаўляе пісьмовую англійскую мову, складае 90 % усяго корпуса і ўключае ў сябе газеты, часопісы, перыядычныя навуковыя выданні для розных узростаў, папулярную навуковую фантастыку, мастацкую літаратуру, школьныя сачыненні і інш. Тэксты, прадстаўленыя тут адбіраліся па трох асноўных крытэрыях: час напісання, галіна, якую гэты тэкст апісвае і тып выдання. Па часе ўсе тэксты належаць прыкладна да аднаго перыяду, пачынаючы з 1975 года. 75 % тэкстаў былі ўзяты з інфармацыйных выданняў (навука, мастацтва, фінансы, сацыялогія, камерцыя і інш.). 25 % тэкстаў належыць да галіны забаўляльнай літаратуры.

Падкорпус вуснай мовы складае 10 % ўсяго корпуса і ўключае ў сябе маўленне людзей розных узростаў, якія дабравольна згадзіліся ўдзельнічаць у праекце (усяго было задзейнічана 124 дабравольцы, якія насілі з сабой дыктафоны, на якія запісвалася іх размовы). Яны пражываюць у розных рэгіёнах Велікабрытаніі і належаць да розных сацыяльных класаў. Дабравольцы былі атабраны так, што сярод іх была прыкладна роўная колькасць мужчын і жанчын розных узроставых і сацыяльных груп. Магнітныя запісы былі апрацаваны, а тэксты запісаны звычайнай англійскай арфаграфіяй. Гэтыя тэксты зараз выкарыстоўваюцца як аснова вывучэння характару вуснага маўлення.

Апошняя на сённяшні дзень рэдакцыя Брытанскага нацыянальнага корпуса выйшла ў свет у 2007 г. 90% тэкставай базы корпуса складаюць узоры літаратурнай пісьмовай мовы, 10% – транскрыпты гутарковага маўлення.

Сярод мноства праектаў амерыканскіх корпусаў адзіным праектам з адкрытым доступам да базы дадзеных з’яўляецца Корпус сучаснай амерыканскай англійскай мовы (Corpus of Contemporary American English, COCA, адрес: www.americancorpus.org), агульны аб’ём якога 410 млн словаўжыванняў са 160 тыс. тэкстаў. Стваральнікам корпуса з’яўляецца Марк Дэйвіс (Mark Davies), прафесар корпуснай лінгвістыкі Універсітэта Брыгама Янга. Апошняе абнаўленне корпуса праводзілася летам 2010 г. 85 млн. токенаў складаюць транскрыпты вуснага маўлення, узятыя з электронных мас-медыа; 81 млн. – мастацкая літаратура; 86 млн. – папулярныя часопісы; 81 млн. – газеты і 81 млн. – акадэмічныя выданні.

Адным з найбольш вядомых корпусаў славянскіх моў з’яўляецца Чэшскі нацыянальны корпус (ЧНК). Гэта сінхранічны марфалагічна размечаны корпус сучаснай чэшскай мовы. Стварэннем корпуса займаецца Інстытут Чэшскай нацыянальнай мовы пад кіраўніцтвам прафесара М. Чэрмака. Інстытут быў створаны на базе філасофскага факультэта Карлава ўніверсітэта ў Празе ў 1994 годзе. Масіў тэкстаў на чэшскай мове, назапашаны ў корпусе, дзеліцца на сінхранічную і дыяхранічную часткі. Сінхранічная частка ў сваю чаргу складаецца з пісьмовых тэкстаў (больш за 100 млн. словаўжыванняў), размоўных тэкстаў (750 тыс. словаўжыванняў) і дыялектная мова. Аб’ём дыяхранічнай часткі – 1750 словаўжыванняў. Наяўнасць сінхранічнага і дыяхранічнага корпуса дазваляе прасачыць змяненне семантыкі слова. Акрамя таго, як асобны фонд ствараецца Пражскі размоўны корпус.

Пры фарміраванні ЧНК вялікая ўвага ўдзялялася пытанню рэпрэзентатыўнасці корпуса. Было прынята рашэнне, што асноўную частку корпуса складуць тэксты 1990-2000 гадоў з дадатковай рэтраспектывай, уяўляючай сабой творы чэшскай літаратуры да 1950 года. Жанравая і тэматычная структура корпуса выглядае наступным чынам: 85 % складаюць інфармацыйныя тэксты, з іх 60 % публіцыстычныя і 25 % навуковыя. І толькі 15 % складаюць мастацкія тэксты.

У Германіі з’яўленне Браўнаўскага корпуса дало штуршок распрацоўцы LIMAS-корпуса, які складаецца з 500 падкорпусаў па 2000 словаўжыванняў кожны. У аснову жанравай класіфікацыі LIMAS-корпуса пакладзена іэматычная класіфікацыя прадметных галін (усяго іх 33), найбольш значныя: рэлігія, культура, палітыка, эканоміка, літаратура, мастацтва і інш. LIMAS-корпус лічыцца самым прадстаўнічым для сучаснай нямецкай мовы.

Самай поўнай крыніцай для вывучэння рускай мовы сёння з’яўляецца Нацыянальны корпус рускай мовы (адрас: www.ruscorpora.ru) – 500 млн словаўжыванняў. Ён размешчаны ў сетцы Інтэрнэт з 2004 года і разлічаны на тых, хто займаецца лінгвістычнымі даследаваннямі, вывучае або выкладае рускую мову. Непасрэдная праца па стварэнню гэтага корпуса пачалася ў 2000 годзе, а ў красавіку 2004 года ён быў размешчаны ў інтэрнэце.

Тыпалогія лінгвістычных корпусаў

Нягледзячы на разнастайнасць корпусаў тэкстаў, можна выдзеліць два асноўныя спосабы дзялення іх на класы:

1) гэта супрацьпастаўленне корпусаў, якія адносяцца да ўсёй мовы (часта да мовы пэўнага перыяда), корпусам, якія адносяцца да якой-небудзь падмовы (жанр, стыль, мова пэўнай узроставай ці сацыяльнай групы, мова пісьменніка ці вучонага і да т.п.);

2) падзел корпусаў па тыпу лінгвістычнай разметкі. Нягледзячы на наяўнасць розных тыпаў разметкі, большасць рэальна існуючых корпусаў адносяцца да корпусаў марфалагічнага або сінтаксічнага тыпу (апошнія ў англамоўнай літаратуры называюць treebanks, што можна перакласці як «банкі сінтаксічных структур»). Пры гэтым трэба адзначыць, што корпус з сінтаксічнай разметкай наяўна ці не ўключае ў сябе і марфалагічныя характарыстыкі лексічных адзінак.

Увогуле існуе вялікая колькасць розных тыпаў корпусаў. Іх разнастайнасць абумоўлена шматаспектнасцю даследчых і прыкладных задач, для рашэння якіх яны ствараюцца, і рознымі крытэрыямі класіфікацыі. У залежнасці ад пастаўленых мэт і класіфікацыйных прыкмет, можна вызначыць розныя тыпы корпусаў (гл. табліцу).

Класіфікацыя корпусаў

Прыкмета

Тыпы корпусаў

Тып моўных дадзеных

Пісьмовыя

Вусныя

Змешаныя

Мова тэкстаў

Англійская

Руская

Чэшская і г.д.

«Паралельнасць»

Аднамоўныя

Двухмоўныя

Шматмоўныя

«Літаратурнасць»,

спецыфічнасць

Літаратурныя

Дыялектныя

Размоўныя

Тэрміналагічныя

Змешаныя

Мэта стварэння

Шматмэтавыя

спецыялізаваныя

Жанр

Мастацкія

Фальклорныя

Драматычныя

Публіцыстычныя

Даступнасць

Свабодна даступныя

Камерцыйныя

Закрытыя

Прызначэнне

Даследчыя

Ілюстрацыйныя

Дынамічнасць

Дынамічныя (маніторныя)

Статычныя

Разметка

Размечаныя

Неразмечаныя

Характар

разметкі

Марфалагічныя

Сінтаксічныя

Семантычныя

Прасадычныя і да т.д.

Аб’ём тэкстаў

Поўнатэкставыя

«Фрагментнатэкставыя»

Храналагічны аспект

Сінхранічныя

Дыяхранічныя

«Супольнасць»

Агульныя

Аднаго пісьменніка

Структура

Цэнтральныя і архіўныя

Ядзерныя і перыферыйныя

Па тыпу моўных дадзеных корпусы дзеляцца на пісьмовыя, вусныя і змешаныя. У пісьмовых корпусах вусная мова не прадстаўлена (напрыклад, Браўнаўскі корпус), у вусных корпусах прадстаўлена толькі вуснае маўленне, змешанымі звычайна з’яўляюцца нацыянальныя корпусы, якія прадстаўляюць мову ў пэўны перыяд часу (НКРЯ, BNC).

Па крытэрыю мова тэкстаў корпусы дзеляцца на англійскія, чэшскія, рускія, беларускія і г.д.

Па крытэрыю паралельнасці корпусы дзеляцца на аднамоўныя, двухмоўныя і шматмоўныя. У аднамоўных корпусах супастаўляюцца дыялекты, варыянты адной мовы. Напрыклад, такія разнавіднасці англійскай мовы, як брытанскі і амерыканскі варыянт. Двухмоўныя і шматмоўныя корпусы аб’ядноўваюць тэксты з адной і той жа тэматычнай галіны, напісаныя на адной або некалькі мовах. Такія корпусы дапамагаюць у працы з тэрміналогіяй і часта выкарыстоўваюцца перакладчыкамі. Двухмоўныя або шматмоўныя корпусы могуць уяўляць сабой вялікую колькасць тэкстаў-арыгіналаў і тэкстаў-перакладаў гэтых зыходных тэкстаў. Такі корпус уяўляе сабой карысны матэрыял для правядзення параўнальна-супастаўляльных даследаванняў.

Па крытэрыю літаратурнасці (спецыфічнасці) выдзяляюцца літаратурныя, дыялектныя, размоўныя, тэрміналагічныя і змешаныя корпусы.

Прыкладам размоўнага корпуса можа служыць корпус Один Речевой День, які распрацоўваецца ў Санкт-Пецярбурзе. Прыкладам тэрміналагічнага корпуса можа быць корпус тэкстаў па корпуснай лінгвістыцы, на базе якога распрацоўваецца тэрміналагічны слоўнік непасрэдна на жывым тэкставым матэрыяле.

Па мэце стварэння корпусы дзеляцца на шматмэтавыя і спецыялізаваныя. Шматмэтавыя корпусы уключаюць тэксты розных жанраў, (напрыклад, нацыянальныя корпусы), а спецыялізаваныя могуць абмяжоўвацца адным жанрам ці групай жанраў.

Корпусы тэкстаў класіфікуюцца таксама па жанрам і падзяляюцца на літаратурныя, фальклорныя, публіцыстычныя і інш. Прыкладам публіцыстычнага корпуса можа служыць Камп’ютарны корпус рускіх газет канца ХХ ст.

Важным крытэрыям для карыстальніка корпуса з’яўляецца яго даступнасць. Адпаведна выдзяляюць свабоднадаступныя, закрытыя і камерцыйныя корпусы. Свабоднадаступныя корпусы дазваляюць у любы час у рэжыме on-line мець доступ да ўсіх тэкстаў корпуса ў поўным аб’ёме. У некаторых выпадках свабодны доступ можа прадстаўляцца толькі да часткі корпусных дадзеных. У рабоце з камерцыйнымі корпусамі трэба купляць права іх выкарыстання on-line або копію на кампакт-дыску. Перад гэтым можна азнаёміцца з анатацыяй да корпуса, папрацаваць з корпусам у пробным рэжыме, але, як правіла, не з усімі тэкстамі, а толькі з невялікім па аб’ёме падкорпусам. Закрытыя корпусы ствараюцца для вузка спецыфічных мэт і не прызначаны для публічнага выкарыстання.

Па прызначэнню выдзяляюць даследчыя і ілюстрацыйныя корпусы. Даследчыя корпусы ствараюцца з мэтай вывучэння розных аспектаў функцыянавання мовы. Гэты тып корпусаў арыентаваны на шырокі клас лінгвістычных задач. Ілюстрацыйныя корпусы ствараюцца пасля правядзення навуковага даследавання: іх мэта не столькі выявіць новыя факты, колькі пацвердзіць і абгрунтаваць ужо атрыманыя вынікі. Яны служаць для выдзялення з іх лінгвістычных прыкладаў. Якія пацвярджаюць тыя або іншыя моўныя факты.

Крытэрый дынамічнасць падраздзяляе корпусы на дынамічныя і статычныя. Першапачаткова корпусы тэкстаў ствараліся як статычныя. Яны адлюстроўвалі пэўны часавы стан моўнай сістэмы. Статычныя корпусы ўтрымліваюць тэксты нейкага невялікага часавага прамежку. Тыповымі прадстаўнікамі гэтага віду корпусаў з’яўляюцца аўтарскія корпусы – збор тэкстаў пісьменнікаў. Але значная колькасць чыста лінгвістычных і не толькі лінгвістычных задач патрабуе выяўлення моўных феноменаў на часавай шкале. Напрыклад, змены значэння слоў, частаты выкарыстання тых або іншых канструкцый. Для гэтага патрэбны дынамічныя корпусы тэкстаў. Дынамічныя корпусы называюць таксама маніторнымі ці маніторынгавымі. Іх асноўная мэта – збіраць (складзіраваць) тэксты ў памяці камп’ютара. Гэта значыць, што праз пэўны прамежак часу павінна ажыццяўляцца абнаўленне або дапаўненне корпуса тэкстаў. Корпусы, якія пастаянна папаўняюцца, дазваляюць лексікографам сачыць за новымі словамі, якія з’яўляюцца ў мове, або за ўжо існуючымі словамі, якія мяняюць сваё значэнне. Дынамічныя корпусы тэкстаў выкарыстоўваюцца для правядзення розных дыяхранічных даследаванняў.

Па крытэрыю разметка корпусы дзеляцца на размечаныя і неразмечаныя. У размечаным корпусе словам або сказам прысвайваюцца меткі або тэгі ў залежнасці ад характару разметкі корпусы падзяляюцца на марфалагічныя, сінтаксічныя, семантычныя, прасадычныя і інш.

Па крытэрыю аб’ём тэкстаў выдзяляюць поўнатэкставыя і фрагментнатэкставыя корпусы. Напрыклад, Браўнаўскі і Ланкастэрскі корпусы павінны былі дакладна адпавядаць пэўным крытэрыям, адным з якіх была даўжыня тэкста, роўная 2000 слоў. Але не ўсе тэксты могуць дакладна адпавядаць такім крытэрыям. Значыць, гэтыя корпусы з’яўляюцца фрагментатэкставымі. Да поўнатэкставых адносяцца некаторыя корпусы тэкстаў пэўнага аўтара.

Паводле храналагічнага крытэрыя корпусы дзеляцца на сінхранічныя і дыяхранічныя. Сінхранічныя адлюстроўваюць мову на пэўным этапе развіцця, дыяхранічныя – у розныя перыяды.

Разметка як навуковая дзейнасць. Віды разметкі.

Сярод спецыяльных праграм для апрацоўкі мовы асаблівае месца займаюць праграмы аўтаматычнай разметкі. Разметка корпусаў уяўляе сабой трудаёмкую аперацыю, асабліва ўлічваючы вялікія памеры сучасных корпусаў тэкстаў. Для некаторых відаў разметкі існуюць розныя праграмы, але ёсць і такія віды разметкі, дзе асноўная частка працы праводзіцца ўручную.

Для рашэння розных лінгвістычных задач аднаго масіву тэкстаў мала. Неабходна, каб тэксты змяшчалі рознага роду дадатковую лінгвістычную і экстралінгвістычную інфармацыю. Так у корпуснай лінгвістыцы ўзнікла ідэя размечанага корпуса.

Разметка (tagging, annotation) заключаецца ў прыпісванні тэкстам і іх кампанентам спецыяльных метак (тэгаў). Тэгі дзеляцца на ўласна лінгвістычныя, якія апісваюць лексічныя, граматычныя і іншыя характарыстыкі элементаў тэксту, а таксама знешнія, экстралінгвістычныя (звесткі аб аўтары і звесткі аб тэксце). Адпаведна выдзяляюць два асноўныя тыпы разметкі: экстралінгвістычную і лінгвістычную.

Экстралінгвістычная разметка (метаразметка) – гэта інфармацыя, якая прыпісана ў корпусе кожнаму ўключанаму тэксту. Метаразметка ўтрымлівае інфармацыю аб аўтары тэксту (яна можа ўключаць не толькі яго імя, але такама ўзрост, пол, гады жыцця), а таксама назве тэксту, году і месцы выдання, жанру, тэматыцы і інш. Прыведзеная інфармацыя называецца яшчэ “інтэлектуальнай” разметкай. Акрамя таго метаразметка ўключае фармальную або структурную разметку – гэта раздзел, глава, частка, абзац, сказ (структурныя адзінкі тэксту), а таксама тэхніка-тэхналагічную разметку – кадзіроўка, дата апрацоўкі, выканаўцы, крыніцы электроннай версіі.

Тыпы лінгвістычнай разметкі

Сярод лінгвістычных тыпаў разметкі выдзяляюцца:

Марфалагічная разметка.

Сінтаксічная разметка.

Семантычная.

Анафарычная.

Прасадычная.

Марфалагічная або часцінамоўная разметка

Марфалагічная разметка ўключае не толькі прыкмету часціны мовы, але і прыкметы граматычных катэгорый, уласцівых гэтай часціне мовы. Гэта асноўны тып разметкі: па-першае, большасць вялікіх корпусаў з’яўляюцца марфалагічна размечанымі корпусамі, па-другое, марфалагічны аналіз разглядаецца як аснова для далейшых форм аналізу – сінтаксічнага і семантычнага, па-трэцяе, поспехі ў камп’ютарнай марфалогіі дазваляюць аўтаматычна размячаць корпусы вялікіх памераў.

Элементы дадзеных марфалагічнай разметкі ўключаюць:

лему (слоўнікавую форму)

прыкметы часціны мовы

прыкметы граматычных катэгорый

У выніку работы праграм аўтаматычнага марфалагічнага аналізу кожнай лексічнай адзінцы прыпісваюцца граматычныя характарыстыкі, у якія ўваходзяць часціна мовы, лема (слоўнікавая форма) і набор грамем (напрыклад, род, лік, склон, адушаўлёнасць /неадушаўлёнасць, пераходнасць і да т.п.).

Марфалагічны стандарт нацыянальнага корпуса рускай мовы

Марфалагічная інфармацыя, якая прыпісваецца адвольнаму слову ў тэксце складаецца з 4 памет:

Лексема, якой належыць словаформа (ўказваецца слоўнікавы запіс дадзенай лексемы і яе прыналежнасць да пэўнай часціны мовы).

Граматычныя прыкметы дадзенай часціны мовы або класіфікацыйныя характарыстыкі (напрыклад, род для наз., пераходнасць для дзеяслова).

Граматычныя прыкметы дадзенай словаформы (напрыклад, склон для наз., лік для дзеяслова).

Інфармацыя аб нестандартных граматычных формах.

Прыклад марфалагічнай разметкі

Звониликвечерне .

>Торжественныйгулколоколов …………………….. .

Сінтаксічная разметка з’яўляецца вынікам сінтаксічнага аналізу, ці парсінга (англ. parsing), які выконваецца на аснове марфалагічнага аналізу. Гэты від разметкі апісвае сінтаксічныя сувязі паміж лексічнымі адзінкамі і разнастайнымі сінтаксічнымі канструкцыямі (напрыклад, даданы сказ, дзеяслоўнае словазлучэнне і да т.п.). У выніку работы праграм аўтаматычнага сінтаксічнага аналізу фіксуюцца сінтаксічныя сувязі паміж словамі і словазлучэннямі, а сінтаксічным адзінкам прыпісваюцца суадносныя характарыстыкі (тып сказа, сінтаксічная функцыя і да т.п.).

Сінтаксічная разметка ўключае:

фіксацыю сінтаксічных сувязей

прыпісванне сінтаксічным адзінкам адпаведных характарыстык (тып сказа, сінтаксічная функцыя, член сказа і інш.).

Парсінг (сінтаксічны аналіз) – гэта працэс супастаўлення лінейнай паслядоўнасці лексем (слоў, токенаў) мовы з із фармальнай граматыкай. Вынікам з’яўляецца “дерево зависимости” або сінтаксічнае дрэва.

Семантычная разметка абазначае семантычныя катэгорыі, да якіх адносіцца дадзенае слова ці словазлучэнне, і больш вузкія падкатэгорыі, якія вызначаюць спецыфіку яго значэння. Напрыклад, у назоўнікаў маюцца класы: “Расліны”, “Жывёлы”, у прыметнікаў “Якасці чалавека”, “Памер”, “Колер”.

Семантычная разметка ўключае:

значэнне слоў;

катэгарызацыю слоў (разрады);

тэматычныя класы;

разрашэнне аманіміі і сінаніміі;

дэрывацыйныя характарыстыкі.

Семантычная разметка ў НКРЯ уключае 3 групы памет:

разрад (напрыклад, агульны, уласны для наз, зваротны, указальны для займ.)

лексіка-семантычныя характарыстыкі (тэматычныя класы лексем)

Дэрывацыйныя характарыстыкі (словаўтваральныя).

Анафарычная разметка фіксуе рэферэнцкія сувязі, напрыклад, займеннікавыя;

Прасадычная разметка. У прасадычных корпусах выкарыстоўваюць меткі, якія апісваюць націск і інтанацыю. У корпусах вуснага размоўнага маўлення прасадычная разметка часта суправаджаецца так званай дыскурснай разметкой, якая служыць для абазначэння паўз, паўтораў, агаворак, і г.д.

Існуюць і іншыя тыпы разметкі.

5.Спецыяльныя віды корпусаў тэкстаў

Спецыяльныя корпусы тэкстаў – гэта сбалансаваныя, звычайна невялікія па памеры (некалькі тысяч словаўжыванняў), падпарадкаваныя пэўнай даследчай задачы корпусы тэкстаў, якія прызначаны для выкарыстання пераважна ў мэтах, што адпавядаюць задуме іх складальніка.

Да спецыяльных відаў корпусаў адносяцца паралельныя корпусы, корпусы вуснага маўлення, гістарычныя і корпусы тых, хто навучаецца.

Асаблівым тыпам корпуса з’яўляецца паралельны корпус, у якім тэксту на адной мове супастаўлены яго пераклад на другой мове

Паралельныя корпусы можна падзяліць на 2 асноўныя тыпы:

Корпусы, якія прадстаўляюць вялікую колькасць тэкстаў-арыгіналаў, напісаных на якой-небудзь зыходнай мове, і тэкстаў-перакладаў гэтых зыходных тэкстаў на адну або некалькі іншых моў.

Корпусы, якія аб’ядноўваюць тэксты з адной і той жа тэматычнай галіны, напісаныя на дзвюх або некалькіх мовах.

І тыя, і другія корпусы ствараюцца і выкарыстоўваюцца для параўнальных даследаванняў моў у галіне лексікалогіі, граматыкі, стылістыкі і г.д., а таксама ў мэтах распрацоўкі эфектыўных метадаў перакладу, у тым ліку і машыннага.

Паралельныя корпусы тэкстаў дазваляюць атрымаць даволі вялікі аб’ём інфармацыі. З іх дапамогай можна:

Ствараць двухмоўныя і шматмоўныя перакладныя слоўнікі.

Ствараць і папаўняць слоўнікі машыннага перакладу.

Здымаць полісемію лексічных адзінак.

Перакладаць тэрміналагічныя і фразеалагічныя адзінкі тэкста.

Поўнасцю ажыццяўляць машынны пераклад у рамках новых сістэм машыннага перакладу, якія называюцца сістэмамі з перакладчыцкай памяццю.

У працэсе перакладу такая сістэма імкнецца адшукаць сказ, які перакладаецца, або яго фрагмент у масіве зыходных паралельных тэкстаў.

Паміж адзінкамі арыгінальнага і перакладнога тэкстаў з дапамогай спецыяльнай працэдуры ўстанаўліваецца адпаведнасць. Гэтая працэдура называецца выраўніваннем. А тэксты адпаведна выраўненымі.

Паралельны корпус ёсць у Нацыянальным корпусе рускай мовы. Тут прадстаўлены англа-рускі, руска-англ., нямецка-рус, рус.-ням., французска-рус., рус.-франц., іспанска-рус., рус.-ісп., бел.-рус, рус.-бел, польска-рус., руска-польскі, укр.-рус., рус.-укр., італьянска-рус., рус.-іт. і шматмоўны падкорпусы.

У Мінскім дзяржаўным лінгвістычным універсітэце створаны невялікія па аб’ёму паралельныя корпусы тэкстаў: руска-бел, англа-бел. і нямецка-бел.

Корпус вуснага маўлення гэта корпус, створаны на аснове расшыфроўкі магнітафонных запісаў публічнага і асабістага маўлення.

Адным з першых корпусаў вуснага маўлення быў Лонданска-Лундскі корпус, які быў распрацаваны ў рамках праекта “Агляд ужывання англійскай мовы”. Мэта гэтага праекта заключалася ў тым, каб па магчымасці зафіксаваць асаблівасці граматычнай сістэмы англійскай мовы ў маўленні дарослага адукаванага носьбіта. Праект пачаў распрацоўвацца з 1960 года пад кіраўніцтвам Р.Квірка ў Лонданскім універсітэцкім каледжы. Аб’ём корпуса складаў 1 млн. словаўжыванняў. Тэксты вуснай мовы былі прадстаўлены запісамі радыёперадач, паседжанняў афіцыйных структур, а таксама нефармальных гутарак. Машынны варыянт корпуса ствараўся ў Лундскім універсітэце (Швецыя) і быў гатовы да выкарыстання ў 1979 годзе. Менавіта корпус вуснай мовы Лондан-Лунд быў адным з першых машынначытаемых корпусаў. Ён складаўся з 34 тэкстаў, што прадстаўлялі тайна запісаныя размовы, якія былі апублікаваны таксама ў кнізе Дж. Свартвіка і Р.Квірка “Корпус англійскай размовы” (1980). Гэтая кніга была шырока вядомая і карысная ў той час, калі камп’ютарныя корпусы не былі шырока распаўсюджаны. Лонданска-Лундскі корпус доўгі час заставаўся асноўнай крыніцай для камп’ютарнага даследавання размоўнай англійскай мовы. На падставе корпуса была падрыхтавана і выпушчана ў 1985 годзе поўная граматыка англійскай мовы.

Падкорпус вуснага маўлення існуе таксама ў Брытанскім нацыянальным корпусе. Але ён складае ўсяго 10 % усяго корпуса і ўключае ў сябе маўленне людзей розных узростаў, якія дабравольна згадзіліся ўдзельнічаць у праекце.

У складзе Нацыянальнага корпуса рускай мовы таксама ёсць падкорпус вуснага маўлення, які ўключае магнітафонныя запісы публічнага і асабістага маўлення. Ён падзяляецца на наступныя тыпы: публічнае маўленне (64,3 %), непублічнае маўленне (8,1 %) і мова кіно (27,6 %).

У якасці яшчэ аднаго прыклада корпуса вуснага маўлення можна разгледзець гукавы корпус, створаны ў інстытуце філалагічных даследаванняў факультэта філалогіі і мастацтва Санкт-Пецярбургскага дзяржаўнага ўніверсітэта – Один Речевой день. Гэта гукавы корпус сучаснай рускай мовы паўсядзённых зносін. Корпус ствараецца з мэтай вывучэння рэальнага жывога маўлення носьбітаў мовы ў натуральных умовах камунікацыі. І ў гэтым яго адрозненне ад іншых корпусаў вуснага маўлення, запісаных у лабараторыях і другіх спецыяльных умовах. Першая серыя гуказапісаў пачалася ў 2007 годзе. Для гэтага была атабрана група інфармантаў з 30 чалавек, якія прадстаўлялі розныя сацыяльныя і ўзроставыя катэгорыі насельніцтва Санкт-Пецярбурга. Інфарманты на працягу сутак запісвалі ўсе свае моўныя кантакты (з калегамі, сябрамі, знаёмымі і незнаёмымі людзьмі). Затым гэтыя запісы былі апрацаваны спецыялістамі. Так, аналіз лексікі паказаў, што самае часта ўжываемае слова – займеннік я, затым ідуць словы нет, вот, ну, да. Часта ўжываюцца такія формы і канструкцыі, як блин, типа, челюсть отвисла, крышняк едет, дать на лапу; лоховоз.

Гукавы корпус дазваляе вывучаць жывое паўсядзённае маўленне носьбітаў мовы ў розных камунікатыўных сітуацыях і на ўсіх лінгвістычных узроўнях. Па меры збору інфармацыя перадаецца ў вусны падкорпус НКРМ.Страницы: 1 | 2 | Весь текст
sitemap
sitemap