Новый выпуск

2023, №: 3

Подробнее

Известия ВУЗов Кыргызстана

Cтатья
Авторы
  1. Касиева А.А., Кадырбекова А.К.
  2. Касиева А.А., Кадырбекова А.К.
  3. A. Kasieva, A. Kadyrbekova
Название
  1. СНЯТИЕ НЕОДНОЗНАЧНОСТИ СМЫСЛА ГЛАГОЛОВ В КЫРГЫЗСКОМ ЯЗЫКЕ (на основе новосозданного кыргызского корпуса)
  2. КЫРГЫЗ ТИЛИНДЕГИ ЭТИШТЕРДИН КОШ МААНИЛҮҮЛҮГҮН ЖОЮУ (жаӊы түзүлгөн кыргыз тилинин корпусунун негизинде)
  3. VERB SENSE DISAMBIGUATION IN THE KYRGYZ LANGUAGE (on the basis of Newly-Created Kyrgyz Corpus)
Аннотация
  1. Целью разотождествления смысла слова (WSD) является правильная идентификация значения слова в контексте. Во всех естественных языках присутствуют неоднозначные значения слов, которые часто трудно разрешить автоматически. Поэтому WSD считается важной проблемой в обработке естественного языка (NLP). В данной статье рассматриваются вопросы корпусно-ориентированного исследования наиболее частотных типов неоднозначности глаголов (VSDVerb Sense Disambiguation) в кыргызском языке и возможности автоматизации процесса диcамбигуации в корпусе. Чтобы не отставать от растущего потока информации, необходимо использовать прогрессивную фильтрацию и передовые методы обработки исходных данных. В результате одним из таких важнейших этапов является устранение вхождений слов с неясными и неоднозначными значениями - также известный как процесс разграничения смысла слов (WSD). В данной работе мы предлагаем подходы к WSD, которые в нашем случае ограничены глаголами (VSD-Verb Sense Disambiguation) в кыргызском языке, который выступает в качестве одного из примеров для теоретической базы системы NLP. Единственным предварительным условием в этом отношении является наличие корпуса с частеречной разметкой. Соответственно, для оценки вышеупомянутой проблемы и ее методов был использован новосозданный корпус кыргызского языка.
  2. Сүйлөмдө колдонулган сөздүн контексттик мааниси тилдеги өндүрүлгөн продукциянын тактыгын жана маанилүүлүгүн аныктайт. Сөздөрдүн кош маанилүүлүгү маселеси ошол сөздөрдүн маанисин чечмелөө же жоюу аркылуу чечилет. Бул макала кыргыз корпусундагы этиштердин кош маанилүүлүгүн VSD-Verb Sense Disambiguation процесси аркылуу жоюу маселесин аркалайт жана аны автоматташтыруу мүмкүнчүлүктөрүн изилдейт. Күндөн-күнгө токтоосуз өсүп жаткан маалымат агымын жетиштүү түрдө иштетүү үчүн чийки маалыматтарды өркүндөтүлгөн ыкмалардан өткөрүп, аларды чыпкалоочу мыкты каражаттардын колдонулушун талап кылат. Демек ушул багыттан алып карасак, түшүнүксүз болгон кош маанилүү сөздөрдүн анык маанисин илгеп чыгарып, алардын кош маанилүүлүгүн жоюу Word Sense Disambiguation (WSD) процесси деп аталат. Бул процесс табигый тилди иштетүүдө маанилүү кадамдардын бири жана ал семантика тармагына караштуу болгону менен бирге, морфология жана синтаксиске да негизделет. Бул эмгекте, табигый тилди иштетүүдөгү (ТТИ) жалпы сөздөрдүн ичинен этиштин кош маанилүүлүгүн жоюу (VSD-Verb Sense Disambiguation) процессинин жүргүзүлүшүн көрсөтүп берүүгө далалат кылабыз. Буларды аткаруу үчүн бизде бир гана шарт болушу керек. Ал – тилдик корпус жана андагы сөздөрдүн сөз түркүмү боюнча энтектелиши. Демек, жогоруда айтылган маселелерди чечүүдө колдонулган ыкмаларга илимий баа берүү үчүн жаңы түзүлгөн кыргыз корпусундагы маалымат колдонулду.
  3. This article considers the issues of corpus-oriented study of the most frequent types of ambiguity of verbs (VSD – Verb Sense Disambiguation) in the Kyrgyz language and the possibilities for automation of the disambiguation process in the corpus. Progressive filtering and advanced raw data processing techniques must be used to keep up with the growing information flow. As a result, eliminating word occurrences with unclear-ambiguous meanings – also known as the Word Sense Disambiguation (WSD) process – is one of these crucial steps. In this work, we offer WSD approaches, that are, in our case, restricted to verbs (VSD – Verb Sense Disambiguation) in the Kyrgyz language, acting as one of examples for the NLP system’s theoretical background. The only prerequisite in this regard is the usage of a morphologically annotated corpus. Consequently, the Newly-created Kyrgyz corpus has been used to evaluate the above-mentioned issue and its methods.
Ключевые слова
  1. кыргызский язык, корпусная лингвистика, слова, глаголы, многозначность, синтаксический парсинг, морфологическая разметка, естественный язык, языковая обработка.
  2. кыргыз тили, корпустук лингвистика, сөздөр, этиштер, көп маанилүүлүк, синтактикалык парсинг, морфологиялык энтектөө, табигый тил, тилди иштетүү.
  3. the Kyrgyz language, Corpus linguistics, words, verbs, polysemy, syntactic parsing, morphological tagging, natural language, language processing
Сведения об авторах
  1. Касиева Аида Аскарбековна, Кыргызско-Турецкий университет «Манас», г.Бишкек, Кыргызская Республика, кандидат филологических наук, доцент. Кадырбекова Айзат Кадырбековна, КыргызскоТурецкий университет «Манас», г.Бишкек, Кыргызская Республика, магистрант.
  2. Касиева Аида Аскарбековна, Кыргыз-Түрк «Манас» университети, Бишкек шаары, Кыргыз Республикасы, филология илимдеринин кандидаты, доцент. Кадырбекова Айзат Кадырбековна, Кыргыз-Түрк «Манас» университети, Бишкек шаары, Кыргыз Республикасы, магистрант.
  3. Aida Kasieva, Kyrgyz-Turkish University «Manas», Bishkek, Kyrgyz Republic, candidate of philological sciences, associate professor. Aizat Kadyrbekova, Kyrgyz-Turkish University «Manas», Bishkek, Kyrgyz Republic, postgraduate student.
Полнотекстовая версия
DOI
  • 10.26104/IVK.2022.45.557
  • Версия для цитирования
  • Касиева А.А., Кадырбекова А.К. СНЯТИЕ НЕОДНОЗНАЧНОСТИ СМЫСЛА ГЛАГОЛОВ В КЫРГЫЗСКОМ ЯЗЫКЕ (на основе новосозданного кыргызского корпуса). Известия ВУЗов Кыргызстана. 2022. №. 6. C. 341-345