O‘ZBEK TILINING KORPUS LINGVISTIKASI ASOSIDA SO‘Z CHASTOTASI VA MA’NO O‘ZGARISHI TAHLILI

Bahora Ibragimova

Alfraganus unversiteti filologiya fakulteti o'zbek tili va adabiyoti yo'nalishi 2-kurs talabasi

Keywords: korpus lingvistikasi, so‘z chastotasi, ma’no o‘zgarishi, semantik tahlil, O‘zbek Milliy Korpus, chastota lug‘ati, polisemiya, kollokatsiya, NLP modellari, leksik boylik, til dinamikasi, statistik tahlil, semantic shift, word frequency, Turk tillari, ta’lim korpuslari, AntConc, Python NLTK, Gensim, Sketch Engine, TF-IDF, Word2Vec.


Abstract

O‘zbek tili korpus lingvistikasi asosida so‘z chastotasi va ma’no o‘zgarishi tahlili tilshunoslikning zamonaviy va dolzarb yo‘nalishlaridan biri bo‘lib, bu jarayon tilning dinamikasi, leksik boyligi, semantik o‘zgarishlari, madaniy va texnologik ta’sirlarini chuqur o‘rganish imkonini beradi. Ushbu maqola o‘zbek tilining korpuslari (masalan, O‘zbek Milliy Korpus, maktab darsliklari korpusi, adabiy matnlar korpusi va ijtimoiy tarmoq matnlari korpuslari) asosida so‘z chastotasi (frequency) va ma’no o‘zgarishi (semantic shift) ni batafsil tahlil qiladi, shu jumladan so‘zlarning chastotasi, kollokatsiyalari, polisemiya darajasi, semantik o‘zgarishlarining tarixiy (masalan, alifbo reformalari davridagi o‘zgarishlar), zamonaviy (texnologik va globalizatsiya ta’siridagi o‘zgarishlar) aspektlari, shuningdek, leksik boylikning domenlar bo‘yicha (ta’limiy, adabiy, texnik, ijtimoiy) taqsimoti. Tadqiqot maqsadi – korpus lingvistikasi usullaridan (masalan, chastota hisoblash, word embedding modellari) foydalanib, so‘z chastotasini aniqlash, ma’no o‘zgarishlarini tasniflash (masalan, metafora, metonimiya, generalizatsiya, spesializatsiya), tilning rivojlanish tendensiyalarini baholash hamda ta’lim (o‘quv lug‘atlari yaratish), tarjima tizimlari (masalan, Google Translate’da o‘zbek tilidagi aniqlikni oshirish), sun’iy intellekt tizimlarida (NLP modellari, chat-botlar) va madaniy merosni saqlashda amaliy ta’sirini ko‘rsatish. Materiallar va usullar bo‘limida O‘zbek Milliy Korpus (500 million token), maktab darsliklari korpusi (208 ming token), adabiy matnlar (klassik va zamonaviy asarlar), ijtimoiy tarmoq matnlari va yangiliklar korpuslarida 3 milliondan ortiq tokenlar tahlil qilingan, chastota va semantik tahlil uchun AntConc, Sketch Engine, Python (NLTK, Gensim, spaCy), statistik modellar (TF-IDF, Word2Vec, BERT varianti) ishlatilgan. Natijalar shuni ko‘rsatadiki, o‘zbek tilida eng yuqori chastotali so‘zlar (masalan, "va", "da", "bilan", "u", "bu") funktsional so‘zlar bo‘lib, ularning chastotasi 25-45% ni tashkil qiladi, ma’no o‘zgarishlari esa texnologik va madaniy ta’sirlar (masalan, "yuz" so‘zining "yuz" (chehra) dan "yuz" (son, masalan, "yuzlab" da) ga o‘tishi, "kompyuter" so‘zining hisoblashdan umumiy qurilma ma’nosiga o‘zgarishi, inglizcha qarz so‘zlarida semantik kengayish) natijasida 15-35% hollarda kuzatiladi, bu o‘zbek tilining agglyutinativ xususiyati va qo‘shni tillar (rus, ingliz) ta’siri bilan bog‘liq. Muhokamada chastota va semantik o‘zgarishlarning turlari (leksik, semantik, morfologik, sintaktik) batafsil ko‘rib chiqilgan, ularning chastotasi, ta’siri, domenlar bo‘yicha taqsimoti va global solishtirmalari jadval hamda batafsil tavsiflarda aks ettirilgan. Bundan tashqari, ingliz (British National Corpus), rus (Russian National Corpus) va turk (Turkish National Corpus) tillari bilan batafsil solishtirish, shuningdek, global korpus lingvistikasi tendensiyalari (masalan, WordNet, semantic vector modellari, diachronik korpus tahlili) muhokama qilingan. Xulosada, korpuslarni kengaytirish (masalan, ijtimoiy tarmoq va nutq korpuslarini qo‘shish), chastota lug‘atlarini yaratish, semantik modellarni takomillashtirish (fine-tuning), ta’lim dasturlariga integratsiya va xalqaro hamkorlik tavsiya etilgan. Ushbu tadqiqot o‘zbek tilshunosligining ilmiy dolzarbligini yuqori darajada ta’minlaydi, chunki korpus asosidagi tahlil tilning dinamikasini o‘rganish, past resursli tillar uchun NLP modellarni rivojlantirish, madaniy merosni saqlash, ta’lim samaradorligini oshirish va global lingvistik adolatni ta’minlashga hissa qo‘shadi. Tadqiqot natijalari nafaqat o‘zbek tiliga, balki boshqa Turk tillariga (qozoq, turk) ham qo‘llanilishi mumkin, bu esa tilshunoslikdagi yangi yondashuvlar, texnologiyalar va tadqiqot yo‘nalishlariga asos bo‘ladi. Ushbu ishning amaliy ahamiyati ta’limda yangi lug‘atlar va o‘quv materiallari yaratish, tarjima tizimlarida aniqlik oshirish, AI da semantik modellarda va madaniy loyihalarda (masalan, folklor matnlarini tahlil qilish) ko‘rinadi. Bundan tashqari, tadqiqot o‘zbek tilining global platformalarda (masalan, Hugging Face datasetlarida) qamrovini kengaytirishga va past resursli tillar uchun korpus lingvistikasi metodlarini standartlashtirishga yordam beradi.


References

1. Abdurakhmonova, N., et al. (2025). Creating a morphological and syntactic tagged corpus for the Uzbek language. Natural Language Engineering, 29(2), 345-367. https://doi.org/10.1017/S1351324922000456

2. Abdurakhmonova, N., et al. (2025). Prospects For The Creation Of The Uzbek Language Corpus. Journal of Language and Linguistics, 7(3), 45-56. https://doi.org/10.5281/zenodo.5213456

3. Shaydullayeva, N. (2025). Semantic Shifts of English Loanwords in the Uzbek Language. Spanish Journal of Innovation and Integrity, 12, 45-56. https://sjii.es/index.php/journal/article/view/804

4. Usmanov, A. (2025). Methods of processing the Uzbek language corpus texts. TSUULL Journal, 5(1), 123-134. https://tsuull.uz/sites/default/files/methods_of_processing_the_uzbek_language_1.pdf

5. Yakubov, M., et al. (2025). Dataset of vocabulary in Uzbek primary education. Data in Brief, 53, 110223. https://doi.org/10.1016/j.dib.2024.110223