Antiplagiat dastur yaratishda o‘zbekcha so‘zlarning morfologik tahlili
01.07.2017
Rukn: Sharh va fikr-mulohazalar.
Muallif: .

Ma’lumki, O‘zbekistonda ilmiy kadrlar tayyorlashning ikki bosqichli tizimga o‘tilishi, ilmiy tadqiqotlarni qo‘llab-quvvatlash, dissertantlarni axborotlar bilan ta’minlash, plagiatni aniqlash va ilmiy loyihalar hamda dissertatsiyalar ekspertizasini o‘tkazishga mo‘ljallangan avtomatlashtirilgan tizimlarni ishlab chiqishni taqozo qilmoqda.

Keyingi yillarda O‘zbekistonda himoya qilinayotgan dissertatsiyalarni chet ellarda himoya qilinayotgan dissertatsiyalar bilan taqqoslashda, “kurs ishi”, “bitiruv malakaviy ishi” va hatto “magistrlik” ilmiy darajasini olish uchun yozilayotgan ishlarda plagiatni aniqlashda, ilmiy maqolalar va monografiyalar matnlarining necha foizi unikal va necha foizi boshqa manbalardan olinganligini aniqlashda ekspertlarga yordam berish dolzarb vazifalardan biri bo‘lib hisoblanadi. Buning uchun dissertatsiyalar va ilmiy loyihalarning ma’lumotlar bazasidan o‘xshash mantlarni izlovchi dastur yaratish muhim ahamiyat kasb etadi. Matnlarni o‘xshashlikka tekshiruvchi  antiplagiat dasturini yaratishda eng avvalo, uning qaysi tillardagi matnlar orasida o‘xshash matnlarni qidira olish imkoniyatiga e’tibor berish lozim. Jumladan, o‘zbek tilidagi matnlarni o‘xshashlikka tekshirish uchun dastlab, o‘zbekcha so‘zlarning morfologik tuzilishini tahlil qilish kerak. Shu maqsadda uch tillik  (o‘zbek, rus, ingliz) lug‘atlardan foydalanib, o‘xshash matnlarni qidirishga mo‘ljallangan antiplagiat dasturini yaratishda o‘zbekcha so‘zlarning morfologik tahlilini amalga oshirishga urindik.

Ma’lumki, o‘zbekcha so‘zlarning morfologik tuzilishida, ya’ni so‘zlarni qismlarga ajratishda tabiiy til (so‘zlashuv tili) asosiy bo‘limlaridan biridir. Mazkur jarayon har bir tilni morfologik qonun qoidalariga asoslanadi. Hozirda ko‘pchilik tillardagi so‘zlarni o‘zak qismini aniqlash usullari mavjud. Ularning barchasi RS-KIMMO va Porter algoritmiga asoslanadi [1]. Misol sifatida G. Eryigit, E. Adoli [2] ishini keltirish mumkin. O‘zbek tili so‘z yasash qoidalariga ko‘ra so‘zlashuv tillari orasida, jumladan, turk tiliga o‘xshash o‘zbek tilida ham qat’iy marfologik cheklovlar mavjud. O‘zbek tilida qo‘shimchalar so‘z tarkibida ishtirok etmasligi ham mumkin. Ular alohida qo‘llanilmaydi va doim o‘zakka qo‘shilib keladi. Qo‘shimchalar vazifasi va so‘zga qo‘shilib anglatadigan ma’nosiga ko‘ra uch turga bo‘linadi  [3]:

a. So‘z yasovchi qo‘shimchalar o‘zakka qo‘shiladi, ya’ni ma’noli so‘z hosil qiluvchi qo‘shimchalar: suv-suvchi, kuch-kuchli

b. So‘z o‘zgartiruvchi qo‘shimchalar: (Gapdagi so‘zlarni bir-biriga bog‘laydigan qo‘shimchalardir.) Ular uch turga bo‘linadi:

  1. Kelishik qo‘shimchalari: -ni, -ning, -ga (-ka, -qa), -da, -dan
  2. Egalik qo‘shimchalari: -im, -ing, -imiz, -ingiz
  3. Shaxs-son qo‘shimchalari: -i, -(i)m, -(i)ng, -son, -man

Shakl yasovchi qo‘shimchalar — o‘zakka qo‘shilib ma’noni biroz o‘zgartiradigan, qo‘shimcha ma’no orttiriladi, ammo yangi so‘z yasalmaydi. O‘zbek tilida odatda so‘z tarkibidagi qo‘shimchalar quyidagi tartibda joylashadi [2]:

O‘zak+so‘z yasovchi qo‘shimchalar+shakl yasovchi qo‘shimchalar+so‘z o‘zgartiruvchi qo‘shimchalar

Qo‘shimchalar tuzilishiga ko‘ra ikki xil bo‘ladi:

  1. Sodda qo‘shimchalar — boshqa qo‘shimchalarga ajratilmaydi.
  2. Murakkab qo‘shimchalar — kamida ikkita qo‘shimcha qo‘shilishidan hosil bo‘ladi. Masalan:

-chilik, -lash, -lan, -lab, -lay

O‘zbek tilida ayrim qo‘shimchalar so‘z oxiridagi harfga qarab, o‘z shaklini o‘zgartirishi mumkin. Masalan:  —ga qo‘shimchasi “q” harfi bilan tugallanuvchi so‘zga – qa, “g‘” harfi bilan tugagan so‘zga qo‘shilganda so‘z oxiridagi “g‘” harfi “q”ga aylanadi va – qa qo‘shimchasi bo‘lib qo‘shiladi. O‘zbek tilida sifat uch xil darajada bo‘lib, shundan faqat qiyosiy daraja – roq qo‘shimchasiga ega. Sonlarda esa jamlikni bildiruvchi —ov, —ala, donalash ma’nosini bildiruvchi –ta, narsaning miqdorini taxnimlovchi —lab, —larcha, taqsimlab ko‘rsatuvchi —tadan, tartibni bildiruvchi —(i)nchi.

Ma’lumki, o‘zbek tilida yasama ravishlar bo‘lib, ular -cha, -lab, -larcha, -ona, -an, -chasiga kabi qo‘shimchalar asosida shakllanadi. Qolgan yasama ravishlar esa kelishik qo‘shimchalar asosida keltiriladi. Olmoshlarda esa -(n)iki, -dek, -day qo‘shimchalari ishlatiladi. O‘zbek tilida fe’llar zamon, shaxs-son, bo‘lishli-bo‘lishsizlik ma’nolarini ifodalovchi qo‘shimchalar mavjud. Masalan, ishlamadim so‘zida —ma bo‘lishsizlik, —di zamon, —m (-im) shaxs-son qo‘shimchalari mavjud.

O‘tgan zamon: -di, -gan, -ibdi;

Hozirgi zamon: -moqda, -yotir, -yapti;

Kelasi zamon: -adi, -ajak, -moqchi, -a.

Fe’l nisbatlari — ish harakatni bajaruvchidan qay darajada ishtirok etishini bildiradi.

a. Aniq nisbat- ish harakat aniq shaxs tomonidan bajarilganda.

b. O‘zlik nisbat-bajaruvchi o‘zi ustida ishlanganda: -(i)n, -(i)l, teradi-terildi.

c. Majxul nisbat- bajaruvchisi noma’lum bo‘lganda: -(i)n, -(i)l.

d. Orttirma nisbat- bajaruvchi ta’sirida boshqa birov tomonidan bajarilgan fe’l shakllari: -t, -dir(-tir), -giz(-kiz), -gaz(-kaz, -qaz), -ir, -ar, -iz.

Fe’l unli bilan tugasa: t;

Bir bo‘g‘inli, undosh bilan tugagan fe’llarga: –ir, -ar, -iz;

Jarangli undosh bilan tugagan fe’llarga: —dir, -giz, -g‘iz;

Jarangsiz undosh bilan tugagan fe’llarga: -tir, -kiz, -qiz;

Ba’zan fe’llarga birdan ortiq orttirma nisbat qo‘shimchalari qo‘yiladi.

Masalan: o‘qit+tir ; yozdir+tir

e. Birgalik nisbat birdan ortiq bajaruvchi bo‘lganda: -sh, -ish; Masalan: ishlashdi, kelishdi, boshlash

Fe’lning vazifa shakllari

a. Harakat nomi — fe’lni otga xoslangan shakli: -(i)sh, -u(v), -moq o‘qish; Masalan: ishlov, bormoq

b. Sifatdosh – fe’lni sifatga xoslangan shakli: -gan (-kan, -qan), -ydigan (adigan), -(a)yotgan, -(a)r;

Masalan: оqаr daryo, ketayotgan odam.

Sifatdoshming bo‘lishsiz shakli -ma qo‘shimchasi: ishlayotgan, ishlamayotgan. -(а)r qo‘shimchasi bilan yasalgan sifatdoshlarga -mas qo‘shimchasi qo‘shiladi. Masalan: kelar-kelmas

c. Ravishdosh – fe’lni ravishga xoslik shakli: -(i)b, -(a)y, –gancha(-kancha, -qancha), -gach(-kach, -qach), -guncha(-kuncha, -quncha), -gani(-kani, -qani, -gali).

Fe’llarning yasalishi

-(а)y, -a – ot, sifat, undov so‘zlardan;

-(a)y, -i, -sira, -sa – ot va sifatlardan;

-(a)r – sifatlardan;

-illa, -ira – taqlid so‘zlardan;

-sira – olmoshlardan fe’l yasaladi.

Fe’l mayllari

a. Buyruq mayli: -(a)y, -(a)yin, -gin(-kin, -qin), -(i)ng, -sin, -(a)ylik, — (i)nglar;

b. Shart mayli: -sa (borsa, kelsa), -saydi (borsaydi, kelsaydi);

Shunday qilib, yuqorida qo‘shimchalar turlarini ko‘rib chiqdik. O‘zbek tilida shunday so‘zlar borki, ularning tarkibi qo‘shimchalarga o‘xshash bo‘ladi. Masalan: olma – (meva) , olma – (bo‘yruq fe’li) bu yerda — ma qo‘shimchadir. Agar “olma” so‘zidan keyin kelishik, egalik qo‘shimchalari kelsa, u holda bu meva ma’nosini anglatadi. Agar fe’l zamonlari, mayl yoki ravishdosh qo‘shimchalari kelsa, u holda “olma” so‘zidagi –ma bo‘lishsizlik shaklini yasovchi qo‘shimcha hosil bo‘ladi. Mazkur holda qo‘shimchani to‘g‘ri ajratish, matnni semantik tahlil qilish yoki qo‘shimchalarni qat’iy ketma-ketligini ishlab chiqish kerak. Qo‘shimchalar ketma-ketligini ifodalashda jadval(1-jadval)dan foydalanamiz. Qo‘shimchalarni jadvalga asoslangan holda guruhlarga ajratish kelgusida o‘zakni aniqlash jarayonida so‘zning asl qismi va qo‘shimchani o‘zaro farqlashda qo‘l keladi.

Chekli avtomat (ChA) ni ishlab chiqish

Qo‘shimchalarni klassifikatsiyasidan keyingi qadam ChAni tavsiflashdan iborat. Ma’lumki, ChA quyidagi qismlardan tashkil topadi:

  • Hоlatlar to‘plami –Q (mazkur to‘plam chekli bo‘ladi).
  • Berilgan simvollar to‘plami –E (mazkur to‘plam chekli bo‘ladi).
  • O‘tish funksiyasi – δ (bir holatdan ikkinchi bir holatga o‘tuvchi funksiya).
  • Dastlabki holat q0 € Q.
  • Natijaviy holatlar to‘plami F (mazkur to‘plam Q ning qism to‘plamidir).

Yuqorida keltirilgan ChAning har bir qismini “ishlamaganlarni” so‘zi misolida ko‘rib chiqsak:

  • Holatlar to‘plami – berilgan so‘zning tarkibidagi har bir qo‘shimchani ketma-ket olib tashlashda hosil bo‘lgan so‘zlar to‘plamidir.

Q={ishlamaganlarni, ishlamaganlar, ishlamagan, ishlama, ishla, ish} Qi o‘zbek tilida  qo‘shimchalar (1) shakldа kelishini inobatga olgan holda, berilgan so‘zning o‘zakini aniqlash jarayoni quyidagicha bo‘ladi.

a. Negiz – berilgan so‘z “ishlamaganlarni”;

b. So‘z o‘zgartiruvchi qo‘shimchalarsiz hоlat — “ishlamaganlar”;

c. Shakl yasovchi qo‘shimchalarsiz hоlat – “ishla”;

d. So‘z yasovchi qo‘shimchasiz hоlat – “ish”;

e. O‘zak – so‘zning o‘zgarmas qismi.

1.2. Berilgan simvollar to‘plami – so‘zni bir holatdan ikkinchi holatga o‘tkazuvchi simvollardir. Bizning holatda esa bu o‘zbek tilidagi qo‘shimchalardir.

Σ={ni, lar, gan, ma, la} Wi

1.3. O‘tish funksiyasi – so‘zni bir holatdan boshqa holatga berilgan qo‘shimcha yordamida o‘tkazuvchi funksiya.

q1 ishla, q0 ish, kiruvchi qo‘shimcha la

q1=δ (q0 , la ) =ishla

Dastlab, ChAni chapdan o‘nga (o‘zak + qo‘shimcha1 + qo‘shimcha2 + …) shaklida ishlab chiqamiz. Uni o‘ngdan chapga ishlaydigan qilish uchun δ ni teskari  tartibda ishlaydigan qilamiz, ya’ni Q0 = ishla, Q1-ishlа; Q1= δ (Q0 , la)

1.4 Natijaviy negiz to‘plam – bu so‘zning o‘zak qismidan tashkil topgan bo‘lib, mazkur jarayonda u faqat bitta elementga ega bo‘ladi. Natijaviy so‘z tarkibida kamida bitta unli harf bo‘lishi lozim. Ta’kidlab o‘tilganidek o‘zbek tilida so‘z tarkibi quyidagilardan tashkil topadi:

asos (o‘zak) + so‘z yasovchi + shakl yasovchi + so‘z o‘zgartiruvchi

So‘z tahlili so‘zni oxiridan boshlanadi va har bir qo‘shimcha faqatgina o‘zidan keyingi kelgan qo‘shimchalardan so‘ng tahlil qilinadi. Boshqacha qilib aytganda, so‘z tahlili o‘ngdan-chapga tartibida amalga oshiriladi.

1-rasm. O‘ngdan chapga ChA shakli

Xulosa qilib aytganda, o‘zbek tilidagi qo‘shimchalarni guruhlarga ajratib, so‘z tarkibidagi o‘zakni aniqlash jarayoni ChA asosida keltirildi. Matn tarkibidagi so‘zlarning o‘zaklarini aniqlash har bir so‘zni mazkur matn tarkibidagi qatnashish chastotasini aniqlashda asosiy omil bo‘lib xizmat qiladi. Bu esa matn tarkibidagi kalit so‘zlarni avtomatik ravishda aniqlash, matnlarni o‘xshashlikka tekshirish (har xil tillardagi) jarayonida qo‘l keladi. Mazkur ishning davomi sifatida o‘zbek tilidagi so‘zlarning o‘zagini aniqlash algoritmi Snowball kompilyatori uchun ishlab chiqiladi.

Adabiyotlar:

  1. F. Porter, Snowball: A language for Stemming Algorithms.-2011
  2. Erigit, E. Adali. An Affix stripping morphological analyzer for Turkish, 2004
  3. E. Hopcroft, R. Motwani, J. D. Ullman. Introduction to Automata Theory Languages and Com


Muallif: Jasur Atadjanov, “O‘zbektelekom” AK Billing Telekom filialining “Dasturiy ta’minot ishlab chiqish” bo‘limi boshlig‘i

Orphus system
O'zbеkistonda AKT yangiliklaridan birinchilar qatorida xabardor bo'lish uchun Telegramda infoCOM.UZ kanaliga obuna bo'ling.
Telegramga qo`shmoq
WhatsAppga qo`shmoq
Odnoklassnikiga yubormoq
VKontakteda bo`lishmoq