Ilmiy-ta’limiy axborotlar rubrikasini aniqlash algoritmi
16.09.2019
Rukn: Sharh va fikr-mulohazalar.
Muallif: .

Bugungi axborot almashinuvi jadallik bilan rivojlangan ramda axborot hajmi keskin oshgan bir paytda, ilmiy-ta’limiy axborotlarni (ITA) tezkorlik bilan topish hamda undan samarali foydalanish dolzarb masalalardan biri bo‘lib qolmoqda, ya’ni, ma’lumotlarni raqamlashtirish boshlangan ilk davrda, biron so‘z asosida axborot izlash va uni imkon qadar tez topish masalasi qo‘yilgan bo‘lsa, hozirda biron maqola, tezis, referat yoki asarlarni izlash, ularni o‘xshashlikka tekshirish, mualliflik huquqini himoya qilish kabi masalalar o‘z yechimini kutmoqda [1, 2].

Ma’lumki, ilmiy-ta’limiy ma’lumotlar sohalarga qarab ierarxik qismlarga bo‘lingan bo‘lib, kutubxonashunoslikda mazkur tartib ilmiy-ta’limiy axborotlar rubrikatori (ITAR) deb yuritiladi [1]. Quyida matnlarning ITARini aniqlash jarayonini avtomatlashtiruvchi algoritmni ko‘rib chiqamiz. Dastlab, ITAR bilan tanishib chiqsak. Quyida mazkur rubrikatordan parcha keltirilgan:

00 — Umumiy fanlar

02 — Falsafa

02.01 — Falsafaning umumiy masalalari

02.02 — Mantiq

02.03 — Etika

…….

20 — Informatika

20.01 -Informatikaning umumiy masalalari

……

20.23 — Axborot qidirish

20.51 — Axborot hizmat ko‘rsatish

……

          27 – Matematika

Ko‘rsatilgan ITARdan shu narsa ma’lum bo‘ladiki, har bir ilmiy-ta’limiy ma’lumot yo‘nalishi va mazmuni bo‘yicha ierarxik guruhlarga ajratilgan. Bu esa ko‘p tillik ilmiy-ta’limiy axborotlarni o‘xshashlikka tekshirish jarayonida ITARni inobatga olgan holda, tashkil qilishda tayanch vazifasini o‘taydi. Chunki, har xil ITARga tegishli bo‘lgan, ammo umumiy so‘zlar chastotasi hisobiga ko‘ra bir-biriga yaqin bo‘lgan hujjatlarni ma’no jihatidan o‘xshash bo‘lishi ehtimoli juda kam. Bundan tashqari, har bir ITARda o‘ziga hos umumiy so‘zlar bo‘lib, shu ruknga tegishli matnlarda mazkur so‘z ko‘p qatnashishi tabiiy. Masalan, 27 — Matematika rukniga tegishli matnlarda “formula”, “teorema”, “aksioma” kabi terminlar juda ko‘p qatnashishi mumkin.

Sanab o‘tilgan muammolarni bartaraf etish uchun dastlab quyidagi masalalar yechilishi lozim:

  • tekshirilayotgan matnning ITARini aniqlash;
  • matnni so‘zlarga ajratish jarayonida ITAR uchun umumiy bo‘lgan so‘zlarni inobatga olmaslik;
  • matnlarni o‘xshashlikka tekshirish jarayonida ITAR bo‘yicha sinonim so‘zlarni ham tekshirish;

Yuqоrida ko‘rib o‘tilganidek, mazkur rubrikator ierarxik shaklga ega bo‘lib, har bir rubrika  х.y.z. shaklida kodga ega. O‘z o‘rnida  х.y  х va х.z  х bo‘lib, matnni qaysi rubrikaga tegishli bo‘lishini avtomatlashtirilgan tarzda aniqlashda kalit so‘zlardan foydalanamiz. Dastlab, quyidagi jadvalni shakllantirish kerak bo‘ladi.

1jadval.

Rubrikator kodi So‘z Muhimlik darajasi
20.23.29

(Elektron kutubxona)

Ma’lumotlar bazasi 10
20.23.29 MARS format 90
20.23.29 Kutubxona 50
20.23.29 Elektron kutubxona 100
20.23.17

(Axborot qidirish massivi, ma’lumotlar bazasi)

Ma’lumotlar bazasi 6
20.23.17 Relyatsion MB 90
20.23.17 Norelyatsion MB 90
20.23.17 SQL 100

Jadvalda «20.23. — Axborot qidirish» rubrikasiga tegishli ikkita rubrika «20.23.17 — Axborot qidirish massivi, Ma’lumotlar bazasi» hamda «20.23.29 — Elektron kutubxona» rubrikasiga tegishli ayrim kalit so‘zlar keltirib o‘tildi. Mazkur ikkita rubrika umumiy kalit so‘z «Ma’lumotlar bazasi»ga ega bo‘lib, mazkur kalit so‘z har bir rubrikada har xil muhimlik darajasiga ega. Aynan mazkur ma’lumot bizga matnni aynan qaysi rubrikaga ajratishni ko‘rsatib beradi.

Agar matn tarkibida «Ma’lumotlar bazasi», «Relyatsion ma’lumotlar bazasi», «SQL» kabi so‘zlar ko‘p qatnashsa, u holda mazkur matn 20.23.17 rubrikasiga tegishli bo‘ladi. Berilgan  Р matn tegishli bo‘lgan r rubrika quyidagi bosqichlarda amalga oshiriladi:

  • P matn w so‘zlar to‘plamiga ajratiladi;
  • har bir  so‘z uchun 1 — jadval asosida  —  so‘zning   rubrikator bo‘yicha muhimlik darajasi aniqlanadi;
  • Har bir  rubrika uchun    umumiy muhimlik darajasi hisoblanadi;
  • matn uchun umumiy muhimlik darajasi yuqori bo‘lgan r rubrika aniqlanadi;

Demak, matnning ITARini aniqlash keltirilgan 1-jadvalni to‘g‘ri va to‘liq to‘ldirilishiga uzviy bog‘liq. Agar matn bir nechta rubrikalar bo‘yicha bir xil muhimlik darajasiga ega bo‘lsa, u holda matn mavzusida qatnashgan so‘zlar rubrikasi qaraladi. Agar sarlavhada u yoki bu rubrikaga tegishli kalit so‘zlar ko‘p bo‘lsa, ushbu rubrika olinadi. 1-rasmda mazkur jarayonning algoritmi berilgan.

Shu o‘rinda keltirilgan algoritmning ayrim qismlariga kengroq to‘xtalib o‘tsak. Matnni so‘zlarga ajratish — mazkur jarayonda har xil formatlardagi matn (MS Word, PDF, HTML va hokazo) dastlab oddiy matn shakliga o‘tkaziladi. Hozirda mazkur ishni amalgan oshiruvchi bir qator tizimlar mavjud bo‘lib, shulardan biri Apache Tika tizimidir [4].

So‘ngra matn so‘zlarga ajratiladi va so‘zlar orasidan tabiy tildagi yordamchi so‘zlar  (masalan, o‘zbek tilida: va, bilan, kabi, unday, bunday  so‘zlari) olib tashlanadi. Qolgan so‘zlar asosida esa algoritmni keyingi bosqichi boshlanadi.

Mazkur maqolamizda ITAR tarkibidagi so‘zlar asosida uni qaysi rubrikaga tegishli ekanligini aniqlovchi algoritm keltirildi. Xulosa qilib aytganda, mazkur algoritmni avtomatlashtirilgan kutubxona tizimlarida, elektron kutubxona tizimlarida, ITARni o‘xshashlikka tekshirishga mo‘ljallangan tizimlarda foydalanish mumkin.

1-rasm. Matn ITARini aniqlash algoritmi.

Jasurbek Аtadjanov,

“O‘zbektelekom” Aksiyadorlik Kompaniyasi

“Axborot tizimlari” filiali

“Telefoniya billingi ishlab chiqish”

sektori boshlig‘i,

Hilola Islomova,

 “O‘zbektelekom” Aksiyadorlik Kompaniyasi

“Axborot tizimlari” filiali

“Telefoniya billingi ishlab chiqish”

sektori oliy toifali dasturchi-muhandisi

Foydalanilgan adabiyotlar

  1. Мамчич, А.А. Систeма автоматизированного поиска, индeксирования и рeфeрирования научно-тeхничeской информации / А.А. Мамчич, Л.В. Стeпура, Д.А. Чeрников // Библиотeки в информационном пространствe: проблeмы и тeндeнции развития : матeриалы II Мeждунар. науч. конф. молодых учeных и спeциалистов, Минск, 16 фeвр.
  2. Erik H., Otis G., Michael McC. Lucene in Action – Covers Apache Lucene v.3.0// Manning Publications.-486p.,2009 y.
  3. Сeдова Я.А., Квятковская И. Ю. Интeллeктуальный анализ корпуса докумeнтов научной информации // Вeстник Астраханского государствeнного тeхничeского унивeрситeта. Сeрия: Управлeниe, вычислитeльная тeхника и информатика.- № 1 / 2011
  4. Atadjanov J. Axborot-kutubxona resurslari orasidan o’hshash matnlarni aniqlash algoritmi // TATU xabarlari. 2017 й, 4-сон.
Orphus system
O'zbеkistonda AKT yangiliklaridan birinchilar qatorida xabardor bo'lish uchun Telegramda infoCOM.UZ kanaliga obuna bo'ling.
Telegramga qo`shmoq
WhatsAppga qo`shmoq
Odnoklassnikiga yubormoq
VKontakteda bo`lishmoq