Ilmiy-ta’limiy axborotlar rubrikasini aniqlash algoritmi
16.09.2019
Rukn: Sharh va fikr-mulohazalar.
Muallif: Jurnal tahririyati.
Bugungi axborot almashinuvi jadallik bilan rivojlangan ramda axborot hajmi keskin oshgan bir paytda, ilmiy-ta’limiy axborotlarni (ITA) tezkorlik bilan topish hamda undan samarali foydalanish dolzarb masalalardan biri bo‘lib qolmoqda, ya’ni, ma’lumotlarni raqamlashtirish boshlangan ilk davrda, biron so‘z asosida axborot izlash va uni imkon qadar tez topish masalasi qo‘yilgan bo‘lsa, hozirda biron maqola, tezis, referat yoki asarlarni izlash, ularni o‘xshashlikka tekshirish, mualliflik huquqini himoya qilish kabi masalalar o‘z yechimini kutmoqda [1, 2].
Ma’lumki, ilmiy-ta’limiy ma’lumotlar sohalarga qarab ierarxik qismlarga bo‘lingan bo‘lib, kutubxonashunoslikda mazkur tartib ilmiy-ta’limiy axborotlar rubrikatori (ITAR) deb yuritiladi [1]. Quyida matnlarning ITARini aniqlash jarayonini avtomatlashtiruvchi algoritmni ko‘rib chiqamiz. Dastlab, ITAR bilan tanishib chiqsak. Quyida mazkur rubrikatordan parcha keltirilgan:
00 — Umumiy fanlar
02 — Falsafa 02.01 — Falsafaning umumiy masalalari 02.02 — Mantiq 02.03 — Etika ……. 20 — Informatika 20.01 -Informatikaning umumiy masalalari …… 20.23 — Axborot qidirish 20.51 — Axborot hizmat ko‘rsatish …… 27 – Matematika |
Ko‘rsatilgan ITARdan shu narsa ma’lum bo‘ladiki, har bir ilmiy-ta’limiy ma’lumot yo‘nalishi va mazmuni bo‘yicha ierarxik guruhlarga ajratilgan. Bu esa ko‘p tillik ilmiy-ta’limiy axborotlarni o‘xshashlikka tekshirish jarayonida ITARni inobatga olgan holda, tashkil qilishda tayanch vazifasini o‘taydi. Chunki, har xil ITARga tegishli bo‘lgan, ammo umumiy so‘zlar chastotasi hisobiga ko‘ra bir-biriga yaqin bo‘lgan hujjatlarni ma’no jihatidan o‘xshash bo‘lishi ehtimoli juda kam. Bundan tashqari, har bir ITARda o‘ziga hos umumiy so‘zlar bo‘lib, shu ruknga tegishli matnlarda mazkur so‘z ko‘p qatnashishi tabiiy. Masalan, 27 — Matematika rukniga tegishli matnlarda “formula”, “teorema”, “aksioma” kabi terminlar juda ko‘p qatnashishi mumkin.
Sanab o‘tilgan muammolarni bartaraf etish uchun dastlab quyidagi masalalar yechilishi lozim:
- tekshirilayotgan matnning ITARini aniqlash;
- matnni so‘zlarga ajratish jarayonida ITAR uchun umumiy bo‘lgan so‘zlarni inobatga olmaslik;
- matnlarni o‘xshashlikka tekshirish jarayonida ITAR bo‘yicha sinonim so‘zlarni ham tekshirish;
Yuqоrida ko‘rib o‘tilganidek, mazkur rubrikator ierarxik shaklga ega bo‘lib, har bir rubrika х.y.z. shaklida kodga ega. O‘z o‘rnida х.y х va х.z х bo‘lib, matnni qaysi rubrikaga tegishli bo‘lishini avtomatlashtirilgan tarzda aniqlashda kalit so‘zlardan foydalanamiz. Dastlab, quyidagi jadvalni shakllantirish kerak bo‘ladi.
1—jadval.
Rubrikator kodi | So‘z | Muhimlik darajasi |
20.23.29
(Elektron kutubxona) |
Ma’lumotlar bazasi | 10 |
20.23.29 | MARS format | 90 |
20.23.29 | Kutubxona | 50 |
20.23.29 | Elektron kutubxona | 100 |
20.23.17
(Axborot qidirish massivi, ma’lumotlar bazasi) |
Ma’lumotlar bazasi | 6 |
20.23.17 | Relyatsion MB | 90 |
20.23.17 | Norelyatsion MB | 90 |
20.23.17 | SQL | 100 |
Jadvalda «20.23. — Axborot qidirish» rubrikasiga tegishli ikkita rubrika «20.23.17 — Axborot qidirish massivi, Ma’lumotlar bazasi» hamda «20.23.29 — Elektron kutubxona» rubrikasiga tegishli ayrim kalit so‘zlar keltirib o‘tildi. Mazkur ikkita rubrika umumiy kalit so‘z «Ma’lumotlar bazasi»ga ega bo‘lib, mazkur kalit so‘z har bir rubrikada har xil muhimlik darajasiga ega. Aynan mazkur ma’lumot bizga matnni aynan qaysi rubrikaga ajratishni ko‘rsatib beradi.
Agar matn tarkibida «Ma’lumotlar bazasi», «Relyatsion ma’lumotlar bazasi», «SQL» kabi so‘zlar ko‘p qatnashsa, u holda mazkur matn 20.23.17 rubrikasiga tegishli bo‘ladi. Berilgan Р matn tegishli bo‘lgan r rubrika quyidagi bosqichlarda amalga oshiriladi:
- P matn w so‘zlar to‘plamiga ajratiladi;
- har bir so‘z uchun 1 — jadval asosida — so‘zning rubrikator bo‘yicha muhimlik darajasi aniqlanadi;
- Har bir rubrika uchun umumiy muhimlik darajasi hisoblanadi;
- matn uchun umumiy muhimlik darajasi yuqori bo‘lgan r rubrika aniqlanadi;
Demak, matnning ITARini aniqlash keltirilgan 1-jadvalni to‘g‘ri va to‘liq to‘ldirilishiga uzviy bog‘liq. Agar matn bir nechta rubrikalar bo‘yicha bir xil muhimlik darajasiga ega bo‘lsa, u holda matn mavzusida qatnashgan so‘zlar rubrikasi qaraladi. Agar sarlavhada u yoki bu rubrikaga tegishli kalit so‘zlar ko‘p bo‘lsa, ushbu rubrika olinadi. 1-rasmda mazkur jarayonning algoritmi berilgan.
Shu o‘rinda keltirilgan algoritmning ayrim qismlariga kengroq to‘xtalib o‘tsak. Matnni so‘zlarga ajratish — mazkur jarayonda har xil formatlardagi matn (MS Word, PDF, HTML va hokazo) dastlab oddiy matn shakliga o‘tkaziladi. Hozirda mazkur ishni amalgan oshiruvchi bir qator tizimlar mavjud bo‘lib, shulardan biri Apache Tika tizimidir [4].
So‘ngra matn so‘zlarga ajratiladi va so‘zlar orasidan tabiy tildagi yordamchi so‘zlar (masalan, o‘zbek tilida: va, bilan, kabi, unday, bunday so‘zlari) olib tashlanadi. Qolgan so‘zlar asosida esa algoritmni keyingi bosqichi boshlanadi.
Mazkur maqolamizda ITAR tarkibidagi so‘zlar asosida uni qaysi rubrikaga tegishli ekanligini aniqlovchi algoritm keltirildi. Xulosa qilib aytganda, mazkur algoritmni avtomatlashtirilgan kutubxona tizimlarida, elektron kutubxona tizimlarida, ITARni o‘xshashlikka tekshirishga mo‘ljallangan tizimlarda foydalanish mumkin.
1-rasm. Matn ITARini aniqlash algoritmi.
Jasurbek Аtadjanov,
“O‘zbektelekom” Aksiyadorlik Kompaniyasi
“Axborot tizimlari” filiali
“Telefoniya billingi ishlab chiqish”
sektori boshlig‘i,
Hilola Islomova,
“O‘zbektelekom” Aksiyadorlik Kompaniyasi
“Axborot tizimlari” filiali
“Telefoniya billingi ishlab chiqish”
sektori oliy toifali dasturchi-muhandisi
Foydalanilgan adabiyotlar
- Мамчич, А.А. Систeма автоматизированного поиска, индeксирования и рeфeрирования научно-тeхничeской информации / А.А. Мамчич, Л.В. Стeпура, Д.А. Чeрников // Библиотeки в информационном пространствe: проблeмы и тeндeнции развития : матeриалы II Мeждунар. науч. конф. молодых учeных и спeциалистов, Минск, 16 фeвр.
- Erik H., Otis G., Michael McC. Lucene in Action – Covers Apache Lucene v.3.0// Manning Publications.-486p.,2009 y.
- Сeдова Я.А., Квятковская И. Ю. Интeллeктуальный анализ корпуса докумeнтов научной информации // Вeстник Астраханского государствeнного тeхничeского унивeрситeта. Сeрия: Управлeниe, вычислитeльная тeхника и информатика.- № 1 / 2011
- Atadjanov J. Axborot-kutubxona resurslari orasidan o’hshash matnlarni aniqlash algoritmi // TATU xabarlari. 2017 й, 4-сон.