6.6. Основні елементи інформаційно-пошукової мови - Тема 6. - Комп’ютерні технології в юридичній діяльності - Каталог статей

Пт
19.04.2024
16:09

Категорії розділу

Тема 1. [47]

Характеристика сучасних юридичних інформаційних систем і технологій

Тема 2. [17]

Інформаційне забезпечення юридичної інформаційної системи

Тема 3. [13]

Технології захисту інформації

Тема 4. [9]

Системи автоматизації ділових процесів та управління документами. Електронна комерція

Тема 5. [7]

Інтелектуальні інформаційні системи в юридичній діяльності

Тема 6. [8]

Правові інформаційно-пошукові системи

Тема 7. [9]

Інформаційні системи законодавчих органів

Тема 8. [8]

Інформаційні системи Міністерства юстиції України

Тема 9. [14]

Інформаційні системи органів судової влади, прокуратури, судової експертизи

Тема 10. [13]

Інформаційні системи Міністерства внутрішніх справ України

Пошук по сайту

Друзі сайту

Курсові,практичні,реферати майже на шару

Практичні,контрольні,дипломи задарма

Створити сайт

Статистика

Онлайн всього: 1

Гостей: 1

Користувачів: 0

Форма входу

Навчальні матеріали

Головна » Статті » Комп’ютерні технології в юридичній діяльності » Тема 6.

6.6. Основні елементи інформаційно-пошукової мови

Метою будь-якої ІПС є надання користувачеві можливості пошуку інформації за відомими даними, або необхідною йому тематикою, вираженою спеціальними запитами. Процес складання запиту допускає багатоваріантність і є свого роду мистецтвом. Крім того, процедура пошуку має чітко визначену етапність: від визначення інформаційної потреби та області пошуку до аналізу результатів та вибору пертинентних (відповідних запиту користувача) об’єктів. На першому етапі визначається мета пошуку, його стратегія та область проведення (каталоги, бази даних). Наступна, оперативна частина пошукової процедури – це багатоваріантність підходів та рішень при формалізації запитів у процесі їх відпрацювання. Подальший етап - робота з документами, отриманими списком релевантних документів. Від вірного вибору переліку документів-першоджерел залежить результат роботи всіх трьох етапів пошукової процедури. У процесі пошуку необхідних документів ми орієнтуємось не на повні тексти документів, а на дані, що дозволяють отримати уявлення про їх зміст. Це можуть бути класифікаційні індекси, перелік бібліографічних даних, тематичні рубрики тощо. При переході від документа до його скороченого опису з метою використання для подальшого пошуку, ми ніби перекладаємо зміст документу на інформаційно-пошукову мову, тобто здійснюємо процес індексування інформації. Правила індексування добре погоджені між собою і забезпечують тісний взаємозв'язок багатьох технологічних і лінгвістичних рішень, прийнятих при побудові й використанні основних елементів системи в ряду "комплектування – програмне забезпечення – індексування інформації – процес проведення пошуку”. Опис змісту документа за допомогою ІПМ – це пошуковий образ документу (ПОД), а опис змісту запиту – пошуковий образ запиту (ПОЗ). Саме від вміння правильно їх представити багато в чому залежить якість роботи всієї ІПС. Тому при розробці автоматизованих ІПС велику увагу необхідно приділяти вибору інформаційно-пошукових мов. Нині однією з проблем каталогізування є опис електронних ресурсів, тобто документів на машиночитних носіях, які все активніше запроваджуються в інформаційному просторі. Зараз ця проблема виділилась у спеціалізовану галузь знань, що розвивається досить динамічно. Існує кілька методів та підходів, розробники яких намагаються врахувати всі особливості електронних видань. До низки найбільш значимих міжнародних розробок входять випущене ІФЛА "Международное стандартное библиографическое описание для электронных ресурсов" (International Standard Bibliographic Description for Electronic Resources ISBD(ER) (www.ifla.org/VII/s13/pubs/isbd.htm#1) та проект «Дублинское ядро» (Dublin Core), ініціатором якого є OCLC (www.dublincore.org). Ці розробки демонструють протилежні точки зору на бібліографічний опис ресурсів Мережі. Документ ІФЛА служить для каталогізаторів, забезпечуючи їх інструментарієм для професійного обліку електронних матеріалів. Проект «Дублінське ядро», напроти, призначений всім авторам сайтів: згідно концепції, кожний web-майстер має включати в структуру web-сторінки (область Mетаданих) визначений набір елементів, за допомогою яких описуються зміст та вихідні дані ресурсу. У Росії в галузі бібліографічного опису електронних видань також проведена значна робота. Своєрідним відображенням міжнародного стандарту ІФЛА став створений Російською державною бібліотекою та «Информрегистром» ГОСТ 7.82—2001 «Библиографическая запись. Библиографическое описание электронных ресурсов: Общие требования и правила составления». Він був прийнятий Міждержавною радою із стандартизації, метрології та сертифікації 22 травня 2001 р. Укладачі фактично взяли за основу ГОСТ 7.1—84 «Библиографическое описание документа. Общие требования и правила составления» і зробили спробу максимально наблизити опис Інтернет-ресурсів до опису традиційних документів, у результаті чого опис електронних видань набув вигляду, близького до бібліографічних записів на друковані видання. Слід відмітити, що даний стандарт українські бібліотекарі теж не можуть використовувати, оскільки Держстандартом України йому не надано чинності. Натомість бібліотекарі України вивчають і намагаються впровадити у бібліотечну практику практику Дублінський комплект даних. В Україні першою спробою надання інформації про новий стандарт метаданих, який сприяє більш ефективному пошуку інформаційних ресурсів в Інтернет, став матеріал, підготовлений ініціативною групою Української бібліотечної асоціації, представлений на сайті Публічної бібліотеки імені Лесі Українки (http://lucl.lucl.kiev.ua/win/metadata.html#L7). У 1999 році працівниками Кіровоградської обласної наукової бібліотеки розпочато проект "МЕТАДАТА” (http://www.library.kr.ua/dc/), головною метою якого є вивчення стандартів метаданих з наступним використанням на сервері бібліотеки. З початку 2000 р. усі html-сторінки, що публікуються на сайті бібліотеки забезпечуються описом Dublin Core. На сьогоднішній день сайт містить більш ніж 900 html-сторінок з метаданими Dublin Core. Отже, мова бібліографічного запису розширює можливості пошуку необхідної інформації конкретних документів та даних, допомагає в уточненні їх місцезнаходження. Головне в бібліографічному описі - досягти уніфікації, що допоможе підвищити якість та ефективність роботи. Забезпечити комп'ютерну каталогізацію документів та обмін бібліографічними даними, сприяти розробці сумісних внутрішніх форматів інформаційних систем бібліотек та інших бібліографічних установ України – такі основні завдання Національного формату представлення бібліографічних даних, проект якого представлено на сайті Національної бібліотеки ім. В.І.Вернадського (http://www.nbuv.gov.ua/library/ukrmarc.html). Він розробляється міжвідомчою робочою групою фахівців Національної бібліотеки України імені В.І.Вернадського (Національна академія наук України), Національної парламентської бібліотеки України (Міністерство культури і мистецтв України) та Наукової бібліотеки ім. М.Максимовича Київського національного університету імені Тараса Шевченка (Міністерство освіти і науки України) в рамках договору про інформаційну співпрацю за підтримки Міжнародного фонду "Відродження". Ця робота здійснюється з метою підтримки корпоративних технологій аналітико-синтетичної обробки документів і забезпечення гармонізації практики вітчизняної каталогізації з міжнародними стандартами. Дана розробка має суттєве значення для організації корпоративних систем і мереж, що базуються на використанні загальних даних. Для систематизації документів у бібліотеках звичайно застосовуються інформаційно-пошукові мови, що відносяться до традиційних бібліотечно-бібліографічних класифікацій. Державний стандарт України визначає класифікаційну систему як "інформаційну мову, призначену для структурного подання документів чи даних за допомогою класифікаційних індексів і відповідних термінів і з метою забезпечення реалізації класифікаційного предметного підходу з використанням, у разі необхідності, абеткового покажчика” . Найбільш розповсюдженими в Україні, як показали результати наукового дослідження "Електронні інформаційні ресурси бібліотек України”, проведеного Національною парламентською бібліотекою України, є Бібліотечно-бібліографічна класифікація (ББК) та Універсальна десяткова класифікація (УДК) . Бібліотечно-бібліографічна класифікація (ББК) – національна класифікаційна система Росії. Вона розроблялась продовж десятиріч (починаючи з 30-х років XX ст.) спеціалістами крупних бібліотек СРСР, і тепер залишається провідною класифікаційною інформаційно-пошуковою мовою ієрархічного типу. Зараз ББК існує у вигляді варіантів таблиць для наукових та обласних, масових, дитячих і шкільних бібліотек, таблиць для краєзнавчих каталогів. 1 листопада 2000 року директорами провідних бібліотек Росії було укладено угоду, в якій визначено відповідальність РДБ, РНБ та БАН за розвиток ББК і питання про еталон ББК. . Також було визначено головне завдання – вихід у світ Середніх таблиць ББК, що підбиває підсумок багаторічної роботи з удосконалення класифікації у 90-х роках. Функції федерального міжвідомчого координаційного центру, відповідального за видання і використання ББК, покладено на Науково-дослідний центр розвитку ББК (НДЦ ББК), що діє при Російській державній бібліотеці . ББК – найбільш розповсюджена класифікація і в Україні. Не маючи власної класифікації, вітчизняні бібліотечні фахівці намагаються якомога більше наблизити ці таблиці до національних потреб. Але нині це є досить проблематичним. НДЦ ББК має авторське право на видання таблиць і слідкує за його дотриманням. Українські бібліотечні працівники можуть, за домовленістю, видати україномовну версію лише повністю ідентичну до російського видання. Але останні повні таблиці класифікації для публічних бібліотек були видані в 1997 році, і тепер деякі розділи вже застаріли. Повних таблиць, які б охоплювали всі галузі знання, враховуючи сучасні нововведення, зараз не існує, а випуск окремих розділів розраховано до 2007 року. Тож склалася ситуація, коли кожна бібліотека, отримуючи російськомовний варіант, може трактувати і пристосовувати його до національних потреб по-своєму. Таким чином, ми втрачаємо основний принцип роботи з таблицями – їх уніфікацію у застосуванні. На превеликий жаль, у нас не існує центру, який би зміг правильно і чітко надавати бібліотекам рекомендації з впровадження нововведень. Можливо, слід розглянути питання залучення провідних каталогізаторів України до співпраці з фахівцями НДЦ ББК, що дало б можливість частково врахувати наші національні особливості, і доводити оперативніше інформацію про всі доповнення. Однією з головних вимог, які ставлять сьогодні до ПІС, є забезпечення користувача повною і релевантною інформацією, що можливо тільки при наближенні інформаційно-пошукових запитів до природної мови. Саме тому питання удосконалення пошукових можливостей і підвищення якості представлення даних пов'язані з проблемою взаємодії систематичного і предметного принципів лінгвістичного забезпечення АІБС. То ж важливою складовою ІПМ є мови дескрипторного типу: рубрикатори, тезауруси, мова ключових слів. Дескриптори – терміни природної мови, що виражають певні поняття. При роботі з тезаурусом чи рубрикатором, словником ключових слів користувачу не потрібні спеціальна бібліографічна підготовка, знання таблиць ББК або УДК, він в змозі самостійно знайти різнобічну інформацію про предмет. Предметний пошук, на противагу галузевому, є міждисциплінарним, міжгалузевим, комплексним. Користувач може отримати множину всіх документів про предмет, проблему, тему незалежно від галузей знань, до яких належать усі ці документи. При цьому найважливішим критерієм оптимальної роботи є повнота видачі документів за їх релевантним запитом. Цим визначається значимість координатного індексування документів, що передбачає багатоаспектне вираження основного змісту документа або запиту множиною ключових слів або дескрипторів. Координатне індексування включає наступні операції: - змістовний аналіз документа; - представлення змісту документу набором найбільш інформативних слів і словосполучень тексту; - надлишкове індексування документів, тобто доповнення відібраних з тексту ключових слів і словосполучень пов'язаними з ним за змістом ключовими словами, що не відображаються в тексті; - переклад ключових слів і словосполучень на дескрипторну ІПМ; - рішення про введення в пошуковий образ документа нових ключових слів, тобто тих, що не мають еквівалента в словниках нормативної лексики; - нормалізація форми нових ключових слів. Термін "тезаурус" широко використовується в лінгвістиці для позначення спеціального типу словників, які тією чи іншою мірою відображають "картину світу", "мовну модель світу" . Давньогрецьке слово "тезаурус", що буквально означає "скарбниця", майже на наших очах виросло у своєму значенні. Уперше цей термін застосував ще у XIII столітті Брунетто Латіні, назвавши так свою систематизовану енциклопедію. Друге значення цього терміна пов'язано зі словником, що має широку популярність, "Тезаурусом" Пиці. У цьому трактуванні термін "тезаурус" означає визначений спосіб організації, розташування лексичного складу в словнику. У лінгвістиці термін "тезаурус" використовував Л.В.Щерба у значенні - "сховище", "скарб", стосовно до так званого словника вживань, тобто словника, що фіксував по-можливості всі контексти, в яких виступає конкретне слово. Тезаурусом стали називати словник, що не просто вбирає в себе всі лексичні багатства мови, а упорядковує їх визначеним логіко-системним чином. У словнику-тезаурусі слова зводяться в групи, а об'єднання це відбувається на основі здатності того чи іншого слова передавати визначене поняття. Зараз у це поняття вкладають значення "вся кількість накопичених знань”. Перші тезауруси, що змогли задовольняти специфічні завдання інформаційного пошуку, були розроблені на початку 60-х років XX століття. Ідея застосування ІПТ для інформаційного пошуку документів визначається описом змісту документів та запитів за допомогою дескрипторів, що входять до його складу. Отже, тезаурус – контрольований словник термінів із зафіксованими семантичними взаємозв’язками, який охоплює одну чи більше спеціальних галузей знань . Відповідно до тематичного профілю розрізняють багатогалузеві, галузеві та вузькотематичні тезауруси. Особливе значенння має використання тематичних тезаурусів для спеціалізованих баз даних, побудова та використання політематичних тезаурусів та індекса ІПС на їх основі, бо сьогодні саме вони становлять найбільщий інтерес. Лексику тезаурусів складають не тільки дескриптори, але й їх синоніми, які дескрипторами не виступають. Наявність у тезаурусі синонімів має велике значення, але їх неправильне використання може призвести до втрати інформації. Щоб цього не відбувалося, із синонімів дескриптором вибирають найбільш вживане поняття, а від інших ¬¬– дають посилання до нього. Таке посилання означає, що замість одного терміну при формуванні пошукових образів документів чи запитів слід використовувати інший, що є дескриптором. Крім цього, в тезаурусі мають бути зафіксовані взаємозв’язки між термінами (рід – вид, частина – ціле та інші), що підвищує точність та повноту пошуку. Вступаючи до інформаційного простору сучасного світу, кожна країна повинна потурбуватися про лінгвістичне забезпечення предметного пошуку реалій своєї історії, культурних, інтелектуальних і духовних здобутків. Згідно з цим представники НПБ розробили «Інформаційно-пошуковий тезаурус НПБ України» , який дозволить уніфікувати пошуковий апарат електронних каталогів різних бібліотек. Наступний бажаний крок – розробка методики використання тезаурусу, практичних порад щодо його застосування. Широкого розповсюдження у світі при індексуванні документів набули і словники предметних рубрик, що являють собою єдиний алфавітний перелік предметних рубрик, синонімів із встановленими між ними парадигматичними взаємозв’зками та апаратом посилань. Як зразок системи предметизованого типу може розглядатися LCSH (предметний рубрикатор Бібліотеки конгресу США), що виконує одночасно функції і тематичного тезауруса. На Україні для розкриття змісту документів з мов дескрипторного типу каталогізатори на сьогодні найчастіше використовують мову ключових слів, що використовується при змістовній обробці документів. Словник ключових слів на відміну від інших ІПМ є ненормованим. Він базується на природній мові, і тому, з точки зору інформаційного пошуку, має ряд недоліків: наявність синонімів, полісемію тощо. Едуард Рубенович Сукіасян дає досить точну характеристику індексування на основі ключових слів – "вільне індексування”. При цьому не існує вихідного словника, а той, що накопичується в процесі роботи – не аналізується (5). Таким чином, ми маємо значні масиви бібліографічної інформації, але не можемо гарантувати нашим користувачам якісний повноцінний пошук. Отже, вивчаючи теоретичні аспекти та практичне застосування інформаційно-пошукових мов в процесі каталогізування можна зробити висновки, що кожна інформаційно-пошукова мова має свої переваги та недоліки, саме тому проблему підвищення ефективності пошуку доцільно вирішувати шляхом використання кращих якостей кожної з мов індексування. Паралельне використання декількох ІПМ – необхідна умова якісної систематизації та предметазиції документів, що забезпечують і простий, і міжгалузевий, і міждисциплінарний пошук. Значну увагу необхідно звернути на уніфікацію ІПМ, бо це дасть можливість зробити процес систематизації більш мобільним, і надасть більші пошукові можливості користувачам. Розглядаючи питання використання ІПМ завжди слід пам’ятати: які б швидкісні сучасні комп’ютери ми б не мали, без правильного використання інформаційно-пошукових мов ІПС буде працювати неефективно. Джерело: http://ubooks.com.ua/books/000102/inx43.php
1 2 3 4 5 Категорія: Тема 6. \| Додав: Каринка (15.12.2011)
Переглядів: 4457 \| Теги: елементи інформаційно-пошукової мов, інформаційно-пошукова мова \| Рейтинг: 0.0/0