Что содержит база процедур интеллектуальных информационно поисковых систем
Интеллектуальные информационно-поисковые системы
Естественно-языковый интерфейс используется для:
§ доступа к интеллектуальным базам данных;
§ контекстного поиска документальной текстовой информации;
§ голосового ввода команд в системах управления;
§ машинного перевода c иностранных языков.
Гипертекстовые системы
Системы контекстной помощи
Их можно рассматривать, как частный случай интеллектуальных гипертекстовых и естественно-языковых систем. В отличие от обычных систем помощи, навязывающих пользователю схему поиска требуемой информации, в системах контекстной помощи пользователь описывает проблему (ситуацию), а система с помощью дополнительного диалога ее конкретизирует и сама выполняет поиск относящихся к ситуации рекомендаций. Такие системы относятся к классу систем распространения знаний (Knowledge Publishing) и создаются как приложение к системам документации (например, технической документации по эксплуатации товаров).
Системы когнитивной графики
Данные системы позволяют осуществлять интерфейс пользователя с ИИС с помощью графических образов, которые генерируются в соответствии с происходящими событиями. Такие системы используются в мониторинге и управлении оперативными процессами. Графические образы в наглядном и интегрированном виде описывают множество параметров изучаемой ситуации. Например, состояние сложного управляемого объекта отображается в виде человеческого лица, на котором каждая черта отвечает за какой-либо параметр, а общее выражение лица дает интегрированную характеристику ситуации. Системы когнитивной графики широко используются также в обучающих и тренажерных системах на основе использования принципов виртуальной реальности, когда графические образы моделируют ситуации, в которых обучаемому необходимо принимать решения и выполнять определенные действия.
Экспертные системы
Общие сведения
Экспертные системы как самостоятельное направление в искусственном интеллекте сформировалось в конце 1970-х гг. История ЭС началась с сообщения японского комитета по разработке ЭВМ пятого поколения, в котором основное внимание уделялось развитию «интеллектуальных способностей» компьютеров с тем, чтобы они могли оперировать не только данными, но и знаниями, как это делают специалисты (эксперты) при выработке умозаключений. Группа по экспертным системам при Комитете British Computer Society определила ЭС как «воплощение в ЭВМ компоненты опыта эксперта, основанной на знаниях, в такой форме, что машина может дать интеллектуальный совет или принять решение относительно обрабатываемой функции». Одним из важных свойств ЭС является способность объяснить ход своих рассуждений понятным для пользователя образом.
Область исследования ЭС называют «инженерией знаний». Этот термин был введен Е. Фейгенбаумом и в его трактовке означает «привнесение принципов и инструментария из области искусственного интеллекта в решение трудных прикладных проблем, требующих знаний экспертов». Другими словами, ЭС применяются для решения неформализованных проблем, к которым относят задачи, обладающие одной (или несколькими) из следующих характеристик:
§ задачи не могут быть представлены в числовой форме;
§ исходные данные и знания о предметной области обладают неоднозначностью, неточностью, противоречивостью;
§ цели нельзя выразить с помощью четко определенной целевой функции;
§ не существует однозначного алгоритмического решения задачи;
§ алгоритмическое решение существует, но его нельзя использовать по причине большой размерности пространства решений и ограничений на ресурсы (времени, памяти).
Главное отличие ЭС и систем искусственного интеллекта от систем обработки данных состоит в том, что в них используется символьный, а не числовой способ представления данных, а в качестве методов обработки информации применяются процедуры логического вывода и эвристического поиска решений.
ЭС охватывают самые разные предметные области (рис. 1.2), среди которых лидируют бизнес, производство, медицина, проектирование и системы управления.
3.3.2. Назначение экспертных систем
Роль ЭС заключается в решении достаточно трудных для экспертов задач на основе накапливаемой базы знаний, отражающей опыт работы экспертов в рассматриваемой проблемной области. Достоинство применения экспертных систем заключается в возможности принятия решений в уникальных ситуациях, для которых алгоритм заранее не известен и формируется по исходным данным в виде цепочки рассуждений (правил принятия решений) из базы знаний. Причем решение задач предполагается осуществлять в условиях неполноты, недостоверности, многозначности исходной информации и качественных оценок процессов.
Экспертная система является инструментом, усиливающим интеллектуальные способности эксперта, и может выполнять следующие роли:
§ консультанта для неопытных или непрофессиональных пользователей;
§ ассистента в связи с необходимостью анализа экспертом различных вариантов принятия решений;
§ партнера эксперта по вопросам, относящимся к источникам знаний из смежных областей деятельности.
Во многих случаях ЭС являются инструментом, усиливающим интеллектуальные способности эксперта. Кроме того, ЭС может выступать в роли:
§ консультанта для неопытных или непрофессиональных пользователей;
§ ассистента эксперта-человека в процессах анализа вариантов решений;
§ партнера эксперта в процессе решения задач, требующих привлечения
знаний из разных предметных областей.
Классификация ЭС
|
Для классификации ЭС используются следующие признаки:
§ способ формирования решения;
§ способ учета временного признака;
§ вид используемых данных и знаний;
§ число используемых источников знаний.
По способу формирования решения ЭС можно разделить на анализирующие и синтезирующие. В системах первого типа осуществляется выбор решения из множества известных решений на основе анализа знаний, в системах второго типа решение синтезируется из отдельных фрагментов знаний.
В зависимости от способа учета временного признака ЭС делят на статические и динамические. Статические ЭС предназначены для решения задач с неизменяемыми в процессе решения данными и знаниями, а динамические ЭС допускают такие изменения.
По видам используемых данных и знаний различают ЭС с детерминированными и неопределенными знаниями. Под неопределенностью знаний и данных понимаются их неполнота, ненадежность, нечеткость.
ЭС могут создаваться с использованием одного или нескольких источников знаний.
В соответствии с перечисленными признаками можно выделить четыре основных класса ЭС (рис. 1.3): классифицирующие, доопределяющие, трансформирующие и мультиагентные.
Классифицирующие ЭС решают задачи распознавания ситуаций. Основным методом формирования решений в таких системах является дедуктивный логический вывод.
Доопределяющие ЭС используются для решения задач с не полностью определенными данными и знаниями. В таких ЭС возникают задачи интерпретации нечетких знаний и выбора альтернативных направлений поиска в пространстве возможных решений. В качестве методов обработки неопределенных знаний могут использоваться байесовский вероятностный подход, коэффициенты уверенности, нечеткая логика.
Трансформирующие ЭС относятся к синтезирующим динамическим экспертным системам, в которых предполагается повторяющееся преобразование знаний в процессе решения задач. В ЭС данного класса используются различные способы обработки знаний:
§ генерация и проверка гипотез;
§ логика предположений и умолчаний (когда по неполным данным формируются представления об объектах определенного класса, которые впоследствии адаптируются к конкретным условиям изменяющихся ситуаций);
§ использование метазнаний (более общих закономерностей) для устранения неопределенностей в ситуациях.
§ реализация альтернативных рассуждений на основе использования различных источников знаний и механизма устранения противоречий;
§ распределенное решение проблем, декомпозируемых на параллельно решаемые подзадачи с самостоятельными источниками знаний;
§ применение различных стратегий вывода заключений в зависимости от типа решаемой проблемы;
§ обработка больших массивов информации из баз данных;
§ использование математических моделей и внешних процедур для имитации развития ситуаций.
По степени сложности решаемых задач экспертные системы можно классифицировать следующим образом:
По способу учета временного признака экспертные системы могут быть статическими или динамическими. Статические системы решают задачи при неизменяемых в процессе решения данных и знаниях, динамические системы допускают такие изменения. Статические системы осуществляют монотонное непрерываемое решение задачи от ввода исходных данных до конечного результата, динамические системы предусматривают возможность пересмотра в процессе решения полученных ранее результатов и данных.
По видам используемых данных и знаний экспертные системы классифицируются на системы с детерминированными (четко определенными) знаниями и неопределенными знаниями. Под неопределенностью знаний (данных) понимается их неполнота (отсутствие), недостоверность (неточность измерения), двусмысленность (многозначность понятий), нечеткость (качественная оценка вместо количественной).
По числу используемых источников знаний экспертные системы могут быть построены с использованием одного или множества источников знаний. Источники знаний могут быть альтернативными (множество миров) или дополняющими друг друга (кооперирующими).
В соответствии с перечисленными признаками классификации, как правило, выделяются следующие четыре основные класса экспертных систем (рис. 2.1).
Классы экспертных систем
Классифицирующие экспертные системы.
К аналитическим задачам прежде всего относятся задачи распознавания различных ситуаций, когда по набору заданных признаков (факторов) выявляется сущность некоторой ситуации, в зависимости от которой выбирается определенная последовательность действий. Таким образом, в соответствии с исходными условиями среди альтернативных решений находится одно, наилучшим образом удовлетворяющее поставленной цели и ограничениям.
Экспертные системы, решающие задачи распознавания ситуаций, называются классифицирующими, поскольку определяют принадлежность анализируемой ситуации к некоторому классу. В качестве основного метода формирования решений используется метод логического дедуктивного вывода от общего к частному, когда путем подстановки исходных данных в некоторую совокупность взаимосвязанных общих утверждений получается частное заключение.
Доопределяющие экспертные системы.
Более сложный тип аналитических задач представляют задачи, которые решаются на основе неопределенных исходных данных и применяемых знаний. В этом случае экспертная система должна как бы доопределять недостающие знания, а в пространстве решений может получаться несколько возможных решений с различной вероятностью или уверенностью в необходимости их выполнения. В качестве методов работы с неопределенностями могут использоваться байесовский вероятностный подход, коэффициенты уверенности, нечеткая логика. Доопределяющие экспертные системы могут использовать для формирования решения несколько источников знаний. В этом случае могут использоваться эвристические приемы выбора единиц знаний из их конфликтного набора, например, на основе использования приоритетов важности, или получаемой степени определенности результата, или значений функций предпочтений и т.д.
Для аналитических задач классифицирующего и доопределяющего типов характерны следующие проблемные области:
Трансформирующие экспертные системы.
В отличие от аналитических статических экспертных систем синтезирующие динамические экспертные системы предполагают повторяющееся преобразование знаний в процессе решения задач, что связано с характером результата, который нельзя заранее предопределить, а также с динамичностью самой проблемной области.
Многоагентные системы.
Для таких динамических систем характерна интеграция в базе знаний нескольких разнородных источников знаний, обменивающихся между собой получаемыми результатами на динамической основе. Для многоагентных систем характерны следующие особенности:
§ Проведение альтернативных рассуждений на основе использования различных источников знаний с механизмом устранения противоречий;
§ Распределенное решение проблем, которые разбиваются на параллельно решаемые подпроблемы, соответствующие самостоятельным источникам знаний;
§ Применение множества стратегий работы механизма вывода заключений в зависимости от типа решаемой проблемы;
§ Обработка больших массивов данных, содержащихся в базе данных;
§ Использование различных математических моделей и внешних процедур, хранимых в базе моделей;
§ Способность прерывания решения задач в связи с необходимостью получения дополнительных данных и знаний от пользователей, моделей, параллельно решаемых под проблем.
Для синтезирующих динамических экспертных систем наиболее применимы следующие проблемные области:
Информационно-поисковые системы. Вопросы к экзамену (стр. 2 )
| Из за большого объема этот материал размещен на нескольких страницах: 1 2 3 4 5 6 7 8 |
База процедур содержит прикладные программы, с помощью которых выполняются все необходимые преобразования и вычисления.
База закономерностей включает различные сведения, относящиеся к особенностям той среды, в которой действует система.
База метазнаний (база знаний о себе) содержит описание самой системы и способов ее функционирования: сведения о том, как внутри системы представляются единицы информации различного типа, как взаимодействуют различные компоненты системы, как было получено решение задачи.
База целей содержит целевые структуры, называемые сценариями, позволяющие организовать процессы движения от исходных фактов, правил, процедур к достижению той цели, которая поступила в систему от пользователя либо была сформулирована самой системой в процессе ее деятельности в проблемной среде.
Управление всеми базами, входящими в базу знаний, и организацию их взаимодействия осуществляет система управления базами знаний. С ее же помощью реализуются связи баз знаний с внешней средой. Таким образом, машина базы знаний осуществляет первую функцию интеллектуальной системы.
Выполнение второй функции обеспечивает часть интеллектуальной системы, называемая решателем и состоящая из ряда блоков, которые управляются системой управления решателя. Часть из блоков реализует логический вывод.
Блок дедуктивного вывода осуществляет в решателе дедуктивные рассуждения, с помощью которых из закономерностей из базы знаний, фактов из базы фактов и правил из базы правил выводятся новые факты. Кроме этого, данный блок реализует эвристические процедуры поиска решений задач как поиск путей решения задачи по сценариям при заданной конечной цели. Для реализации рассуждений, которые не носят дедуктивного характера, т. е. для поиска по аналогии, по прецеденту и т. д., используются блоки индуктивного и правдоподобного выводов.
Блок планирования применяется в задачах планирования решений совместно с блоком дедуктивного вывода.
Назначение блока функциональных преобразований состоит в решении задач расчетно-логического и алгоритмического типов.
Рис. 2.1. Общая структура интеллектуальной системы
2.2. Разновидности интеллектуальных систем
В зависимости от набора компонентов, реализующих рассмотренные функции, можно выделить следующие основные разновидности интеллектуальных систем:
* гибридные экспертные системы.
Интеллектуальные информационно-поисковые системы являются системами взаимодействия с проблемно-ориентированными (фактографическими) базами данных на естественном, точнее ограниченном как грамматически, так и лексически (профессиональной лексикой) естественном языке (языке деловой прозы). Для них характерно использование (помимо базы знаний, реализующей семантическую модель представления знаний о проблемной области) лингвистического процессора.
Экспертные системы являются одним из бурно развивающихся классов интеллектуальных систем. Данные системы в первую очередь стали создаваться в математически слабоформализованных областях науки и техники, таких как медицина, геология, биология и другие. Для них характерна аккумуляция в системе знаний и правил рассуждений опытных специалистов в данной предметной области, а также наличие специальной системы объяснений.
Расчетно-логические системы позволяют решать управленческие и проектные задачи по их постановкам (описаниям) и исходным данным вне зависимости от сложности математических моделей этих задач. При этом конечному пользователю предоставляется возможность контролировать в режиме диалога все стадии вычислительного процесса. В общем случае, по описанию проблемы на языке предметной области обеспечивается автоматическое построение математической модели и автоматический синтез рабочих программ при формулировке функциональных задач из данной предметной области. Эти свойства реализуются благодаря наличию базы знаний в виде функциональной семантической сети и компонентов дедуктивного вывода и планирования.
В последнее время в специальный класс выделяются гибридные экспертные системы. Указанные системы должны вобрать в себя лучшие черты как экспертных, так и расчетно-логических и информационно-поисковых систем. Разработки в области гибридных экспертных систем находятся на начальном этапе.
Наиболее значительные успехи в настоящее время достигнуты в таком классе интеллектуальных систем, как экспертные системы.
Важное место в теории искусственного интеллекта (ИИ) занимает проблема представления знаний. В настоящее время выделяют следующие основные типы моделей представления знаний:
* семантические сети, в том числе функциональные;
* фреймы и сети фреймов;
Различные разновидности семантических сетей обладают различной семантической мощностью, следовательно, можно описать одну и ту же предметную область более компактно или громоздко.
Фреймом называют структуру данных для представления и описания стереотипных объектов, событий или ситуаций. Фреймовая модель представления знаний состоит из двух частей:
* набора фреймов, составляющих библиотеку внутри представляемых знаний;
* механизмов их преобразования, связывания и т. д.
* Существует два типа фреймов:
В общем виде фрейм может быть представлен следующим кортежем:
В качестве данных фрейм может содержать обращения к процедурам (так называемые присоединенные процедуры). Выделяют два вида процедур: процедуры-демоны и процедуры-слуги. Процедуры-демоны активизируются при каждой попытке добавления или удаления данных из слота. Процедуры-слуги активизируются только при выполнении условий, определенных пользователем при создании фрейма.
Формально продукция определяется следующим образом:
Практически продукции строятся по схеме «ЕСЛИ» (причина или, иначе, посылка), «ТО» (следствие или, иначе, цель правила).
Полученные в результате срабатывания продукций новые знания могут использоваться в следующих целях:
* понимание и интерпретация фактов и правил с применением продукций, фреймов, семантических цепей;
* решение задач с помощью моделирования;
* идентификация источника данных, причин несовпадений новых знаний со старыми, получение метазнаний;
* составление вопросов к системе;
* усвоение новых знаний, устранение противоречий, систематизация избыточных данных.
При прямом поиске пользователь может задавать две группы вопросов, на которые компьютер дает объяснения:
* как получено решение. При этом компьютер должен выдать на экран трассу в виде ссылок на использованные правила;
* почему компьютер задал какой-то вопрос. При этом на экран выдается своеобразная трасса, которую компьютер хотел бы использовать для вывода после получения ответа на задаваемый вопрос. Вопрос почему может быть задан как в процессе консультации, так и после выполнения программы.
-Вопрос 14. Нормирование лексики в ИПС.
Вопрос 15. Индексирование в ИПС.
Под индексированием понимается процесс, состоящий из двух этапов:
определение тем, которые отражаются в данном документе;
выражение этих тем на языке, принятом в информационно-поисковой системе, и запись в виде поисковых образов, которые связываются с документом.
Для того чтобы при помощи ИПС можно было отыскать документы, соответствующие некоторому информационному запросу, сам запрос также должен быть заиндексирован. Процесс поиска осуществляется путем сопоставления поисковых образов документов с поисковым образом запроса. При полном или частичном совпадении образов документ считается соответствующим запросу и выдается пользователю.
Вопрос 16. Модели поиска. Языковые средства представления и структурирования электронных документов. Языки метаданных.
Метаданные в HTML-документах
Известно, что метаданные несут в себе справочную и управляющую информацию, которая используется разными агентами (клиентскими приложениями, поисковыми роботами) в различных целях.
В данной статье будут рассмотрены мета тэги, включение которых в документ, как правило, преследует следующие основные цели: управление процессом индексации документа (или всего сайта в целом) поисковыми роботами, описание содержимого данного документа (опять же для поисковых роботов) и управление некоторыми функциями броузеров. Все мета тэги описывать будет лишним, так как многие из них являются довольно абстрактными, то есть не несут никакой полезной информации с точки зрения агентов и просто ими игнорируются.
Мета тэги делятся две на группы: эквиваленты HTTP-заголовка и информационно-управляющую часть, не входящую в заголовок HTTP. Такое разделение связано, в основном, с синтаксисом ( и соответственно) и стандартом. Если же говорить о самих метаданных, то такое деление будет в какой-то степени условным, то есть речь идет не о том, что тэги NAME могут выступать в роли HTTP-заголовков, просто заголовок HTTP также является носителем справочно-управляющей информации. Вообще, эквиваленты HTTP имеют более низкий приоритет перед «истинным» заголовком, который генерируется WEB-сервером. Следует также отметить общий формат декларирования мета-тэгов в HTML-документе, как это показано ниже:
Далее следует описание наиболее часто встречающихся (в силу их полезности) мета тэгов. Их синаксис будет ясен из примеров, приведенных ниже.
1. EXPIRES (дата устаревания документа)
После истечения указанного срока документ будет каждый раз загружаться заново, а не браться из кэша.
Формат даты: RFC850
2. PRAGMA (управление кэшированием)
Возможно одно значение NO-CACHE, то есть данный документ не кэшируется броузером.
3. CONTENT-TYPE (Тип документа и его кодировка)
Было много споров относительно этого тэга. Он в основном требуется для правильного выбора кодировки броузером, но это актуально только тогда, когда WEB-сервер не поддерживает автоматическую перекодировку документов (например, для иностранных серверов, предоставляющих бесплатное место для вашего сайта, такая возможность не предусмотрена), в ином случае CONTENT-TYPE может только привести к путанице.
Явное указание языка документа. Данные этого тэга могут использоваться как поисковыми роботами, так и WEB-серверами.
Время (в секундах), через которое произойдет автоматическая перезагрузка документа или переход на другой документ с заданным URL.
6. CACHE-CONTROL (управление кэшированием)
Возможные случаи: кэширование в общем (PUBLIC) / частном (PRIVATE) кэше. Документ вообще не кэшируется (NO-CACHE) или кэшируется но не сохраняется (NO-STORE).
1. DESCRIPTION (описание документа)
Наряду с описанием ключевых слов этот тэг является, на наш взгляд, наиболее важным. Именно информация, содержащаяся в нем выводится в результатах поиска, выдаваемых поисковыми серверами на запрос пользователя.
В общем случае вид результатов поиска как правило выглядит так:
в) Описание документа, то есть DESCRIPTION или несколько сотен байт начала документа (включая атрибуты ALT, TITLE у картинок), если DESCRIPTION отсутствует. В первом случае пользователь получает достаточно краткое, но в то же время емкое описание документа, хотя это, конечно, зависит от автора документа, а во втором случае информация о документе носит довольно скудный характер, а именно это может быть бессмысленный набор слов или несколько первых предложений, которые, возможно, и не относятся к общей теме документа и, соответственно, его никак не характеризуют.
г) Рейтинг (коэффициент соответствия документа запросу пользователя).
2. KEYWORDS (ключевые слова)
Под словом «ключевые», понимается набор слов и фраз, наиболее полно характеризующих данный документ. Они активно используются поисковыми роботами при индексации. В конечном счете эти слова учитываются при выдаче результатов поиска и способствуют повышению рейтинга.
Как видно из описания применение DESCRIPTION и KEYWORDS никогда не является лишним, их наличие, при условии грамотного описания и правильного подбора ключевых слов, будет увеличивать рейтинг документа при выдаче результатов поиска поисковыми системами.
3. DOCUMENT-STATE (статус документа)
Данный тэг управляет частотой индексации и может принимать два значения: STATIC (документ статичен, то есть не меняется, и, следовательно, индексировать его нужно только один раз) и DYNAMIC (для часто изменяющися документов, которые нужно реиндексировать)
4. ROBOTS (управление процессом индексации)
5. RESOURCE-TYPE (тип ресурса)
Для обычных HTML документов значение этого мета тэга устанавливается равным «DOCUMENT»
6. URL (расположение основного сайта)
Базовый URL (не путать с BASE) определяет какой документ следует индексировать (чтобы не обрабатывать «зеркала»)
Допустимо добавлять в мета тэги атрибут LANG, указывающий язык данных, но это не обязательно.
Вопрос 17. Информационные ресурсы и их представление в информационно-поисковой системе.
Проблема, связанная с индексированием, заключается в том, что приписывание поискового образа документу или информационному ресурсу опирается на представление о словаре, из которого эти термины выбираются, как о фиксированной совокупности терминов. В традиционных системах существовало разбиение на системы с контролируемым словарем и системы со свободным словарем. Контролируемый словарь предполагал ведение некоторой лексической базы данных, добавление терминов в которую производилось администратором системы. Таким образом, все новые документы могли быть заиндексированы только теми терминами, которые были в этой базе данных. Свободный словарь пополнялся автоматически по мере появления новых документов. Однако, на момент актуализации словарь также фиксировался. Актуализация предполагала полную перезагрузку базы данных. В момент этого обновления перегружались сами документы и обновлялся словарь, а после его обновления производилась переиндексация документов. Процедура актуализации занимала достаточно много времени и доступ к системе в момент ее актуализации закрывался.
Индекс рассматриваемой системы состоит из таблицы идентификаторов страниц (page-ID), таблицы ключевых слов (Keyword-ID), таблицы модификации страниц, таблицы заголовков, таблицы гипертекстовых связей, инвертированного списка (IL) и прямого списка (FL).
Для обновления индекса применяется комбинация двух подходов. Первый можно назвать коррекцией индекса «на ходу». Для этого служит таблица модификации страниц. Суть такого решения довольно проста: старая запись индекса ссылается на новую, которая и используется при поиске. Когда число таких ссылок становится достаточным для того, чтобы ощутить это при поиске, то происходит полное обновление индекса, т. е. его перезагрузка.
-Вопрос 18. Функционирование и эксплуатация ИПС.
-Вопрос 19. Средства и методы решения лексико-семантических проблем в ИПС. Проблемы составления поисковых предписания. Обратная связь по релевантности.
Вопрос 20. Информационный поиск в сети Интернет.
Переход к информационному обществу XXI века породил беспрецедентный рост объемов и концентрации информации в глобальных компьютерных сетях. Это резко обострило проблему создания информационно-поисковых систем (ИПС) и их эффективного использования.
Проблема поиска ресурсов в сети Интернет была осознана достаточно скоро, и в ответ появились различные системы и программные инструменты для поиска, среди которых следует назвать системы Gopher, Archie, Veronica, WAIS, WHOIS и др. В последнее время на смену этим инструментам пришли «клиенты» и «серверы» всемирной паутины WWW.
Если попытаться дать классификацию ИПС сети Интернет, то можно выделить следующие основные типы:
1. ИПС вербального типа (поисковые системы – search engines)
2. Классификационные ИПС (каталоги – directories)
3. Электронные справочники («желтые» страницы и т. п.)
4. Специализированные ИПС по отдельным видам ресурсов
5. Интеллектуальные агенты.
Глобальный учет всех ресурсов Интернета обеспечивается вербальными и отчасти классификационными системами.
Для решения проблемы максимального охвата ресурсов Интернета создаются системы, называемые метапоисковыми (metasearch engines). Они не имеют собственных поисковых баз данных, не содержат никаких индексов и при поиске используют ресурсы других поисковых систем. За счет этого вероятность нахождения нужной информации возрастает. Для передачи запроса к поисковой системе используется специальный метапоисковый агент, который отвечает за процесс ретрансляции запроса в другие системы. После обработки полученного запроса каждая система возвращает метапоисковому агенту множество описаний и ссылок на документы, которые считает релевантными данному запросу. При всей привлекательности метапоисковых систем следует помнить и об их минусах и недостатках. Прежде всего, отсутствие единого стандарта языка запросов не позволяет метасистемам добиваться от поисковых систем, выполняющих запросы метапоисковых систем, такого же результата, какого может добиться опытный пользователь при работе с каждой машиной в отдельности.
Именно вербальным ИПС и уделено основное внимание в практической части пособия. Прежде всего, моделируется уровень пользователя, выражающийся в языках запросов и в запросно-ответных интерфейсах. Производится сравнительный анализ языков запросов различных ИПС сети Интернет.
Полезно представлять, как эти системы устроены. В составе любой поисковой системы можно выделить три основные части.
Каждая запись такого вспомогательного массива идентифицирована соответствующим идентификатором содержания (дескриптор, ключевое слово, просто термин, имя автора, название организации и т. п.) и содержит имена (адреса хранения) всех документов, в поисковых образах которых он содержится. Для каждого идентификатора содержания (поискового элемента данных) в инвертированном массиве вместе с адресом (номером, именем) документа может храниться (и обычно хранится) дополнительная информация, как-то: имя поля, номер предложения, в составе которых данный элемент встретился в данном документе, номер слова в предложении и т. д. Фиксация положения слова в тексте с точностью до номера предложения и номера этого слова в предложении позволяет построить гибкий язык запросов, позволяющий задавать расстояние между словами и предложениями в документе. Позиционные характеристики также используются при вычислении коэффициента релевантности и ранжировании документов в выдаче.
Нахождение необходимых документов через инвертированный файл осуществляется не сплошным просмотром всего массива, а просмотром лишь тех идентификаторов содержания в инвертированном файле, которые заданы в поисковом предписании, т. е. число операций сравнения слов при поиске пропорционально числу терминов поискового предписания. Такой способ работы систем снижает время на поиск и позволяет обслуживать потребителей информации в реальном масштабе времени.