Стратегия поиска информации в сети

Наиболее убедительной попыткой обуздать информационный хаос в Интернет является культивирование поиско­вых машин самого широкого профиля. В их функции входит автома­тическое или полуавтоматическое сканирование (просмотр) узлов Сети, сопровождающееся индексированием (созданием баз данных) и классификацией их ресурсов (построением каталогов, структурированных по различным критериям) с возможностью последующего обслуживания поисковых запросов клиентов. Общий вид функциональной цепочки обобщенной поисковой машины, таким образом, следующий:

Сканирование —> индексирование —> классификация —> обслуживание Сканирование. В процессе сканирования ресурсов Сети при­нимают участие специальные программы, в WWW их часто называют «паучками». Работа таких программ обычно происходит в автомати­ческом режиме и состоит в последовательном обходе узлов Сети на основе заданного алгоритма, который может отдавать определенные предпочтения тем или иным хостам (узлам) как на основе их геогра­фической или профильной принадлежности, так и частоты изменения находящихся на них ресурсов. Кроме того, учитываются интересы компаний, стремящихся включить свои серверы в индексную базу данной поисковой машины и проинформировать о них широкий круг пользователей Сети. В отношении сказанного важной характеристи­кой машины является число уже отсканированных узлов и скорость работы сканирующих программ.

Индексирование предполагает формирование базы данных поисковой машины, организованной по определенным принципам. В первую очередь, безусловно, предметом сканирования являются тек­стовые документы. В результате такой операции для каждого доку­мента формируется набор ключевых слов, при которым затем на ста­дии обслуживания поискового запроса пользователю выдаются адре­са заиндексированных ресурсов.

Информационные объекты нетекстового характера (графика, ви­део, аудио) в общем случае также могут идентифицироваться и быть представлены в соответствующих базах данных.

Классификация ресурсов является дополнительной функци­ей поисковой машины, которая предполагает, например, присвоение при индексировании пометки о принадлежности данного информа­ционного объекта к определенному типу.

Обслуживание пользователя той или иной поисковой маши­ной строится на разработке информационно-поискового языка, есте­ственным образом связанного со структурой базы данных. Типичны­ми являются два основных подхода: пользователю предоставляется возможность вести поиск интересующей его информации либо путем осмысленного на каждом шаге перемещения по дереву иерархиче­ского каталога, уже построенного и жестко определенного системой, либо путем реализации собственного поискового запроса в рамках поддерживаемого системой поискового языка. Конечной точкой обо­их путей является локализация и извлечение соответствующего ин­формационного объекта.

В процессе сканирования поисковой машине приходится полу­чать доступ к ресурсам Сети, естественно, что такой доступ реализу­ется в рамках одного из протоколов прикладного уровня. В связи с этим принято различать поисковые машины по области сканирова­ния, прежде всего это — гипертекстовые базы данных Web, ресурсы всемирного пространства GopherSpace, FTP-архивы.

Добавить комментарий