Развитие информационно-поисковых систем

В мире Интернет технологии WWW произвели революцию, след­ствием которой стали следующие факторы:

  • неуклонное нарастание числа серверов в Сети, реализующих http-протокол;
  • перенесение наиболее востребуемых ресурсов на Web-узлы с сер­веров, поддерживающих другие протоколы доступа;
  • разработка системы межпротокольных шлюзов WWW-Gopher,
  • WWW-FTP, WWW-Telnet.

Существование шлюзов между протоколами прикладного уровня позволяет, например, поисковой машине WWW сканировать ресурсы FTP-архивов, тем не менее инфраструктуры межпротокольных шлю­зов оказывается явно недостаточно для формирования однородного информационного пространства. В результате для исчерпывающего профессионального поиска информации в Сети следует прибегать к специальным поисковым средствам, характерным для среды того или иного протокола, а не ограничиваться наиболее развитыми сегодня средствами поисковых машин WWW, полагаясь на полноту охвата остальной части Интернет благодаря шлюзам.

По этой причине поиск информации в Интернет сегодня поднимается на уровень технологии.

Тем не менее система информационно-поисковых машин Сети данный момент является достаточно развитой, чтобы говорить об информационной самодостаточности Интернет. Последнее означает что с высокой вероятностью, профессионально подготовлены;
пользователь, располагающий полным арсеналом поисковых средств и пониманием логики размещения и именования различных информационных объектов Сети, в состоянии обнаружить заданный ресурс, если тот существует реально, за конечное число итераций поискового процесса.

Несмотря на стремительное нарастание присутствия в Сети средств мультимедиа, на сегодняшний день основным носителем ин­формации в ней остается текстовый документ. Как правило, наиболее эффективным средством поиска является поиск по запросу пользова­теля, по крайней мере в случае, когда доступ к информации заданно­го типа происходит впервые и место ее нахождения не представляет­ся очевидным.

Тем не менее и в этом случае остается серьезная проблема: спи­сок документов, полученных в результате отклика на пользователь­ский запрос, сводящийся, например, к указанию единственного клю­чевого слова для поиска совпадений с ним в пространстве WWW-страниц, может содержать в себе тысячи пунктов. Даже в этой ситуа­ции результат может иметь практическое значение, если отображае­мый список представляет документы в порядке убывания их предпо­лагаемой значимости для пользователя. Такое упорядочивание спи­ска, или ранжирование документов по релевантности (реальной при­годности), не является тривиальным и реализуется каждой поисковой машиной в рамках своего алгоритма.

Так, в процессе ранжирования Web-документов из списка отклика на заданный поисковый запрос кажется естественным учесть не толь­ко частоту, с которой термин встречается на странице, но и область текста (аннотация, заголовок и т.д.), где он был употреблен, посколь­ку очевидно, что та степень, в которой термин соответствует основ­ному смысловому содержанию документа, зависит от места его упот­ребления. К счастью, благодаря тому, что для разметки текста в WWW используется язык HTML, обладающий средствами особого выделения, например заголовков разного уровня на странице, оказывается достаточно просто реализовать алгоритм сканирования Web-страницы с учетом разного веса различных текстовых полей. Более того, многие поисковые машины WWW позволяют заранее задавать в поисковом запросе то текстовое поле, в котором должен встретиться данный термин.

Подводя итог сказанному, сегодня можно говорить о развитии информационно-поисковых систем в двух направлениях:

1) возрастание чувствительности поисковых программ к полям сканируемого документа, что фактически приводит к их внедрению в технологию WWW и подразумевает активное использование опера­ торов языка HTML для идентификации значимых для поиска полей документа;

2) развитие возможностей сужения поиска путем усложнения за­ проса (применение логических операторов, операторов близости и т. д. для наложения связей на элементы запроса — ниже будут подробно обсуждены).

Добавить комментарий