Развитие информационно-поисковых систем

Автор arsenikrmaks На чтение 3 мин

В мире Интернет технологии WWW произвели революцию, следствием которой стали следующие факторы:

неуклонное нарастание числа серверов в Сети, реализующих http-протокол;
перенесение наиболее востребуемых ресурсов на Web-узлы с серверов, поддерживающих другие протоколы доступа;
разработка системы межпротокольных шлюзов WWW-Gopher,
WWW-FTP, WWW-Telnet.

Существование шлюзов между протоколами прикладного уровня позволяет, например, поисковой машине WWW сканировать ресурсы FTP-архивов, тем не менее инфраструктуры межпротокольных шлюзов оказывается явно недостаточно для формирования однородного информационного пространства. В результате для исчерпывающего профессионального поиска информации в Сети следует прибегать к специальным поисковым средствам, характерным для среды того или иного протокола, а не ограничиваться наиболее развитыми сегодня средствами поисковых машин WWW, полагаясь на полноту охвата остальной части Интернет благодаря шлюзам.

По этой причине поиск информации в Интернет сегодня поднимается на уровень технологии.

Тем не менее система информационно-поисковых машин Сети данный момент является достаточно развитой, чтобы говорить об информационной самодостаточности Интернет. Последнее означает что с высокой вероятностью, профессионально подготовлены;
пользователь, располагающий полным арсеналом поисковых средств и пониманием логики размещения и именования различных информационных объектов Сети, в состоянии обнаружить заданный ресурс, если тот существует реально, за конечное число итераций поискового процесса.

Несмотря на стремительное нарастание присутствия в Сети средств мультимедиа, на сегодняшний день основным носителем информации в ней остается текстовый документ. Как правило, наиболее эффективным средством поиска является поиск по запросу пользователя, по крайней мере в случае, когда доступ к информации заданного типа происходит впервые и место ее нахождения не представляется очевидным.

Тем не менее и в этом случае остается серьезная проблема: список документов, полученных в результате отклика на пользовательский запрос, сводящийся, например, к указанию единственного ключевого слова для поиска совпадений с ним в пространстве WWW-страниц, может содержать в себе тысячи пунктов. Даже в этой ситуации результат может иметь практическое значение, если отображаемый список представляет документы в порядке убывания их предполагаемой значимости для пользователя. Такое упорядочивание списка, или ранжирование документов по релевантности (реальной пригодности), не является тривиальным и реализуется каждой поисковой машиной в рамках своего алгоритма.

Так, в процессе ранжирования Web-документов из списка отклика на заданный поисковый запрос кажется естественным учесть не только частоту, с которой термин встречается на странице, но и область текста (аннотация, заголовок и т.д.), где он был употреблен, поскольку очевидно, что та степень, в которой термин соответствует основному смысловому содержанию документа, зависит от места его употребления. К счастью, благодаря тому, что для разметки текста в WWW используется язык HTML, обладающий средствами особого выделения, например заголовков разного уровня на странице, оказывается достаточно просто реализовать алгоритм сканирования Web-страницы с учетом разного веса различных текстовых полей. Более того, многие поисковые машины WWW позволяют заранее задавать в поисковом запросе то текстовое поле, в котором должен встретиться данный термин.

Подводя итог сказанному, сегодня можно говорить о развитии информационно-поисковых систем в двух направлениях:

1) возрастание чувствительности поисковых программ к полям сканируемого документа, что фактически приводит к их внедрению в технологию WWW и подразумевает активное использование опера торов языка HTML для идентификации значимых для поиска полей документа;

2) развитие возможностей сужения поиска путем усложнения за проса (применение логических операторов, операторов близости и т. д. для наложения связей на элементы запроса — ниже будут подробно обсуждены).