Наиболее убедительной попыткой обуздать информационный хаос в Интернет является культивирование поисковых машин самого широкого профиля. В их функции входит автоматическое или полуавтоматическое сканирование (просмотр) узлов Сети, сопровождающееся индексированием (созданием баз данных) и классификацией их ресурсов (построением каталогов, структурированных по различным критериям) с возможностью последующего обслуживания поисковых запросов клиентов. Общий вид функциональной цепочки обобщенной поисковой машины, таким образом, следующий:
Сканирование —> индексирование —> классификация —> обслуживание Сканирование. В процессе сканирования ресурсов Сети принимают участие специальные программы, в WWW их часто называют «паучками». Работа таких программ обычно происходит в автоматическом режиме и состоит в последовательном обходе узлов Сети на основе заданного алгоритма, который может отдавать определенные предпочтения тем или иным хостам (узлам) как на основе их географической или профильной принадлежности, так и частоты изменения находящихся на них ресурсов. Кроме того, учитываются интересы компаний, стремящихся включить свои серверы в индексную базу данной поисковой машины и проинформировать о них широкий круг пользователей Сети. В отношении сказанного важной характеристикой машины является число уже отсканированных узлов и скорость работы сканирующих программ.
Индексирование предполагает формирование базы данных поисковой машины, организованной по определенным принципам. В первую очередь, безусловно, предметом сканирования являются текстовые документы. В результате такой операции для каждого документа формируется набор ключевых слов, при которым затем на стадии обслуживания поискового запроса пользователю выдаются адреса заиндексированных ресурсов.
Информационные объекты нетекстового характера (графика, видео, аудио) в общем случае также могут идентифицироваться и быть представлены в соответствующих базах данных.
Классификация ресурсов является дополнительной функцией поисковой машины, которая предполагает, например, присвоение при индексировании пометки о принадлежности данного информационного объекта к определенному типу.
Обслуживание пользователя той или иной поисковой машиной строится на разработке информационно-поискового языка, естественным образом связанного со структурой базы данных. Типичными являются два основных подхода: пользователю предоставляется возможность вести поиск интересующей его информации либо путем осмысленного на каждом шаге перемещения по дереву иерархического каталога, уже построенного и жестко определенного системой, либо путем реализации собственного поискового запроса в рамках поддерживаемого системой поискового языка. Конечной точкой обоих путей является локализация и извлечение соответствующего информационного объекта.
В процессе сканирования поисковой машине приходится получать доступ к ресурсам Сети, естественно, что такой доступ реализуется в рамках одного из протоколов прикладного уровня. В связи с этим принято различать поисковые машины по области сканирования, прежде всего это — гипертекстовые базы данных Web, ресурсы всемирного пространства GopherSpace, FTP-архивы.