Из разговора двух веб-мастеров:
– Вчера был на твоём сайте…
– Так это был ты!..
Кроме общей статистики сайта (количество уникальных посетителей, количество открытых ими веб-страниц и т.д.), большое значение для веб-мастеров имеет и другая информация, например: какие страницы сайта посещаются наиболее часто, какие поисковые запросы приводят посетителей на сайт, какими браузерами и операционными системами пользуются посетители, какое разрешение экрана на посетителей и т.д. и т.п.
Как правило, на каждом сайте устанавливается внешний бесплатный (реже – платный) счётчик. Ресурс, предоставивший счётчик, ведёт расширенную статистику посещения ресурса (включая всю вышеуказанную информацию), с которой можно ознакомиться в любое время. Особенно с такими счётчиками удобно работать тем, кто размещает свои сайты на бесплатном хостинге.
Большинство хостинг-провайдеров (хостеров) платного хостинга предоставляют своим клиентам возможность использовать уже установленные средства анализа. Например, для серверов Apache часто используется программа Webalizer , которая устанавливается в качестве дополнительного модуля веб-сервера.
Те, кто хостится на платном хостинге, могут также обрабатывать всю информацию по посещению сайта самостоятельно: ведь веб-мастер имеет полный доступ к лог-файлам своего сайта.
Что такое лог-файл веб-сайта
Лог-файл веб-сайта (log file , log -файл, лог-файл, лог) – это текстовый файл, в котором регистрируются все запросы к сайту, а также все ошибки, связанные с этими запросами.
Как происходит запись событий в лог-файл сайта
Поэтому одной из основных целей создания сайта должен быть не просто рост количества посещений, а рост релевантных посещений, – то есть не надо обманывать посетителей ложными названиями, обещаниями, ключевыми словами и т.д., – посетитель должен находить то, что ищет, он имеет на это право!..
Примечания
1. По подсчётам исследовательской компании Netcraft , в июне 2009 г. в Интернете насчитывалось 238 027 855 сайтов. При этом доля веб-серверов Apache составила около 47%, Microsoft IIS – 24,80%, qq,com – 12,79%, Google – 4,98%, nginx – 3,69%, Sun – 0,30%.
2. Лог-файлы серверов Apache
Логи – это специальные системные файлы, в которые программа выполняет запись определенных событий. Чаще всего они имеются в незашифрованном виде и открываются при помощи стандартных инструментов.
Вам понадобится
- - доступ в интернет;
- - программа «Блокнот».
Инструкция
Лог – это журнал регистрации событий в хронологическом порядке. Рано или поздно задаёшься вопросом: а что происходит на сервере, где находится сайт? Все заходы посетителей отражаются и записываются в лог-файлы на сервере. И становится интересно, что там записано.
Прежде всего, нужно найти этот лог-файл. Для этого нужно зайти в панель управления на хостинге и там его найти. Например, в Сpanel в разделе «Статистика» находим «Лог обращений». На других хостингах, в той же Сpanel логи находятся в разделе «журналы».
Стоит сказать, что разные хостеры предоставляют логи обращений, в которых содержится разная информация. Так, например, jino.ru не содержит информации об используемом User-Agents (эта важнейшая информация о параметрах посетителя – какой браузер, как представился посетитель при заходе на сервер), а вот reg.ru – всё будет представлено в лучшем виде и, кроме того, можно получить ещё кучу статистики.
Но более подробно можно посмотреть статистику посетителей, если сам лог-файл скачать к себе на компьютер. Для этого используем, например, FTP клиент FileZilla и скачиваем этот файл к себе на компьютер и начинаем его смотреть.
В общем случае, формат записи обращения к серверу такой (одна строка):
IP адрес или хост -[дата] «метод и адрес в конце протокол», код ответа, количество байт, «реферер» «юзер агент «.
IP адрес или хост – IP адрес посетителя.
[дата] – дата и время посещения (по установленному время сервера).
«метод и адрес в конце протокол» – здесь подробнее:
Первая часть текста в кавычках определяет, каким методом был заход на сайт.
GET — это когда данные передаются в адресной строке, например, когда пользователь жмет ссылку или набирает адрес в адресной строке браузера. Дополнительные данные не передаются.
POST — когда пользователь нажимает кнопку в форме. Здесь передаются дополнительные данные, например, изображение, т.е. пользователь заполнял форму и передал соответствующие данные при её заполнении.
код ответа – что ответил сервер на запрос пользователя. Обычно, ответ 200, т.е. сервер сообщил, что всё, что хотел от меня пользователь я ему отдал. Желательно посмотреть и список кодов состояния HTTP, в котором перечислены все коды ответа. Список легко найти в интернете. наберите «список ответов сервера» и будет показано много ссылок на ресурсы.
количество байт – количество байт, которые были переданы пользователю.
реферер — содержит URL источника запроса.
«юзер агент » — при посещении сервера браузер посетителя обычно посылает серверу информацию о себе.
Рассмотрим несколько примеров:
178.154.162.29 - - "GET /sitemap.xml.gz HTTP/1.0" 200 1483 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
С IP адреса 178.154.162.29, 21 июня 2012 года в 16:22:44 посетитель методом GET, запросил файл sitemap.xml.gz по протоколу HTTP/1.0. Сервер сообщил (код 200), что всё ОК и отдал 1483 байта. Реферера (источника запроса) – нет. Характерный признак бота. Пользователь представился (юзер агент).как «Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)» – это так представляется бот Яндекса — основной индексирующий робот.
Сам Яндекс сообщает, Как в логах сервера представляется робот
Бот от Google представляется так: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html). Список ботов Гугла .
37.45.170.132 - - "GET / HTTP/1.0" 200 67959 "http://forum.searchengines.ru/showthread.php?t=722607" "Opera/9.80 (Windows NT 5.1; U; ru) Presto/2.10.289 Version/12.00"
Расшифровка:
С IP адреса 37.45.170.132, 21 июня 2012 года в 19:22:45 пользователь получил всё, что хотел (код200), забрал 67959 байт, по запросу http://forum.searchengines.ru/showthread.php?t=722607. У посетителя был браузер Opera.
При просмотре лог–файла можно увидеть, сколько неизвестных ботов болтаются на вашем сайте. Очень полезно посмотреть список User-Agents (Spiders, Robots, Crawler, Browser).
Занятно посмотреть, когда на сайте пасутся куча всяких паучков, а посещаемости сайта нет. Не давно запустил новый сайт, так он и в индекс ещё не попал, но боты -спамеры уже отметились.