Расшифровка лог файлов

Из разговора двух веб-мастеров:

– Вчера был на твоём сайте…

– Так это был ты!..

Кроме общей статистики сайта (количество уникальных посетителей, количество открытых ими веб-страниц и т.д.), большое значение для веб-мастеров имеет и другая информация, например: какие страницы сайта посещаются наиболее часто, какие поисковые запросы приводят посетителей на сайт, какими браузерами и операционными системами пользуются посетители, какое разрешение экрана на посетителей и т.д. и т.п.

Как правило, на каждом сайте устанавливается внешний бесплатный (реже – платный) счётчик. Ресурс, предоставивший счётчик, ведёт расширенную статистику посещения ресурса (включая всю вышеуказанную информацию), с которой можно ознакомиться в любое время. Особенно с такими счётчиками удобно работать тем, кто размещает свои сайты на бесплатном хостинге.

Большинство хостинг-провайдеров (хостеров) платного хостинга предоставляют своим клиентам возможность использовать уже установленные средства анализа. Например, для серверов Apache часто используется программа Webalizer , которая устанавливается в качестве дополнительного модуля веб-сервера.

Те, кто хостится на платном хостинге, могут также обрабатывать всю информацию по посещению сайта самостоятельно: ведь веб-мастер имеет полный доступ к лог-файлам своего сайта.

Что такое лог-файл веб-сайта

Лог-файл веб-сайта (log file , log -файл, лог-файл, лог) – это текстовый файл, в котором регистрируются все запросы к сайту, а также все ошибки, связанные с этими запросами.

Как происходит запись событий в лог-файл сайта

Поэтому одной из основных целей создания сайта должен быть не просто рост количества посещений, а рост релевантных посещений, – то есть не надо обманывать посетителей ложными названиями, обещаниями, ключевыми словами и т.д., – посетитель должен находить то, что ищет, он имеет на это право!..

Примечания

1. По подсчётам исследовательской компании Netcraft , в июне 2009 г. в Интернете насчитывалось 238 027 855 сайтов. При этом доля веб-серверов Apache составила около 47%, Microsoft IIS – 24,80%, qq,com – 12,79%, Google – 4,98%, nginx – 3,69%, Sun – 0,30%.

2. Лог-файлы серверов Apache

Логи – это специальные системные файлы, в которые программа выполняет запись определенных событий. Чаще всего они имеются в незашифрованном виде и открываются при помощи стандартных инструментов.

Вам понадобится

  • - доступ в интернет;
  • - программа «Блокнот».

Инструкция

  • Найдите лог-файл программы, который вы хотите расшифровать. Обычно они находятся в директории программы в Program Files, Application Data и даже в документах пользователя. Если у вас не включено отображение скрытых элементов, настройте их видимость в меню «Свойства папки» на вкладке «Вид».
  • Снимите отметку галочкой с пункта «Скрывать расширение для зарегистрированных типов файлов» и примените изменения. В случае, если вы не можете найти лог-файл, вполне возможно, что он скрыт в системе, для этого в том же меню свойств папок измените соответствующий параметр в конце списка на вкладке «Вид».
  • Когда вы найдете файл с расширением.log, не торопитесь его открывать, сначала посмотрите его размер. Если он не превышает одного мегабайта, откройте его при помощи текстового редактора «Блокнот».
  • Если же его размер максимально приближен к единице или даже превышает 1 Мб, воспользуйтесь программой Word Pad, Open Office Word или Microsoft Word. Зачастую лог-файлы содержат в себе обычный незашифрованный текст, который может иметь различные даты, историю сообщений или статусов, системные записи о состояниях программы и их изменениях и так далее.
  • Если же ваш лог-файл все же содержит в себе зашифрованную информацию. Воспользуйтесь сторонним программным обеспечением. Также для некоторых программ в отдельности имеются специально предназначенные для дешифровки логов утилиты, выполните их поиск в интернете на тематических сайтах.
  • При открытии лог-файлов иногда можно использовать другую кодировку, например, открыть через MS Office Word, выбрать альтернативный предложенному вариант, и так несколько раз до тех пор, пока не подберется оптимальный. Заранее узнавайте кодировку логов в обсуждениях программы на специальных сайтах и форумах.
  • Лог – это журнал регистрации событий в хронологическом порядке. Рано или поздно задаёшься вопросом: а что происходит на сервере, где находится сайт? Все заходы посетителей отражаются и записываются в лог-файлы на сервере. И становится интересно, что там записано.

    Прежде всего, нужно найти этот лог-файл. Для этого нужно зайти в панель управления на хостинге и там его найти. Например, в Сpanel в разделе «Статистика» находим «Лог обращений». На других хостингах, в той же Сpanel логи находятся в разделе «журналы».

    Стоит сказать, что разные хостеры предоставляют логи обращений, в которых содержится разная информация. Так, например, jino.ru не содержит информации об используемом User-Agents (эта важнейшая информация о параметрах посетителя – какой браузер, как представился посетитель при заходе на сервер), а вот reg.ru – всё будет представлено в лучшем виде и, кроме того, можно получить ещё кучу статистики.

    Но более подробно можно посмотреть статистику посетителей, если сам лог-файл скачать к себе на компьютер. Для этого используем, например, FTP клиент FileZilla и скачиваем этот файл к себе на компьютер и начинаем его смотреть.

    В общем случае, формат записи обращения к серверу такой (одна строка):

    IP адрес или хост -[дата] «метод и адрес в конце протокол», код ответа, количество байт, «реферер» «юзер агент «.

    IP адрес или хост – IP адрес посетителя.

    [дата] – дата и время посещения (по установленному время сервера).

    «метод и адрес в конце протокол» – здесь подробнее:

    Первая часть текста в кавычках определяет, каким методом был заход на сайт.

    GET — это когда данные передаются в адресной строке, например, когда пользователь жмет ссылку или набирает адрес в адресной строке браузера. Дополнительные данные не передаются.

    POST — когда пользователь нажимает кнопку в форме. Здесь передаются дополнительные данные, например, изображение, т.е. пользователь заполнял форму и передал соответствующие данные при её заполнении.

    код ответа – что ответил сервер на запрос пользователя. Обычно, ответ 200, т.е. сервер сообщил, что всё, что хотел от меня пользователь я ему отдал. Желательно посмотреть и список кодов состояния HTTP, в котором перечислены все коды ответа. Список легко найти в интернете. наберите «список ответов сервера» и будет показано много ссылок на ресурсы.

    количество байт – количество байт, которые были переданы пользователю.

    реферер — содержит URL источника запроса.

    «юзер агент » — при посещении сервера браузер посетителя обычно посылает серверу информацию о себе.

    Рассмотрим несколько примеров:

    178.154.162.29 - - "GET /sitemap.xml.gz HTTP/1.0" 200 1483 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"

    С IP адреса 178.154.162.29, 21 июня 2012 года в 16:22:44 посетитель методом GET, запросил файл sitemap.xml.gz по протоколу HTTP/1.0. Сервер сообщил (код 200), что всё ОК и отдал 1483 байта. Реферера (источника запроса) – нет. Характерный признак бота. Пользователь представился (юзер агент).как «Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)» – это так представляется бот Яндекса — основной индексирующий робот.

    Сам Яндекс сообщает, Как в логах сервера представляется робот

    Бот от Google представляется так: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html). Список ботов Гугла .

    37.45.170.132 - - "GET / HTTP/1.0" 200 67959 "http://forum.searchengines.ru/showthread.php?t=722607" "Opera/9.80 (Windows NT 5.1; U; ru) Presto/2.10.289 Version/12.00"

    Расшифровка:

    С IP адреса 37.45.170.132, 21 июня 2012 года в 19:22:45 пользователь получил всё, что хотел (код200), забрал 67959 байт, по запросу http://forum.searchengines.ru/showthread.php?t=722607. У посетителя был браузер Opera.

    При просмотре лог–файла можно увидеть, сколько неизвестных ботов болтаются на вашем сайте. Очень полезно посмотреть список User-Agents (Spiders, Robots, Crawler, Browser).

    Занятно посмотреть, когда на сайте пасутся куча всяких паучков, а посещаемости сайта нет. Не давно запустил новый сайт, так он и в индекс ещё не попал, но боты -спамеры уже отметились.