Большая энциклопедия нефти и газа. Мастер разметки структурированных данных

Экзамен Информатика

Информация как ресурс. Способы хранения и обработки информации.

Информация от лат. «Information» означает разъяснение, осведомление, изложение.

В широком смысле информация – это общенаучное понятие, включающее в себя обмен сведениями между людьми, обмен сигналами между живой и неживой природой, людьми и устройствами.
Информация – это сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, кот-е уменьшают имеющуюся о них степень неопределенности, неполноты знаний.

Информатика рассматривает информацию как концептуально связанные между собой сведения, данные, понятия, изменяющие наши представления о явлении или объекте окружающего мира.

Информационные ресурсы – это отдельные документы и отдельные массивы документов, документы и массивы документов в информационных системах (библиотеках, архивах, фондах, банках).
Чтобы информация могла использоваться, причем многократно, необходимо ее хранить.

Хранение информации – это способ распространения информации в пространстве и времени. Способ хранения информации зависит от ее носителя (книга - библиотека, картина - музей, фотография - альбом). ЭВМ предназначена для компактного хранения информации с возможностью быстрого доступа к ней.
Обработка информации – это преобразование информации из одного вида в другой.
Обработка информации – сам процесс перехода от исходных данных к результату и есть процесс обработки. Объект или субъект, осуществляющий обработку - исполнитель обработки.
1-ый тип обработки: обработка, связанная с получением новой информации, нового содержания знаний.
2-ой тип обработки: обработка, связанная с изменением формы, но не изменяющая содержания (например,
перевод текста с одного языка на другой).

Важный вид обработки - кодирование – преобразование информации в символьную форму,
удобную для ее хранения, передачи, обработки. Другой вид обработки информации – структурирование данных (внесение определенного порядка в хранилище информации, классификация, каталогизация данных).
Ещё один вид обработки информации – поиск в некотором хранилище информации нужных данных, удовлетворяющих определенным условиям поиска (запросу).



Понятие структурированных данных. Определение и назначение базы данных.

Создавая базу данных, пользователь стремится упорядочить информацию по различным признакам и быстро извлекать выборку с произвольным сочетанием признаком. Сделать это возможно, только если данные структурированы.

Структурирование - это введение соглашений о способах представления данных.

Структурированные данные - это упорядоченные данные.

Неструктурированные данные – это данные, записанные, например, в текстовом файле: Личное дело № 1 Сидоров Олег Иванович, дата рожд. 14.11.92, Личное дело № 2 Петрова Анна Викторовна, дата рожд. 15.03.91.

Чтобы автоматизировать поиск и систематизировать эти данные, необходимо выработать определенные соглашения о способах предоставления данных, т.е. дату рожд. нужно записывать одинаково для каждого студента, она должна иметь одинаковую длину и опред. место среди остальной информации. Эти же замечания справедливы и для остальных данных (№ личного дела, Ф., И., О.) После проведения несложной структуризации с информацией, она будет выглядеть так:

Пример структурированных данных: № Ф. И. О. Дата рожд.

1 Сидоров Олег Иванович 14.11.92

Элементы структурированных данных:

1) А – поле (столбец) – это элементарная неделимая единица организации информации

2) Б – запись (строка) – это совокупность логически связанных полей

3) В – таблица (файл) – это совокупность экземпляров записей одной структуры.

База данных – это организованная на машинном носителе совокупность взаимосвязанных структурированных данных, содержащая сведения о различных сущностях некоторой предметной области (объектах, процессах, событиях, явлениях).

В широком смысле слова база данных – это совокупность сведений о конкретных объектах реального мира в какой-либо предметной области.

Под предметной областью понимается часть реального мира, подлежащая изучению для организации управления, автоматизации, например, предприятии, ВУЗ и т.д.

Назначение базы данных:

1)Контроль за избыточностью данных. Как уже говорилось, традиционные файловые системы неэкономно рас­ходуют внешнюю память, сохраняя одни и те же данные в нескольких файлах. При использовании базы данных, наоборот, предпринимается попытка исключить избыточность данных за счет интеграции файлов, чтобы избежать хранения нескольких копий одного и того же эле­мента информации.

2)Непротиворечивость данных. Устранение избыточности данных или контроль над ней позволяет сократить риск возникновения противоречивых состояний. Если элемент данных хранится в базе только в одном экземпляре, то для изменения его значения потребуется выполнить только одну операцию обновления, причем новое значение станет доступным сразу всем пользователям базы данных. А если этот элемент данных с ведома системы хранится в базе данных в нескольких экземплярах, то такая система сможет следить за тем, чтобы копии не противоречили друг другу.

3)Совместное использование данных. Файлы обычно принадлежат отдельным лицам или целым отделам, которые используют их в своей работе. В то же время база данных принадлежит всей организации в целом и может совместно использоваться всеми зарегистрированными пользователями. При такой организации работы большее количество пользователей может работать с большим объемом данных. Более того, при этом можно создавать новые приложения на основе уже существующей в базе данных информации и добавлять в нее только те данные, которые в настоящий момент еще не хранятся в ней, а не определять заново требования ко всем данным, необходимым новому приложению.

4)Поддержка целостности данных. Целостность базы данных означает корректность и непротиворечивость хранимых в ней данных. Целостность обычно описывается с помощью ограничений, т.е. правил под­держки непротиворечивости, которые не должны нарушаться в базе данных. Ограничения можно применять к элементам данных внутри одной записи или к связям между записями. Например, ограничение целостности может гласить, что зарплата сотрудника не должна превышать 40 000 рублей в год или же что в записи с данными о сотруднике номер отделения, в котором он работает, должен соответствовать реально существующему отделению компании.

5)Повышенная безопасность. Безопасность базы данных заключается в защите базы данных от несанкционированного доступа со стороны пользователей. Без привлечения соответствующих мер безопасности интегрированные данные становятся более уязвимыми, чем данные в файловой системе. Однако интеграция позволяет определить требуемую систему безопасности базы данных, а СУБД привести ее в действие. Система обеспечения безопасности может быть выражена в форме учетных имен и паролей для идентификации пользователей, которые зарегистрированы в этой базе данных. Доступ к данным со стороны зарегистрированного пользователя может быть ограничен только некоторыми операциями (извлечением, вставкой, обновлением и удалением).

Это перевод статьи Нейта Харриса для блога Ahrefs. Больше об авторе можно узнать из его страницы Facebook .

Информация полезна для вебмастеров и SEO-специалистов продвинутого уровня. Хотя и начинающие могут оценить важность структурированных данных в современном SEO.

Вы узнаете про

  • особенности применения Schema.org,
  • тонкости JSON-LD,
  • интересные фишки в Google Search Console (по старинке — Google Webmaster),

Поисковые системы дали ясно понять: крайне важную роль в поиске будущего будут иметь хорошие сниппеты.

Нам известно, что Google добавляет каждые пару месяцев новый блок в Google Search Gallery .

Google отлично понимает содержание контента на сайте. Когда же речь идет о нюансах в статьях и специфике каждой страницы – тут роботу поисковика уже нужна помощь. Именно поэтому структурированные данные помогут вам хорошо ранжироваться.

Структурированные данные – это общий термин, который относится к любым организованным данным определенного формата.

Это не SEO-термин. Реляционные базы данных - основополагающее ядро ​​всех вычислений – полагаются на структурированные данные. SQL - структурированный язык запросов - управляет упорядоченными данными.

Когда создатель сайта хочет представить страницу как профиль пользователя, страницу события или список вакансий, в коде нужно поместить определенную маркировку.

Чем больше страниц на сайте, которые поисковый робот будет воспринимать как XML или JSON объекты, тем лучше ваш контент будет ранжироваться в выдаче.

Де-факто в интернете основным языком описания структурированных данных является schema.org. Например, для представления авиаперелета schema.org содержит правила для описания типа авиаборта, номера выхода на посадку, меню.

Проект был основан в сотрудничестве между Google, Microsoft, Yahoo и Яндекс. Он остается открытым исходным кодом и технически редактируется кем-либо. Однако, как и любой проект W3C, процесс внесения изменений не так прост. Если вам хочется добавить новый тип структурированных данных, смиритесь с техническими и бюрократическими проволочками. В итоге вы получите новый тип разметки, включенный в библиотеку Schema.org.

4 варианта структурирования данных
  • Микроразметка JSON-LD - один из новых форматов структурированных данных, - именно его регулярно рекомендует Google. Вместо того, чтобы расставлять теги для каждого html элемента, JSON-LD представляет собой большой блок информационного кода, который сообщает роботу Google: «Тип воздушного судна, время отправления, меню и т. п.».
  • JSON-LD также хорош тем, что на странице нет необходимости размещать какие-либо визуальные элементы контента, содержащие информацию.

  • RDFa+GoodRelation - это еще одно синтаксическое расширение HTML. RDFa отличается от JSON по сути. Вместо того, чтобы помещать структурированные данные в один блок, HTML-расширение разбросано по всему документу и структурирует ваши данные «на лету».
  • Данный синтаксис можно представить как еще один атрибут. Например, как class. Этот формат может быть полезен для маркировки динамических элементов (отзывы). В таких случаях он быстрее и удобнее, чем использование JSON.

  • Microdata - расширение языка в формате HTML5. Используется редко.
  • Microformat aka μF - микроформат, наиболее часто встречающийся в форме hAtom/hentry.
  • Маркировка данных Google Search Console

    Для сайтов, на которых нет большого числа элементов для маркировки, Google предлагает полезный инструмент в GSC, позволяющий владельцам сайтов быстро применять структурированные данные. Однако приведем несколько причин не использовать Data Highlighter

    • Разметка ярлыка ваших данных будет нарушена, если что-либо изменится в форматировании ваших страниц.
    • Маркировка доступна только для поискового робота Google.
    Как структурированные данные помогают SEO

    Расширенные сниппеты (т. н. Rich Snippets ) - наиболее желанные для всех вебмастеров, как повышающие CTR. Например, вывод рейтинга товаров непосредственно в сниппете страницы для интернет-магазина.

    • Граф знания - блок о бренде или личности, например:

    • AMP, Google News и т. д. - для того, чтоб попасть в Google News или иметь пометку AMP, сайт должен иметь множество различных типов микроразметки, например события .

    • Индексация и ранжирование контента. Поисковики заявляют, что лучше понимают контекст и смысл содержимого страницы, если вы применяете микроразметку, даже если нет явно заметных результатов.
    • Другие поисковые системы. Каждая поисковая система обрабатывает структурированные данные по-разному. У Yandex есть поля, необходимые для успешной обработки, которых Google не требует. Результаты первой страницы Baidu в значительной степени зависят от структурированных данных.
    Мифы факторов ранжирования Микроразметка не является фактором ранжирования.

    В прошлом мы наблюдали некий трюк со стороны Google, учитывающий микроразметку. Google понимал в выдаче брендовые запросы. Например, если вы владелец пиццерии «Tim`s Pizzeria» в Бруклине и кто-то набирает запрос «tims pizzeria brooklyn», то ваш сайт появится на первом месте в выдаче, даже не имея ссылочного профиля.

    Если Google еще не понял, что ваш сайт является аналогом «Tim`s Pizzeria», то микроразметка может в этом помочь, впрочем как и с графом знаний, который был описан выше.

    Микроразметка - это не магия, и не добавляет качества сайту в глазах поисковых систем. Это нужно помнить, не забывая о её преимуществах.

    Примеры применения структурированных данных

    Использование JSON-LD является наипростейшим способом внедрения структурированных данных на сайт. Эта разметка сообщает, что ваш сайт «представляет собой набор связанных веб-страниц и других элементов, которые обычно размещаются на одном домене и доступны по определенным URL-адресам».

    Вставьте данный код на ваш сайт так же, как, например, код GA, заменив yoursite.com вашим URL.

    { "@type": "WebSite", "url": "https:// ahrefs.com/" }

    Запустите инструмент Google и кликните на «Run Test».

    Вы должны увидеть примерно следующее:

    Приведем пример для блога ahrefs, где можно включить следующий блок JSON-LD.

    { "@context": "https://schema.org", "@type": "BlogPosting", "url": "https://ahrefs.com/blog/bla-bla-bla", "headline": "What is Structured Data? And Why Should You Implement It?", "alternativeHeadline": "Stuctured Data 101", "description": "Structured data is bla bla bla bla", "datePublished": "July 4, 2017", "datemodified": "July 5, 2017", "mainEntityOfPage": { "@type": "WebPage", "url": "https://ahrefs.com/blog/bla-bla-bla" }, "image": { "@type": "imageObject", "url": "http://example.com/images/image.png", "height": "600", "width": "800" }, "publisher": { "@type": "Organization", "name": "ahrefs", "logo": { "@type": "imageObject", "url": "http://example.com/images/logo.png" } }, "author": { "@type": "Person", "name": "Nate Harris" }, "editor": { "@type": "Person", "name": "Tim Soulo" }, "award": "The Best ahrefs Guest Post Ever Award, 2017", "genre": "Technical SEO", "accessMode": ["textual", "visual"], "accessModeSufficient": ["textual", "visual"], "discussionUrl": "https://ahrefs.com/blog/bla-bla-bla/#disqus_thread", "inLanguage": "English", "articleBody": "Search engines have made it clear: a vitally important part of the future of search is rich results. While controversial..." }

    Многим понадобится внедрить микроразметку для интернет-магазина. Ниже приведен пример кода для сайтов eCommerce.

    { "@context": "http://schema.org", "@type": "Product", "url":"https://timspizzeria.com/goat-cheese-pizza", "aggregateRating": { "@type": "AggregateRating", "ratingValue": "3.5", "reviewCount": "2", "bestRating": "5", "worstRating": "1" }, "description": "Tim"s pizzeria"s most delicious cheesiest cheese pizza. Made with 100% goat cheese turned blue.", "name": "Tim"s Goat Cheese Pizza", "image":["https://timspizzeria.com/goat-cheese-pizza-hero.jpg","https://timspizzeria.com/goat-cheese- pizza-olives.jpg","https://timspizzeria.com/goat-cheese-pizza-pineapple.jpg"], "offers": { "@type": "Offer", "availability": "http://schema.org/InStock", "image":"https://timspizzeria.com/goat-cheese-pizza-hero.jpg", "price": "26.00", "priceCurrency": "USD", "sku":"1959014", "seller":{ "@type":"Organization", "name":"Tim"s Pizzeria"}, "availability": "http://schema.org/InStock"}, "review": [ { "@type": "Review", "author": "Nate", "datePublished": "2017-07-041", "reviewBody": "Dope lit funkytown! Delicious pizza.", "name": "n8 h", "reviewRating": { "@type": "Rating", "bestRating": "5", "ratingValue": "5", "worstRating": "1" } }, { "@type": "Review", "author": "Dmitry", "datePublished": "2016-05-22", "reviewBody": "This is the grossest thing I"ve witnessed, let alone tasted.", "name": "OMG this pizza is abhorrent", "reviewRating": { "@type": "Rating", "bestRating": "5", "ratingValue": "1", "worstRating": "1" } } ] } }

    Стоит отметить, что Google понимает JSON-LD, даже если ее элементы рендерятся асинхронно, поэтому микроразметку можно легко внедрить через Google Tag Manager, AJAX и т. д.

    Инструменты структурированных данных

    Владельцам сайтов на WordPress можно порекомендовать плагин Schema для быстрой и легкой настройки микроразметки. Большинство плагинов микроразметки для WordPress имеют множество проблем и недоработок. Многие из этих плагинов передают в качестве элементов микроразметки лишние данные дизайн-темы WP-сайта, такие как: author, date Published, Featured Image и т. д.

    Однако использование плагинов не позволит вам охватить все возможности Schema, которые поддерживает Google. Тонкая и качественная настройка микроразметки - это путь к успеху в выдаче Google. Давайте посмотрим на необычную настройку карточек товаров Sephora . Также интересная микроразметка применена на .

    А вот пример экспериментальной разметки страницы события, которую автор статьи внедрял для одного из своих клиентов.

    Данная микроразметка делает сайт клиента автора одним из немногих (например, suggestedMinAge используется всего лишь от 100 до 1000 доменами)

    Еще одна проблема SEO-плагинов для микроразметки в том, что их использование часто приводит к дублям. Это может быть проблемой, например, для карточек товаров: Google может считать два элемента микроразметки одного товара как два разных товара.

    С данной проблемой автор статьи работает в настоящее время на одном из сайтов: Shopify имеет внедренную микроразметку товаров Schema, которая дублирует внедренную автором микроразметку для расширенных сниппетов, содержащую секции aggregate ratings и review (отзывы и рейтинг).

    Кто то может предложить https://www.schemaapp.com/ … Автор статьи не сталкивался и не станет рекомендовать «за» или «против». Однако вот, что стоит отметить:

    Schema App это набор инструментов, позволяющий интернет маркетологам создавать и управлять микроразметкой Schema даже не имея глубоких знаний в языке Scherma.org и программировании.

    Все это кажется слишком сложным

    Для мгновенного результата базовые возможности микроразметки несомненно помогут SEO. Основные структурированные данные могут быть внедрены с помощью плагинов. Если Вы выбрали применение плагинов, то стоит быть готовыми к сложностям, описанным выше.

    Все те, кто работает с крупными проектами, должны уделить больше внимания расширенной микроразметке. Задумайтесь над тем, что, хорошее понимание структурированных данных - это ваш «золотой билет» в экспериментирование с поисковой выдачей. Это гарантирует, что ваш сайт будет «понятен» поисковой системой.

    И хорошая новость в том, что работу с микроразметкой не надо делать регулярно. Достаточно проработать этот вопрос грамотно один раз, и можно больше к нему не возвращаться.

    Поскольку внедрение микроразметки связано с программированием, то является своеобразной «страшилкой», и очень часто игнорируется SEO-специалистами. Автор уверен, что некоторым техническим SEO-специалистам это может не понравится и считает, что Schema не используется в полной мере всеми оптимизаторами.

    Выводы

    Техническое SEO бескрайне многообразно и широко по своим возможностям, и понимание структурированных данных является фундаментальным. Фактически Semantic Web может стать погибелью для SEO специалистов: чем больше данных мы скармливаем Google, тем больше создается расширений, которые уводят трафик из органической выдачи.

    Когда мы грамотно внедряем структурированные данные на сайт, то мы обучаем поисковые системы все лучше обходиться без нас в будущем. Р азметка данных, с одной стороны будучи полезной, является удачным самообучающимся инструментом Google.

    Однако, польза структурированных данных настолько велика, что микроразметку нельзя игнорировать. Не говоря о потенциальном росте трафика, хорошо выполненная маркировка данных повышает шансы сайта быть учтенным постоянно развивающимися дополнениями и расширениями органической выдачи со стороны Google.

    Разметка и микроформаты становятся невероятно важными элементами локального ранжирования. Schema.org был создан в прошлом году именно для того, чтобы создать общий язык взаимодействия крупнейших поисковых систем — Google, Bing и Yahoo — который позволял бы идентифицировать тип контента, предоставляемого поисковой системе веб-сайтами. Мы лишь начинаем открывать для себя все возможности schema, однако факты таковы, что если вы не присоединитесь к нам сейчас, вы рискуете остаться в хвосте.

    Начнем с основ: добавления schema-разметки к адресу вашего веб-сайта или блога. Если ваш бизнес завязан на конкретной гео-локации или сфере услуг, вам непременно следует указывать на сайте свой физический адрес.

    Сделать так, чтобы поисковая система могла определить ваше точное местоположение, временами бывает достаточно нелегко. Но при использовании семантической разметки вы легко можете сообщить поисковику ваш топографический адрес, включая название улицы, а также широту и долготу.

    Совмещение информации о собственном местоположении с номером контактного телефона при имеющихся в настоящий момент инструментах, с другой стороны, может потребовать нетривиальных талантов. Ниже мы подробно разберем, как осуществить разметку данных таким образом, чтобы быть уверенным как в точности и валидности, так и в последовательности предоставляемого кода.

    Давайте начнем с почтового адреса. Воспользуйтесь Schema-Creator.org и сделайте несколько первых шагов. Здесь вы можете указать саму организацию, а также более конкретно задать сферу ее деятельности, если таковая найдется среди имеющихся в списке.

    Можете удалить строку с описанием, чтобы сэкономить место. Убедитесь лишь, что вы не тронули название компании, URL и физический адрес. Можете также поколдовать со стилями, однако перед использованием протестируйте код на странице проверки структурированной разметки в Google .

    Schema-Creator.org также добавляет в код построчную разбивку, из-за чего адрес начинает выглядеть «неестественно». Избавьтесь от тех фрагментов кода, что разделяют город, регион, почтовый индекс и страну. В примере выше вы можете видеть, насколько «странно» адрес будет выглядеть для читателя, если вы этого не сделаете.

    После того как приложение создаст код для вашей компании, вы можете добавить его на свой сайт, вновь проверив оформление и точность введенной информации. Скорее всего, вы вставите адрес в футер или разместите в боковой панели, а может еще в разделе «о нас» и на странице для обратной связи. Не стесняйте себя, вы можете разместить код сколь угодное число раз.
    Если же вы решите создать разметку, включающую ваш контактный телефон, вам придется воспользоваться другим инструментом, поскольку Schema-Creator.org не позволяет добавлять номер телефона в качестве данных об организации. Воспользуйтесь Microtdatagenerator.com .

    Схема данных для локальных предприятий здесь включает строку с телефонным номером. Заполнив ячейки, вы сможете вставить код на свой сайт. Однако эта версия не включает строку информации о компании и ссылки, так что вы, вероятно, решите совместить фрагменты кода, полученного в обоих приложениях так, чтобы собрать нужную вам схему.

    Не забывайте: Название компании и Телефон здесь являются фрагментами Local Business Schema, в то время как физический адрес магазина входит в Postal Address schema. По моему мнению, наиболее запутанным аспектом Schema является комбинирование различных схем. Их очень легко объединять, однако следует соблюдать осторожность и следить за правильностью интерпретации подобных комбинаций. Один пропукщенный и мы получем абсолютно нечитабельный фрагмент.

    Но вы не должны ограничивать себя — добавьте к своей разметке информацию о широте и долготе. Она может пригодиться во множестве приложений, включая использующие показатели GPS или данные Google Maps.

    Нам придется слегка потанцевать с бубном над уже имеющимся у нас кодом, однако результат того стоит! Когда закончим, у нас будет код, который вы сможете использовать на своём сайте, лишь заменив данные о компании на свои собственные.

    Имеющийся у нас код выглядит примерно так, как в образце ниже. Скопируйте и вставьте фрагмент в Блокнот, там вы сможете легко его править — Word замусорит код и в конце с ним будет сложнее работать.

    Mindy\’s Kitten Movie Store

    123 Angry Cat Lane
    Glenwood Springs ,
    CO
    81601

    Phone: < span itemprop="telephone«>970-555-CATZ

    Далее мы должны отправиться на Schema.org и найти синтаксис для широты и долготы. Эти данные являются частью другой схемы, которую можно найти в разделе «Thing > Intangible > StructuredValue > GeoCoordinates» на сайте schema.org.

    Следует убедиться, что мы правильно вставляем эту информацию в наш код. Вы можете видеть это на примере схем «LocalBusiness» и «PostalAddress» структурированных по-разному и имеющих отличающиеся div-теги. Мы можем использовать то, чему уже научились ранее и добавить новый div для Latitude и Longitude — широты и долготы. После этого наш код будет выглядеть следующим образом

    Mindy\’s Kitten Movie Store

    123 Angry Cat Lane
    Glenwood Springs ,
    CO
    81601

    Phone: 970-555-CATZ


    38.8977 N
    77.0366 W

    Здесь действует правило известное всем с начальной школы: красный цвет — это плохо!

    Итак, теперь вы знаете, как создавать, редактировать, править и проверять разметку для адреса и местоположения вашей компании с помощью Schema.org. Если вы пользуетесь более удобным методом или у вас есть какие-нибудь вопросы — не стесняйтесь, оставляйте сообщения ниже. Я без ума от новых возможностей разметки и буду рада ответить на любые вопросы или помочь в решении проблем.

    От редакции

    Обратите внимание, господа, статья - 2012-го года. Сколько воды утекло с тех пор, сколько тенденций сменилось, сколько появилось новых инструментов и возможностей.

    Вам нужен разработчик, который не только в курсе всех нововведений, но и умеет смотреть за горизонт?

    Рекомендуем обратиться к участникам объективного и независимого рейтинга веб-студий !

    На каждом предприятии существует множество различных баз данных, которые пополняются от источников структурированных данных. Структурированные данные – данные, которые вводятся в базы данных в определенной форме, например, таблиц Excel, со строго определенными полями. Совокупность баз данных предприятия называется в англоязычной литературе Enterprise Data Warehouse (EDW) – буквально «склад данных». В русскоязычной литературе мне пока не встречалось аналога этого термина, поэтому назовем это «склад данных предприятия». Для красоты будем использовать английскую аббревиатуру EDW.

    Источники структурированных данных – это приложения, которые снимают данные различных транзакций. Например, это могут быть CDR в сети оператора, извещения об авариях на сети (trouble tickets), финансовые транзакции по банковским счетам, данные системы ER (Enterprise Resource Planning), данные прикладных программ, и др.

    Бизнес-аналитика BI (Business Intelligence) – компонент обработки данных. Это различные приложения, инструменты и утилиты, которые позволяют анализировать собранные в EDW данные и принимать решения на их основе. Это системы генерации операционных отчет, выборочные запросы, приложения OLAP (On-Line Analytical Processing), т.н. «дисруптивная аналитика», системы предиктивного анализа и визуализации данных. Попросту говоря, менеджер должен видеть бизнес-процесс в удобной для восприятия форме, лучше всего графической и анимационной, чтобы быстро принимать оптимальные решения. Первый закон бизнеса: правильное решение – это решение принятое вовремя. Если правильное решение для вчерашнего дня принято сегодня, не факт, что оно еще остается правильным.

    А что делать, если источники данных – неструктурированные, разнородные, полученные из разных источников? Как будут работать с ними аналитические системы? Попробуйте выделить мышкой несколько ячеек с данными в таблице Excel и вставить в простой текстовый редактор (например, Notepad) и вы увидите, что такое «неструктурированные данные» (Unstructured Data). Примеры неструктурированных данных: электронная почта, информация из соцсетей, данные XML, файлы видео-, аудио- и изображений, данные GPS, спутниковые изображения, данные с сенсоров, веб-логи, данные о перемещении мобильного абонента в хендовере, тэги RFID, документы PDF…

    Для хранения подобной информации в центрах обработки данных (ЦОД) используется распределенная файловая система Hadoop, HDFS (Hadoop Distributed File System). HDFS может хранить все типы данных: структурированные, неструктурированные и полу-структрированные.

    Приложения Big Data для бизнес-аналитики – компонент не только обработки, но и с данными, как структурированными, так и нет. Они включают приложения, инструменты и утилиты, помогают анализировать большие объемы данных и принимать решения, на основе данных Hadoop и других нереляционных систем хранения. Он не включают традиционные приложения BI-аналитики, а также инструменты расширения самого Hadoop.

    Кроме того, важным компонентом Hadoop является система MapReduce. Она предназначена для управления ресурсами и обработкой данных в Hadoop, чтобы обеспечить надежность хранения и оптимизированное размещение данных в географически распределенных ЦОД. Система MapReduce состоит из двух основных компонетов – Мар, которая распределяет дубликаты блоков неструктурированных данных по различным узлам системы хранения (с целью надежности сохранения информации), и Reduce – компонента удаления идентичных данных, как с целью уменьшения требуемого общего объема хранения, так и повышения корректности последующих действий над данными. MapReduce примечательна тем, что обрабатывает данные там, где они и хранятся (т.е. в HDFS), вместо того, чтобы их куда-то перемещать для обработки, а потом ещё куда-то записывать результаты, что обычно и делается в обычных EDW. MapReduce также имеет встроенную систему восстановления данных, т.е. если один узел хранения отказывает, MapReduce всегда знает, куда надо лезть за копией потерянных данных.

    Хотя скорость обработки данных MapReduce на порядок превосходит традиционные методы обработки с «выемкой» данных, все же, вследствие несравнимо больших объемов данных (на то они и Big Data), в MapReduce обычно используют параллельную обработку потоков данных (batch mode). В версии Hadoop 2.0 функция управления ресурсами выделена в отдельную функциональность (называется YARN), поэтому MapReduce более не является «бутылочным горлышком» в Big Data.

    Переход на системы Big Data вовсе не означает, что традиционные EDW надо отправить в утиль. Напротив, их можно использовать совместно, чтобы использовать преимущество тех и других, а также извлекать новые ценности бизнеса за счет их синергии.

    Для чего это все нужно.

    Среди потребителей ИТ- и телеком-оборудования широко бытует мнение, что все эти эффектные иностранные слово- и буквосочетания – Cloud Computing, Big Data и разные прочие IMS с софтсвитчами придумываются хитрыми поставщиками оборудования, чтобы поддерживать свою маржинальность. То есть, чтобы впаривать, впаривать и впаривать новые разработки. А иначе не будет выполнен план по продажам и Билл Джобс Чемберс скажет «ай-яй-яй». И «накрылась премия в квартал».

    Поэтому поговорим о нужности этого всего и тенденциях.

    Наверное, многие еще не забыли страшный вирус гриппа H1N1. Были опасения, что он может оказаться даже сильнее испанки 1918 года, когда счет жертв шел на десятки миллионов. Хотя врачи должны были регулярно сообщать об участившихся случаях заболеваний (и они таки сообщали), однако анализ этой информации запаздывал на 1-2 недели. И сами люди обращались, как правило, через 3-5 дней после начала болезни. Т.е., меры принимались, по большому счету, задним числом.

    Зависимость ценности информации в от времени обычно имеет вид U-образной кривой.

    Информация наиболее ценна либо сразу после ее получения (для принятия оперативных решений), либо спустя некоторое время (для анализа тренда).

    Компания Google, хранящая многолетнюю историю запросов, решила проанализировать 50 миллионов наиболее популярных запросов из мест очага предыдущих эпидемий гриппа, и сравнить их с данными медицинской статистики во время этих эпидемий. Была разработана система установления корреляции между частотой определенных запросов и найдено 40-50 типичных запросов. Коэффициент корреляции достигал 97%.

    В 2009 году и удалось избежать серьезных последствий эпидемии H1N1, именно потому, что данные были получены сразу, а не спустя 1-2 недели, когда в поликлиниках в местах эпидемии уже было бы не протолкнуться. Это было, пожалуй, самое первое использование технологии «больших данных», хотя в то время они еще так не назывались.

    Хорошо известно, что цена авиабилета – вещь очень непредсказуемая, и зависящая от многих факторов. Недавно я оказался в ситуации, когда можно было купить один и тот же билет экономкласса, одной и той же авиакомпании в один и тот же город в двух возможных вариантах. На рейс, улетающий вечером через три часа, билет стоил 12 тыс. рублей, а на раннее утро завтрашнего дня – 1500 рублей. Повторю, авиакомпания – одна и даже самолет на обоих рейсах одного типа. Обычно цена на билет тем дороже, чем ближе время вылета. На цену билета влияют еще много разных факторов – как-то раз агент по бронированию объяснял мне суть этого сонма тарифов, но я так ничего и не понял. Возможны случаи, когда цена на билет, наоборот, падает, если при приближении даты вылета остается много непроданных мест, в случае проведения каких либо акций и пр.

    Однажды, Орен Энциони, директор программы искусственного интеллекта в Университете штата Вашингтон, собрался лететь на свадьбу брата. Поскольку свадьбы обычно планируются заранее, то и билет он купил сразу же, задолго до вылета. Билет действительно был недорогой, гораздо дешевле, чем обычно, когда он покупал билет для срочной командировки. В полете он похвастался соседу, как дешево ему удалось купить билет. Оказалось, что у соседа билет ещё дешевле, а покупал он его позже. Мистер Энциони с досады устроил импровизированный социологический опрос прямо в салоне самолета о ценах на билеты и датах их покупки. Большинство пассажиров заплатило меньше, чем Энциони, и почти все купили билет позже него. Это было очень странно. И Энциони, как профессионал, решил заняться этой проблемой.

    Приобретя выборку из 12 тысяч транзакций на сайте одного из туристических агентств, он создал модель прогнозирования цен на авиабилеты. Система анализировала только цены и даты, не учитывая никаких факторов. Только «что» и «сколько», без анализа «почему». На выходе получалась прогностическая вероятность снижения или повышения цены на рейс, на основе истории изменений цен на другие рейсы. В результате ученый основал небольшую консультационную фирму Farecast (игра слов: Fare — тариф, цена; Forecast — прогноз) по прогнозированию цен на авиабилеты, на основе большой базы данных по бронированию рейсов, которая, конечно, не давала 100%-ную точность (что указывалось в пользовательском соглашении), но с достаточной степенью вероятности могла ответить на вопрос, покупать билет прямо сейчас, или подождать. Чтобы еще больше обезопаситься от судебных исков, система также выдавала «оценку доверия самой себе» примерно в таком виде: «С вероятностью 83,65% цена на билет будет ниже через три дня».

    Потом компанию Farecast за несколько миллиардов долларов купила Microsoft и встроила ее модель в свой поисковик Bing. (И, как это чаще всего бывает у Microsoft , об этом функционале больше ничего не слышно, т.к. этим Bing’ом мало кто пользуется, а кто пользуется, ничего об этой функции не знает).

    Эти два примера показывают, как с помощью анализа Больших Данных можно извлечь общественную пользу и экономическую выгоду.

    Что же это все-таки такое — Big Data?

    Для «больших данных» нет строгого определения. По мере появления технологий для работы с большими объемами данных, для которых уже не хватало памяти одного компьютера и их приходилось где-то хранить, (MapReduce, Apache Hadoop), появилась возможность оперировать намного бóльшими объемами данных, чем прежде. При этом данные могли быть неструктурированными.

    Это дает возможность отказаться от ограничений т.н. «репрезентативных выборок», на основе которых делаются более масштабные заключения. Анализ причинности заменяется при этом анализом простых корреляций: анализируется не «почему», а «что» и «сколько». Это в корне меняет устоявшиеся подходы о том, как принимать решения и анализировать ситуацию.

    На фондовых рынках каждый день происходит десятки миллиардов транзакций, из них около двух третей торгов решаются с помощью компьютерных алгоритмов на основе математических моделей с использованием огромных объемов данных.

    Еще в 2000 году количество оцифрованной информации, составляло лишь 25% общего количества информации в мире. К настоящему времени количество хранимой информации в мире составляет величину порядка зетабайт, из которых на нецифровую информацию приходится менее 2%.

    По данным историков, с 1453 по 1503 год (за 50 лет) напечатано около 8 миллионов книг. Это больше всех рукописных книг, написанных писцами с Рождества Христова. Другими словами, потребовалось 50 лет, чтобы приблизительно вдвое увеличить информационный фонд. Сегодня это происходит каждые три дня.

    Чтобы понять ценность «больших данных» и механизм их работы, приведем такой простой пример. До изобретения фотографии, для того, чтобы нарисовать портрет человека, требовалось от нескольких часов до нескольких дней или даже недель. При этом художник делал определенное количество мазков или штрихов, число которых (для достижения «потретного сходства») можно измерить сотнями и тысячами. При этом важно было КАК рисовать, как класть краски, как штриховать и пр. С изобретением фотографии, число «зерен» в аналоговой фотографии, или число «пикселов» в цифровой изменилось на несколько порядков, и то КАК их расположить нам неважно – за нас это делает фотоаппарат.

    Однако результат по большому счету один – изображение человека. Но есть и различия. В рукописном портрете точность сходства весьма относительна и зависит от «видения» художника, неизбежны искажения пропорций, добавление оттенков и деталей, которых в «оригинале», т.е. в человеческом лице, не было. Фотография точно и скрупулезно передает «ЧТО», оставляя «КАК» на заднем плане.

    С некоторой аллегорией можно сказать, что фотография – это Big Data для рукописного портрета.

    А теперь будем фиксировать каждое движение человека через строго определенные и достаточно малые интервалы времени. Получится кинофильм. Кинофильм – это «большие данные» по отношению к фотографии. Увеличили количество данных, соответствующим образом их обработали – получили новое качество – движущееся изображение. Изменяя количество, добавляя алгоритм обработки, мы получаем новое качество.

    Теперь уже и сами видео-изображения служат пищей для компьютерных систем Big Data.

    При увеличении масштаба обрабатываемых данных появляются новые возможности, недоступные при обработке данных меньших объемов. Google прогнозирует эпидемии гриппа не хуже, и гораздо быстрее, чем официальная медицинская статистика. Для этого нужно произвести тщательный анализ сотен миллиардов исходных данных, в результате чего она дает ответ намного быстрее, чем официальные источники.

    Ну, и кратко о еще двух аспектах больших данных.

    Точность .

    Системы Big Data могут анализировать огромное массивы данных, а в некоторых случаях - все данные, а НЕ их выборки. Используя все данные, мы получаем более точный результат и можем увидеть нюансы, недоступные при ограничении выборочного анализа. Однако, при этом приходится довольствоваться общим представлением, а не пониманием явления вплоть до мельчайших деталей. Однако, неточности на микро-уровне позволяют при большом количестве данных позволяют делать открытия на макро-уровне.

    Причинность .

    Мы привыкли во всем искать причины. На этом, собственно, и основан научный анализ. В мире больших данных причинность не так важна. Важнее – корреляции между данными, которые могут дать необходимые знания. Корреляции не могут дать ответ на вопрос «почему», но хорошо прогнозирует «что» произойдет, в случае обнаружения тех или иных корреляций. И чаще всего именно это и требуется.

    ***