Одним из основных элементов системы больших данных является "озеро данных" — место, куда собирается разнообразная информация из большого количества источников. Все сведения в нем хранятся "до востребования" в необработанном, сыром виде. Аналитики Gartner считают, что "озера данных" позволяют анализировать различную несопоставимую информацию в оригинальном формате. Эта информация не требует высоких затрат на обработку и хранение, а доступна она будет любому сотруднику компании.
Отличия "озер" от традиционных ЦОД
Заранее неизвестно, на какие вопросы могут отвечать эти данные и какую ценность имеют. "Озеро" не заменяет собой традиционный дата-центр цод, но позволяет любой компании получить новые возможности, одновременно оптимизировав расходы на обработку и хранение информации. Многие организации, уже использующие центры обработки и хранилища, задаются вопросом необходимости еще и "озера". Особенностью этого элемента системы больших данных является то, что его можно увеличивать до чрезвычайно больших размеров, при постоянно низких расходах на хранение. Кроме того, такое хранилище предоставляет мгновенный доступ для всех пользователей.
Проблемы и риски
Без соответствующей подготовки сотрудников, доступ к "озерам" много пользы не принесет. Если в традиционных хранилищах данные тщательно структурированы, то "озера" позволяют накапливать любые типы информации, включая:
- аудио;
- видео;
- социальные сети;
- различные устройства.
Бесконтрольное хранение столь разнообразных данных несет и некоторые риски. Нет возможности определить качество сведений, а задачи обеспечения их безопасности или контроля доступа к ним не ставится. В первую очередь, это эффективное средство работы для аналитиков, но доступ есть у всех бизнес-пользователей. Главным риском эксперты называют то, что со временем такое "озеро" может вполне превратиться в "болото", не представляющее никакой ценности.
Ключевым остается вопрос действительной необходимости "озер" для бизнеса — ведь долгое время компании и предприятия вполне успешно обходились без них. Сама по себе эта структура не нужна — она появилась только из-за того, что поступающие отовсюду данные нужно куда-нибудь складывать. Поскольку хранить ее в традиционных ЦОД дорого, то пришлось искать место подешевле, а философия больших данных запрещает выбрасывать любую информацию, особенно, если ее можно дешево сохранить.