Стриминг данных для бизнеса

 

Стриминг данных для бизнеса

В 2019 году пользователи Интернета просмотрели 1,1 млрд часов прямых видеотрансляций, а к 2027 году, как прогнозируют в Grand View Research, ежегодный объем потоковой передачи видео достигнет 184,3
млрд часов. Прямые потоковые трансляции используются все шире в связи с ростом популярности сервисов Netflix, Disney+, HBO Max и им подобных, а также стриминга на YouTube и TikTok. Резко выросло
использование конференций Zoom, онлайн-магазинов и новых интерактивных сервисов. К последним относятся видеоигры, внутриигровые лайв-мероприятия и турниры по киберспорту.

Потоковые передачи видео можно поделить на две широкие категории: прямые трансляции и нелинейная потоковая передача. Прямые трансляции подразумевают передачу контента в режиме реального времени.
Характерный пример — стриминговый сервис для любителей видеоигр Twitch. Нелинейный же стриминг предусматривает возможность просмотра по запросу, когда зрители могут записать или загрузить видео на
устройство и посмотреть в любое время. Кроме того, в числе преимуществ такого стриминга возможность сохранить большой объем данных (например, целиком записать сериал для просмотра). Типичный пример
данного сервиса — Netflix.

Обратимся к цифрам: 1,1 млрд часов лайв-видео с разрешением 1080P — это 1,65 эксабайта, а при разрешении 4K объем достигает 7,92 эксабайта.

При трансляции видео HD-качества с разрешением 720p в час передается примерно 0,9 Гб. Видео с разрешением 1080p требует передачи 1,5 Гб/ч, а видео 2K — 3 Гб/ч. При трансляции видео UHD-качества
(4K) трафик достигает 6 Гб за час, а для видео с качеством 8K аналогичный показатель — 12 Гб/ч.

Сервисы потоковой трансляции создают большую нагрузку на сетевую инфраструктуру, из-за чего может страдать качество видео. Особенно ощутимо это проявляется в условиях пандемии COVID-19, когда
многие активно пользуются потоковой передачей, работая из дома. Чтобы избежать перегрузки инфраструктуры, провайдеры и предприятия могут прибегать к кэшированию контента на периферийных системах.
Кэширование часто используемых данных вблизи конечного потребителя позволяет ускорить их доставку.

 

Стриминг данных для бизнеса

Работа периферийных систем в связке с облаком

Аналитики компании IDC считают целесообразным кэширование потоковых данных на системах хранения до завершения аналитической обработки серверами. Объемы данных, хранимых на периферии, растут сегодня
быстрее, чем объемы данных в ядре сети.

Ожидается, что на периферии будут размещаться важнейшие данные и аналитическая информация для выполнения критичных к задержке запросов, отправляемых конечными точками и различными сервисами. Кроме
того, на периферии можно организовать распределенную аналитическую обработку потоковых данных.

Компаниям, которые рассматривают возможность более активного применения прямых трансляций в рамках бизнес-операций, придется задуматься о модернизации ИТ-систем. Особенно это касается процессов
работы с клиентами — в частности, электронной коммерции и клиентской поддержки, а также повседневной работы в условиях пандемии, когда конференции Zoom стали привычной частью трудовой деятельности.

Стриминг данных для бизнеса

 

Для обработки потоковых данных требуется наличие двух технических уровней — хранения и собственно обработки. На первом необходима поддержка упорядочивания и строгой согласованности записей — для
быстрых малозатратных воспроизводимых операций считывания и записи больших потоков данных. Уровень же обработки, в свою очередь, отвечает за прием данных с уровня хранения, выполнение вычислений и
уведомление уровня хранения о необходимости уничтожения данных, которые больше не нужны.

Что касается реализации бизнес-служб, опирающихся на прямые трансляции, существует требование, предъявляемое как к периферийным, так и облачным вычислениям: такие данные нужно обрабатывать
последовательно и инкрементально по одной записи или в скользящие окна. При этом данные подвергаются аналитической обработке различных типов, включая выявление корреляций, агрегирование, фильтрацию
и формирование выборок.

Согласно отчету Rethink Data Report компании Seagate, в организациях в среднем около 36% данных переносится от периферии к ядру. Но, по прогнозу, всего за два года этот показатель вырастет до 57%,
а объем данных, которые перемещаются от периферии к центру сразу после их создания, увеличится с 8 до 16%. Учитывая такой
рост, в планах по управлению данными следует предусмотреть гораздо больший объем их переноса — от конечных точек через периферию в публичные, частные или корпоративные облака.

Рассмотрим уровень хранения подробнее. Крупные компании, сделавшие бизнес на контенте, такие как Netflix или Facebook, решая задачи управления долговременным хранением данных и обеспечения
мгновенного доступа к ним, широко применяют объектные хранилища. Такое хранилище не ограничивается функциями хранения данных — его можно рассматривать как гибрид веб-сервера, сети доставки
содержимого и решения по управлению ресурсами.

Объектные хранилища быстро становятся стандартом хранилища большой емкости, дополняя файловые хранилища и вытесняя их ввиду большей экономической эффективности и масштабируемости. Современным
приложениям необходима более интеллектуальная обработка наборов данных, а объектные хранилища как раз и предоставляют средства для ее выполнения. Существуют три типа хранилищ: блочные, файловые и
объектные. Блочные необходимы для многих критически важных приложений, которым требуется высокая производительность. Файловые применяют для традиционных приложений, уже много лет обеспечивая
надежную архитектуру хранения. Объектные хранилища в сочетании с блочными активно применяют при разработке новых приложений. Многие традиционные файловые приложения переводят на объектное
хранилище, чтобы использовать достигаемый экономический эффект масштаба.

При потоковой доставке Netflix в час передается от 250 Мб до 1 Гб в зависимости от настройки качества. При стриминге Netflix с наименьшим качеством скорость передачи по Cети составляет около 5
Мб/мин (или 300 Мб/ч). Для видео среднего качества аналогичный показатель составляет 9 Мб/мин (540 Мб/ч), а для высокого — 17 Мб/мин (1 Гб/ч). Длительность большинства видеопрограмм — около часа,
то есть каждая серия «Звездного пути: Дискавери» или «Бортпроводницы» требует пересылки 250 Мб — 1 Гб.

Для FaceTime и Zoom необходима передача приблизительно 90 Мб в час. При видеозвонке FaceTime скорость составляет около 3 Мб/мин, то есть за час разговора передается примерно 180 Мб. По мере роста
популярности видеоконференций в качестве способа связи с близкими и коллегами по работе потребности в данных будут увеличиваться.

Между тем на периферии растет число генерирующих данные устройств, которые применяются совместно с хранилищами и системами вычислений и аналитики. Что касается последних, то в их качестве могут
выступать различные решения — от процессора цифровых потоков Splunk до моделей глубоких нейронных сетей. Однако в любом случае основная рабочая нагрузка удаленных периферийных систем — это
обработка данных (в том числе их извлечение, трансформация и загрузка), а также получение аналитических сведений. Периферийные вычислительные экземпляры размещаются в контейнерах и управляются в
качестве конвейеров данных с помощью Kubernetes.

Стриминг данных для бизнеса

 

При этом периферийные системы хранения данных должны базироваться на легко заменяемой физической инфраструктуре. В случае отказа (например, из-за прерывания подачи питания или других неполадок)
потерь данных быть не должно. Критически важную информацию следует хранить в общедоступном облаке, чтобы аппаратные компоненты на периферии можно было рассматривать как «расходный материал»,
учитывая их подверженность воздействию неблагоприятных условий окружающей среды. К счастью, благодаря росту производства и снижению цен, развертывание подобных конечных точек становится более
легким и дешевым, так что в случае отказа заменить неисправный компонент можно будет просто и быстро.

Одним из таких примеров может служить развертывание системы периферийных вычислений на нефтедобывающей платформе в Северном море, где крайне неблагоприятные погодные условия: сильный ветер, мощные
волны и штормы. При работе периферийных систем непосредственно на платформе данные, поступающие от всевозможных датчиков на буровом оборудовании, можно собирать и обрабатывать на месте, что
позволит оптимизировать операции. К тому же передавать данные в облако нужно будет лишь время от времени. Если модуль периферийных вычислений окажется поврежденным, его можно быстро заменить.

В условиях жаркого и сухого климата Западной Австралии, где тоже ведется добыча полезных ископаемых, системы периферийных вычислений можно использовать для мониторинга железнодорожного сообщения с
шахтами — в частности, для контроля состояния вагонеток, перевозящих железную руду, и предотвращения опасности их схода с рельсов. Прямые трансляции съемки колесных пар вагонеток можно
«просматривать» и обрабатывать с помощью системы машинного обучения, работающей на самом составе, — она могла бы следить за соблюдением рабочих режимов и помогать в проведении профилактического
техобслуживания. Данные также можно было бы передавать властям, чтобы контролировать соблюдение регламентов техники безопасности и охраны здоровья персонала.

По прогнозу IDC, объемы данных, передаваемых в рамках прямых трансляций и подвергаемых анализу на периферии для выбора дальнейших действий, будут постоянно расти. Параллельно станут увеличиваться
потребности в объектных хранилищах, применяемых для соответствующих целей. Смещение центра тяжести от ядра к периферии происходит под влиянием новых технологий: искусственного интеллекта,
«Интернета вещей», мобильной связи 5G. Соответственно, в планах предприятий любых отраслей, где внедряют сервисы на основе прямых трансляций, нужно предусматривать потребности в масштабировании,
обеспечении долговечности информации и отказоустойчивости для уровней хранения и обработки потоковых данных.

Стриминг данных для бизнеса

Александр Малинин

глава
российского представительства Seagate

Статьи

Источник