Искусственный интеллект и Дата-центр: опыт Huawei

0

Анализируя теги прошедшей в декабре конференции AI Journey, можно сделать вывод, что рациональная работа с системами искусственного интеллекта позволит организовать на базе Huawei новейшие центры обработки информации без потерь для клиентов и производителя. Демонстративный пример развития ЦОД: применение инновационных All-Flash хранилищ, и постоянная тренировка нейросетей, а также выполнение сверхзадач и вычислений посредством GPU.

Стремительное обновление центра

Интересно, что еще каких-нибудь 15 лет назад массовым тренд применение док-центров назвать было никак нельзя. Отдельные элементы системы с успехом использовались в банковской среде, но так, чтобы везде и всюду – отнюдь. А спустя уже пять лет движение оживилось, и ЦОД стали активно завоевывать все новые сферы деятельности, причем концепция постоянно изменялась.

Несмотря на это, цели преобразований в любой системе док-центров всегда оставались неизменными – это консолидация данных и приведение их к единой форме. Однако это лишь начальный этап процедуры трансформации. Далее следует многоступенчатый процесс, направленный на усовершенствование системы центров обработки данных и повышения эффективности их работы. Отдельные стадии заключаются в автоматизации большинства процессов, далее их оркестрации в режим смешанного облака и лишь на завершающей ступени можно начинать внедрение систем искусственного интеллекта.

Актуальные предложения от Huawei

В зависимости от «IT-зрелости» компании-заказчика корпорация Huawei может предложить на каждый этап трансформации свой вариант решения, что позволит наилучшим образом оптимизировать процесс и модернизировать систему без лишних финансовых затрат. Но в данной статье речь пойдет о самом сложном этапе совершенствования – искусственный интеллект в работе ЦОД, какие сложности и риски могут возникнуть и в чем чистая выгода проекта.

Сравнивая работу ЦОД и человеческий организм, можно убедиться, что действие док-центра – это полноценная работа кровеносной системы. Проникая во все сферы жизни, центр обеспечивает надежную взаимосвязь каждого рабочего органа (узлы вычисления, хранилище данных и пр.).

С тех пор, как твердотельные накопители данных стали доступны широким массам, а производительность процессоров растет все больше с каждым днем, эти рабочие узлы больше не влияют на скорость обработки информации. Тогда как традиционные ЦОД все еще не дотягивают до стандартов.

Многие компании бились над решением проблемы. Внедрялись фирменные IB-технологии (InfiniBand), что позволяло охватить лишь узкий круг специализированных задач. Подход строить сетевые фабрики по FC-стандартам (Fibre Channel) был неоправданно дорогим. Оба предложения имели больше минусов, чем плюсов, и слабо подходили под универсальные проекты.

И лишь альтернативное решение от Huawei с применением открытых технологий оказалось действенным и удовлетворяло максимум потребностей системы. Для внедрения идеи за основу была взята более усовершенствованная версия RoCE второй модификации, для расширения возможностей которой в коммутаторы компании внедрили фирменные алгоритмы, что позволило в разы оптимизировать возможности сети.

Уже давно понятно многим, что традиционные FC-решения являются устаревшими и будущего не имеют. В соответствии с потребностями, классические сетевые фабрики работают по принципу статического выделения кредитов и лишь на ограниченный срок. И даже применение для хранения данных автономных сетей не позволило увеличить пропускную способность.

На сегодняшний день на пике популярности находится технология уже шестого поколения, стабильно гарантирующая производительность 32 Гбит в секунду, а порой достигая колоссальных 64 Гбит/с. Широкие возможности сети Интернет выдают и более гигантские значения в 200 и даже 400 Гбит/с к серверу и обратно.

Стремление Huawei заключается в том, чтобы дать сети хранения данных на основе твердотельного накопителя раскрыть свой потенциал как можно шире. Поскольку именно SSD со скоростными интерфейсами в последнее время заполонили большую часть рынка и уверенно вытесняют классические диски.

Новое поколение сети ЦОД

Внимательно рассмотрев схему от Huawei, где помимо системы хранения данных (к слову, одна из лучших действующих систем в мире), также изображены серверы со стандартной базой x86 или ARM, демонстрирующие колоссальную пропускную способность (для сравнения дан уровень ожиданий наиболее требовательных клиентов). В дата-центре момент сквозной задержки всего 0,1 мс, а все благодаря инновационным технологиям «application».

При этом традиционные технологии с базой SAS все также тормозили и ограничивали поток серьезными задержками. Улучшить показатели позволил переход к протоколу NVMe и другим новинкам системы, но тогда ограничителем становилась уже сама сеть.

Этот же пример применения сетей, но уже с внедрением дополнительных алгоритмов. Результат: сквозная задержка оптимизирована, производительность повысилась, а количество запусков и выходов из системы за условленное время возросла в разы; плюс –заметная экономия ресурсов, поскольку внедрение новинки помогает избежать двойной переплаты за различные «доустановки» и повышает эффективность системы на 18 % минимум, а при современных моделях оборудования и до 40 %.

   

Основа алгоритмов

Основная проблема классических технологий банальна – работа со статическими пороговыми данными, что ведет за собой новую беду – формирование базовых зависимостей между задержкой и скоростью. Вмешательство вручную также не приносило должного результата, динамика подстройки параметров сети не наблюдалась.

Укомплектовав коммутаторы дополнительными чипсетами машинного обучения, Huawei добились невиданных доныне результатов: сеть перенастроилась на работу в режиме создания дата-центров без потери пакетов данных. Такой режим интеллектуальной оптимизации получил название iDCN.

Любой специалист, работающий с вариационными методами, распознает на схеме элементы и механизмы анализа training /inference. При этом встроенные модели способны автоматически обучаться в процессе на каждой конкретной сети.

Объем нужных данных о сети накапливается системой ИИ, а затем параметры аппроксимируются и применяются в динамических настройках структуры. При этом ведущая роль в этом деле отводится особому ИИ-чипу. Для сравнений американские производители предпочитают усиливать схему более сложным блоком из программных шин и дополнительных модулей.

Рассмотрим подробнее модели Huawei, базирующиеся на схеме обучения с подкреплением. Причем через систему проходит весь поток информации, которая скрупулезно фиксируется и анализируется, и тогда выстраивается характерная базовая линия. Схема упрощается, если заранее известны параметры производительности и особо критичных для приложения задержек, тогда линия базы видна практически сразу. Но это разговор об одной программе, а если таких десятки, сотни, тысячи? Тогда проводятся медианные расчеты, и настройки производительности оптимизируются на каждом этапе автоматически.

Буквально на пальцах весь стратифицированный процесс объясняет схема. Все начинается с подсчетов минимальных и максимальных порогов, далее работает CNN (конволюционная нейронная сеть), которая и обеспечивает выравнивание параметров и коэффициентов персонально для каждой программы, а также «взвешивает» суммарный объем в рамках сервисов сети. На выходе получаем интересный результат.

Для нового, незнакомого приложения применяется сочетание «машины состояний» с уникальным алгоритмом эвристического поиска. Начинается движение по блок-схеме в противоположную сторону, что позволяет выявить значения порогов и модели. Процесс полностью автоматизированный, хоть и ручной контроль предусмотрен и при необходимости эффективен. Но, все же, лучше довериться машине.

Практические проверки

Наиболее эффективна работа не на отдельных участках системы, а глобальный охват всей сети. Работая масштабно на уровне сети возможно добиться устранения главных проблем, связанных с производительностью. На сегодняшний день уже готовы несколько актуальных предложений для банковской среды, но на этом процесс не останавливается. В ближайшем будущем планируется выпуск подобных механизмов и для других сфер деятельности, в частности особый интерес вызывают операторы связи.

Модель оптимизации от Huawei еще больше заинтересовала многих, после обнародования результатов тестирования, проведенного независимой лабораторией The Tolly Group. Особенно интригуют сравнительные характеристики с подобными решениями от таких гигантов, как IB и Ethernet. Выводы красноречиво подтверждают эффективность системы. Продуктивность соответствует показателям IB и практически на 30 % превосходит модель от Ethernet.

А по некоторым показателям «сеть ЦОД без потерь» даже превосходит аналоги. Это относится к:

  • возможности обучение искусственного интеллекта;
  • хранению данных, как централизованного, так и распределенного;
  • расчетам GPU.

Как же можно применить изделие на практике? К примеру, клиентам, которые активно применяют системы SDS, интеграция СХД от разных производителей с помощью интеллектуальной сети ЦОД позволит повысить производительность практически на половину (40 %), что в свою очередь позволяет настолько же процентов меньше использовать родные сервера.

 Поделиться ссылкой:

Оставьте ответ

Ваш электронный адрес не будет опубликован.