Компьютерные решения

Создает единую, повторяющуюся временную базу для критически важных услуг, обеспечивая непрерывность, стабильность и высокую доступность бизнеса центра обработки данных.

В условиях ИИ, HPC, edge computing и других высокопроизводительных сценариев масштаб арифметической мощности постоянно расширяется, и то, что действительно определяет стабильность системы, согласованность порядка и способность к совместной работе над задачами, - это часто упускаемая из виду, но крайне важная базовая способность - время.

При увеличении размера кластера с десятков карт до тысяч карт такие ключевые аспекты, как окна пакетной обработки данных GPU, барьеры синхронизации, причинное упорядочивание потоков событий и планирование задач вывода, требуют от всей системы поддержанияСогласованные и воспроизводимые временные ритмы. Если время непостоянно, то при высокой нагрузке вычислительная система столкнется с хаосом очередей, неправильной классификацией окон, расстройством задач, нарушением цепочки аудита и другими трудноопределимыми проблемами. Поэтому перестройка временной базы вычислительной индустрии - неизбежный инженерный фундамент для эры ИИ.

Зачем восстанавливать "временную базу"?

NTP широко используется в вычислительных системах в течение последнего десятилетия, но его модель "запрос-ответ" на прикладном уровне преобразует джиттер канала, очереди и неопределенность в ошибки синхронизации, которые могут легко превратиться из микросекунд в миллисекунды. Для AI/HPC это катастрофа.

Появление PTP изменило способ передачи времени:

  • Временные метки от "ядра хоста" доСетевая карта / PHY / коммутатор (BC/TC)

  • Каждый джиттер корректируется

  • В сочетании с SyncE частота и фаза могут быть подтянуты друг к другу.

В результате микросекундная точность становится нормой, а наносекундная - уже не редкостью.

Риски, связанные с несоответствием сроков

  • Неправильная классификация пакетных окон GPU/CPU: Учебная партия расщепляется и неправильно выравнивается, что приводит к снижению производительности.

  • Синхронизационные барьеры срабатывают рано или поздно: Приводит к снижению эффективности обучения на нескольких устройствах

  • Расстройство окна расчета потоков:: Обработка событий "одна и та же партия данных дважды/пропущенная обработка"

  • Транзакции и журналы не в порядке: Трудности с просмотром планировщика и системы аудита

  • Причина Ошибка в определении времени обслуживания: Запросы, отклоненные раньше времени или возвращенные с опозданием

  • Межузловая борьба задач за ресурсы:: Неспособность системы диспетчеризации правильно распределять ресурсы в соответствии с бюджетом времени

Эти проблемы возникают тем чаще, чем больше размер кластера и чем выше нагрузка.

Вычисление временной архитектуры отрасли: выравнивание, а затем ужесточение, когда интрасети предоставляются самостоятельно

Самостоятельное обеспечение интрасети в режиме мастера

1. антенна GNSS (BeiDou/GPS) непосредственно в машинном отделении
2. Единое время, предоставляемое локальным сервером часов
3. Избегайте перехвата сети общего пользования и джиттера времени сторонних производителей

Инвентарное оборудование не дооснащается, сначала используется NTP, чтобы собрать его воедино

На первом этапе NTP используется для "постановки в очередь" всего количества серверов. Никакого воздействия на существующую сеть, никакого перерыва в работе

Постепенное переключение основных вычислительных узлов на PTP

Принятие стандарта G.8275.1 (L2 + SyncE) для того же кампуса
G.8275.2 для кросс-кампусных сетей, кросс-уровня 3
Настройка архитектуры ведущего/резервного модуля Multi-GM по номеру/приоритету домена

Обзор решений

GNSS-антенна → сервер часов (OCXO/рубидий) → распределение PTP (L2 + SyncE) по коммутаторам/хостам; совместимость с NTP-ориентированными хостами.

GNSS для каждого местоположения + локальный GM, политика синхронизации доменов и переключение приоритетов, аварийное восстановление за пределами площадки через UDPv4 для поддержания проникновения и согласованности.

Домены PTP разделены по бизнесам/кластерам, а обучение/инференция/хранение контролируются отдельно для обеспечения низкого джиттера и возможности наносекундной точности.

Доступ устройств к существующей сети - трехступенчатый путь приземления

подготовительный этап

  • Подтверждение положения антенны ГНСС, подачи, поля зрения
  • Поддерживает ли коммутатор аппаратные временные метки PTP, BC/TC
  • Настройка виртуальных локальных сетей, маршрутизации, связей, портов управления и обслуживания
  • Политика безопасности освобождает только порты синхронизации и удаленного управления

фаза открытия

  • Включение устройства → Настройка часового пояса → Настройка параметров удержания
  • Начните приобретение GNSS.
  • Открыть NTP для инвентаризации хостов
  • Включение PTP (L2/SyncE или UDPv4) по доменам

Выгрузка и возврат

  • Сначала получите доступ к небольшому количеству серверов, чтобы проверить смещение/дрожание
  • А затем постепенно распространить на весь кластер.
  • Подготовка резервных источников времени как решение для защиты бизнеса

Безопасность: взять тайм-линки в свои руки

  • Серверы часов развернуты в интрасети и не зависят от общедоступного времени в экстрасети

  • Минимизация портов, открыты только интерфейсы синхронизации и O&M

  • SNMP использует v3, API - Token

  • Все изменения попадают в журнал аудита

  • Единое время - самая надежная криминалистическая основа, и журналы можно перепроверять друг с другом

Время - это не только пьедестал производительности, но и пьедестал безопасности.

O&M: держать состояние времени "перед глазами"

Визуальный контроль: блокировка ГНСС, отклонение UTC, состояние процесса PTP/NTP, кривые отклонения/дрожания, состояние удержания процессора/памяти/температуры/осциллятора

Элементы сигнализации: потеря звезды ГНСС, превышение порогового отклонения, переключение ведущего и резервного устройств, изменение траектории синхронизации

Часто задаваемые вопросы (FAQ)

Может ли время в публичном облаке заменить локальные часы?

Вы не можете. Вам нужно "единое и проверяемое" время, а не "существует время".

Нет. Сначала объединяется NTP, а затем PTP постепенно обновляет ключевые домены.

Поскольку PTP сокращает погрешность с миллисекунд до микросекунд/наносекунд, он является необходимой основой для AI/HPC.

Хотите повысить точность времени работы вашего центра обработки данных с "рабочего" до "пьедестала инженерного уровня, который можно перепроверить"? Свяжитесь с нами дляИндивидуальные программы оценки и посадкиОна включает в себя адаптацию сети, пилотное развертывание, мониторинг и предоставление услуг по эксплуатации и техническому обслуживанию.

Корзина для покупок
Прокрутить вверх