Computer-Lösungen

Schafft eine einheitliche, wiederholbare Zeitbasis für kritische Dienste und gewährleistet so die Geschäftskontinuität, Stabilität und hohe Verfügbarkeit des Rechenzentrums.

Angesichts von KI, HPC, Edge Computing und anderen Hochleistungsszenarien wächst die Rechenleistung ständig, und was wirklich die Stabilität des Systems, die Konsistenz der Ordnung und die Fähigkeit zur Zusammenarbeit bei Aufgaben bestimmt, ist eine oft übersehene, aber entscheidende Grundfähigkeit - die Zeit.

Wenn die Clustergröße von einigen Dutzend Karten auf Tausende von Karten ansteigt, müssen Schlüsselaspekte wie GPU-Stapelfenster, Synchronisationsbarrieren, die kausale Anordnung von Ereignisströmen und die Planung von Inferenzaufgaben vom gesamten System aufrechterhalten werden.Harmonisierte und reproduzierbare Zeittakte. Wenn die Zeit nicht konsistent ist, kommt es im Computersystem zu Chaos in der Warteschlange, Fehlklassifizierung von Fenstern, Unordnung in der Aufgabe, Unordnung in der Prüfkette und anderen schwer zu lokalisierenden Problemen bei hoher Belastung. Daher ist der Wiederaufbau der Zeitbasis für die Computerindustrie eine unvermeidliche technische Grundlage für das Zeitalter der KI.

Warum die "Zeitbasis" wiederherstellen?

NTP ist in den letzten zehn Jahren in Computersystemen weit verbreitet gewesen, aber sein "Anfrage-Antwort"-Modell der Anwendungsschicht übersetzt Verbindungsjitter, Warteschlangen und Unsicherheiten in Zeitfehler, die leicht von Mikrosekunden auf Millisekunden anwachsen können. Für AI/HPC ist dies eine Katastrophe.

Die Einführung von PTP hat die Art und Weise der Zeitübertragung verändert:

  • Zeitstempel vom "Host-Kernel" bis hinunter zumNIC / PHY / Schalter (BC/TC)

  • Jeder Jitter wird korrigiert

  • Zusammen mit SyncE können Frequenz und Phase gemeinsam gestrafft werden.

Infolgedessen wird die Genauigkeit von Mikrosekunden zur Norm und Nanosekunden sind keine Seltenheit mehr.

Risiken im Zusammenhang mit uneinheitlichem Timing

  • GPU/CPU Batch Window FehlklassifizierungTrainingscharge wird aufgeteilt und falsch ausgerichtet, was zu einer Verschlechterung des Durchsatzes führt

  • Früh oder spät ausgelöste SynchronisationsschrankenFührt zu einer Verlangsamung der Effizienz des geräteübergreifenden Trainings

  • Streaming-Berechnungsfenster Unordnung:: Ereignisverarbeitung "gleicher Datenstapel zweimal/verpasste Verarbeitung"

  • Transaktionen und Protokolle sind nicht in OrdnungSchwierigkeiten bei der Überprüfung des Zeitplaners und des Auditsystems

  • Begründung Service Timeout FehleinschätzungAnträge, die vorzeitig verworfen oder zu spät zurückgegeben werden

  • Knotenübergreifender Wettbewerb um Ressourcen:: Unfähigkeit des Versandsystems, die Ressourcen entsprechend dem Zeitbudget korrekt zuzuweisen

Diese Probleme treten umso häufiger auf, je größer der Cluster ist und je höher die Belastung ist.

Berechnung der zeitlichen Architektur der Branche: Angleichung und anschließende Verschärfung bei der Selbstversorgung mit Intranets

Intranet-Selbstbereitstellung als Master-Modus

1. eine GNSS-Antenne (BeiDou/GPS) direkt im Maschinenraum
2. einheitliche Zeit, die vom lokalen Uhrenserver bereitgestellt wird
3. das Hijacking des öffentlichen Netzes und die Zeitverschiebung durch Dritte zu vermeiden

Die Bestandsausrüstung wird nicht nachgerüstet, sondern zunächst mit Hilfe von NTP zusammengeführt.

In der ersten Phase wird NTP verwendet, um die gesamte Anzahl der Server in eine Warteschlange zu stellen. Keine Auswirkungen auf das bestehende Netz, keine Unterbrechung des Betriebs

Schrittweise Umstellung der zentralen Rechenknoten auf PTP

Einführung von G.8275.1 (L2 + SyncE) für denselben Campus
G.8275.2 für campusübergreifende Netze der Ebene 3
Konfigurieren der Multi-GM-Master/Standby-Architektur nach Domänennummer/Priorität

Lösungen im Überblick

GNSS-Antenne → Uhrenserver (OCXO/Rubidium) → PTP (L2 + SyncE) Verteilung an Switches/Hosts; NTP orientierter Stock Host kompatibel.

GNSS pro Standort + lokales GM, Domänensynchronisierungspolitik und Prioritätsumschaltung, Notfallwiederherstellung außerhalb des Standorts über UDPv4 zur Aufrechterhaltung von Durchdringung und Konsistenz.

Die PTP-Domänen sind nach Unternehmen/Clustern unterteilt, und Training/Inferenz/Speicherung werden getrennt gesteuert, um einen geringen Jitter und eine Genauigkeit im Nanosekundenbereich zu gewährleisten.

Gerätezugang zum bestehenden Netz - dreistufiger Landepfad

Vorbereitungsphase

  • Bestätigung der Position der GNSS-Antenne, der Einspeisung und des Sichtfelds
  • Unterstützt der Switch PTP-Hardware-Zeitstempel, BC/TC
  • Konfiguration von VLANs, Routing, Bonds, Management/Service Ports
  • Die Sicherheitsrichtlinie gibt nur Timing- und Remote-Management-Ports frei

Eröffnungsphase

  • Einschalten des Geräts → Konfigurieren der Zeitzone → Einstellen der Halteparameter
  • GNSS-Erfassung einleiten.
  • NTP zur Inventarisierung von Hosts öffnen
  • Aktivieren von PTP (L2/SyncE oder UDPv4) nach Domäne

Entladung und Rückgabe

  • Greifen Sie zunächst auf eine kleine Anzahl von Servern zu, um Verzerrungen/Jitter zu überprüfen.
  • Und dann schrittweise auf den gesamten Cluster ausweiten.
  • Vorbereitung von Bypass-Zeitquellen als Unternehmensschutzlösung

Sicherheit: Zeitverbindungen selbst in die Hand nehmen

  • Uhrenserver werden im Intranet eingesetzt und sind nicht auf die öffentliche Zeit im Extranet angewiesen

  • Minimierte Ports, nur Timing- und O&M-Schnittstellen offen

  • SNMP verwendet v3, APIs verwenden Token

  • Alle Änderungen werden in das Audit-Protokoll aufgenommen.

  • Die einheitliche Zeit ist die stärkste forensische Grundlage, und die Protokolle können miteinander abgeglichen werden.

Die Zeit ist nicht nur ein Leistungssockel, sondern auch ein Sicherheitssockel.

O&M: Den Stand der Zeit "vor Augen" haben

Visuelle Überwachung: GNSS-Lockup, UTC-Abweichung, PTP/NTP-Prozessstatus, Abweichungs-/Jitter-Kurven, CPU/Speicher/Temperatur/Oszillator-Haltezustand

Alarme: GNSS-Sternverlust, Abweichung über Schwellenwert, Master- und Backup-Umschaltung, Änderung des Zeitpfads

Häufig gestellte Fragen (FAQ)

Kann die Zeitmessung in der öffentlichen Cloud lokale Uhren ersetzen?

Das kann man nicht. Was Sie brauchen, ist eine "einheitliche und überprüfbare" Zeit, nicht "es gibt eine Zeit".

Nein. NTP zieht zuerst zusammen und PTP aktualisiert dann schrittweise die Schlüsselbereiche.

Da PTP den Fehler von Millisekunden auf Mikrosekunden/Nanosekunden reduziert, ist es eine notwendige Grundlage für AI/HPC.

Möchten Sie die Zeitgenauigkeit Ihres Rechenzentrums von "funktionstüchtig" auf "ingenieurmäßig geprüfter Sockel" erhöhen? Kontaktieren Sie uns fürMaßgeschneiderte Bewertungs- und AnlandungsprogrammeEs umfasst die Anpassung des Netzes, die Piloteinführung, die Überwachung und die Bereitstellung von Betriebs- und Wartungsdiensten.

Einkaufswagen
Nach oben blättern