Optičko povezivanje velike brzine: rješenja za podatkovne centre

Apr 27, 2026|

U prošlom tromjesečju kupac je vratio četrdesetak 400G DR4 modula koji su zahtijevali nasumične preklopne veze na svojim Arista 7060X5 prekidačima. Prije nego što smo uopće otvorili RMA papirologiju, naš test inženjer je postavio jedno pitanje: jeste li pregledaliMPO konektoriprije instalacije? Nisu. Poslali smo module kroz našu punu regresiju, čisti dijagrami, BER ispod 1E-13 u sve četiri trake,DDM očitanja nominalna. Zatim smo ih zamolili da pošalju fotografije svojih krajeva kablova{1}}pod fiber mikroskopom. Svaki pojedinačni konektor imao je kontaminaciju česticama. Četrdeset modula, nula kvarova. Problem je bila prašina.

 

Svakog mjeseca vidimo neku verziju ovoga. Postavljanje optičkih interkonekcija velike brzine na bilo kojoj skali pogađa isti zid, a brojke to potvrđuju: negdje između 65% i 70% svih kvarova 400G i 800G linkova dolazi do kontaminacije konektora, a ne do grešaka primopredajnika. (IEEE 802.3 terenski podaci preko AscentOptics) Ovo prvo spominjemo jer to uokviruje način na koji razmišljamo o cjelokupnoj odluci o međusobnom povezivanju. Modul skoro nikada nije najslabija karika. Fizički sloj oko njega je.

Microscopic view of an MPO fiber optic connector end-face showing severe dust and particulate contamination on the four precision glass cores of a 400G module, illustrating the number one cause of link failure.

 

Vaš saobraćajni obrazac odlučuje o vašoj arhitekturi optičkog međusobnog povezivanja

 

Svi počinju sa brojem dela.QSFP-DD ili OSFP, SR ili DR, multimode ili single{0}}način. I mi to radimo. Ali implementacije koje su dobro išle za naše klijente sve su započele negdje drugdje: kako promet zapravo izgleda?

Obuka velike-umetne inteligencije generira sve-do-svu komunikaciju GPU-a za koju se ispostavilo da je iznenađujuće predvidljiva u vremenskim razmacima od minuta do sati. Google ovo iskorištava sa prekidačima optičkih kola u svojoj Jupiter mreži, rekonfigurirajući fizičke svjetlosne puteve između rekova umjesto prebacivanja paketa. Njihovi objavljeni rezultati iz decenije upotrebe u proizvodnji: 41% smanjenje snage, 30% niži kapitalni troškovi i 50x poboljšanje vremena rada tkanine u odnosu na njihovu prethodnu Clos arhitekturu. (Google SIGCOMM'22) Ti brojevi su stvarni, ali pripadaju kompaniji koja je potrošila između 500 miliona i milijardu dolara na OCS infrastrukturu tokom pet godina. Imali smo nekoliko kupaca srednje veličine-koji su tražili od nas da procijenimo izvodljivost OCS-a za njihova okruženja. U svakom slučaju, nakon što su izvršili brojeve na skali ispod -500 čvorova, kapitalni zahtjevi su nadmašili prednosti rekonfiguracije, i oni su ostali na konvencionalnom spin-listu koristeći module koji se mogu priključiti.

Zaključak preokreće jednačinu. Saobraćaj je buran i nepredvidiv na nivou protoka, a tolerancija kašnjenja je blizu nule. Ne možete rekonfigurirati optičke putanje na osnovu-zahtjeva. Ono što vam treba je konzistentno prekomjerno obezbjeđeno tkivo sa determinističkim kašnjenjem, koje vas gura prema primopredajnicima koji se mogu priključiti u topologiji spine{4}}lista gdje je svaka veza uvijek osvijetljena. Prodajemo module u oba scenarija, a inženjerski razgovori su potpuno različiti. Kupci klastera za obuku žele da znaju o ukupnoj propusnosti po rack-u i snazi ​​po bitu. Kupci zaključivanja pitaju o kašnjenju repa i šta se dešava kada se veza spusti.

 

Conceptual architectural diagram of a data center network topology comparing a custom Optical Circuit Switch (OCS) fabric for long-running AI training jobs versus a standard non-blocking Spine-Leaf topology for bursty inference workloads.

 

Za tradicionalna poslovna i kolovozna okruženja ispod hiperskale, cijena po portu dominira, a kompatibilnost unatrag s postojećim postrojenjima za proizvodnju vlakana važnija je od sirove gustine propusnog opsega. Testirali smo naše400G QSFP-DD moduli na 14 switch platformiuključujući Cisco Nexus 93600CD, Arista 7060X5 i Juniper QFX5220. U tim okruženjima dominantna briga nije brzina. Radi se o tome da li će modul biti prepoznat od strane firmvera prekidača bez ručnih naredbi za nadjačavanje.

 

Mrtva zona 800G koja hvata inženjere nespremne

 

Na 400G, odabir interkonekcije bio je proces u dva-koraka: izmjerite udaljenost, odaberite bakar ili vlakno. Pasivni DAC je udobno prešao 3 do 5 metara. 800G je to razbio. Svaka traka pokreće 112G PAM4. Gubitak bakra na tim frekvencijama se otprilike udvostručuje u odnosu na 400G, a rezultat je tvrd plafon oko 2 metra za pasivni kabl.

 

High-speed cable comparison showing an Active Electrical Cable (AEC) vs a standard Direct Attach Copper (DAC) bundle. The AEC uses internal retimers to extend the 800G signal reach to 7 meters at the cost of slight latency overhead.

 

Naučili smo ovo na skup način. Rani kupac je naručio naše800G pasivni DAC sklopoviu dužinama od 3 metra na osnovu njihovog rasporeda stalka od 400G. Obuka veza nije uspjela na preko 60% portova. Bakar nije bio neispravan; fizika to jednostavno nije dozvolila. Prešli su na AEC za staze od 3 do 5 metara i priključne optičke module za sve dalje, a implementacija se stabilizovala u roku od nedelju dana. Od tada smo prestali primati narudžbe za pasivni 800G DAC iznad 2,5 metra i dodali upozorenje o udaljenosti u našem procesu potvrde narudžbe.

 

AEC sada posjeduje razmak od 3 do 7 metara. Digitalni retajmeri regenerišu signal električnim putem bez optičke konverzije, što smanjuje troškove, ali povećava kašnjenje. Samo KP4 FEC daje 50 do 100 nanosekundi na svaki skok pri 800G, a retimer stavlja više na vrh. Izmjerili smo ukupno dodatno kašnjenje od 85 do 110 ns na AEC sklopovima koje trenutno isporučujemo. Za veze sa kičmenim{10}}lim listovima, taj gornji dio je nevidljiv u performansama aplikacije. Za čvrsto povezane GPU klastere to je druga priča. Na osnovu podataka o profilisanju iz tri korisničke implementacije koje pokreću H100 čvorove, ako su komunikacioni troškovi vašeg posla obuke već iznad 15%, tih dodatnih sto nanosekundi po skoku na više nivoa prekidača počinje da se spaja u NCCL AllReduce operacijama.

 

Preko 7 metara, optički primopredajnici za 800G su jedini održivi put. Zahtjevi fizičkog sloja su ovdje znatno pooštreni. Budžeti gubitaka od-do-kraja umetanja prema IEEE 802.3ck su ispod 1,5 dB za većinu 800G klasa dosega, a svaka povezana MPO veza mora ostati ispod 0,35 dB. Vidjeli smo da instalirana vlakna koja su prošla certifikaciju pri 100G pokazuju PMD vrijednosti dva do tri puta iznad svojih nominalnih specifikacija nakon nekoliko godina kompresije u nosačima kablova, u skladu s onim što je Juniperov tim za istraživanje mreže izvijestio 2023. Naša standardna preporuka prije implementacije bilo kojeg 800G primopredajnika: pokrenite OTDR i PMD segment na svakom postojećem segmentu vlakana. Nije uzorak. Svaki segment. Trošak ponovnog -povlačenja dva trunk kabla je djelić cijene otklanjanja grešaka povremenih prekida veze tokom šest mjeseci.

 

CPO vs LPO vs Pluggable: gdje svaka tehnologija zapravo stoji 2026

 

Ko-upakovana optika će promijeniti način na koji se gradi komutatorska infrastruktura data centra. Ovo kažemo kao proizvođač priključnih modula, tako da naš stav smatramo informiranim, a ne neutralnim.

 

Na OFC 2026, podaci o pouzdanosti CPO prototipova pokazali su stope kvarova potencijalno niže od tradicionalnih priključnih modula. Bez ciklusa mehaničkog umetanja ili izloženih površina konektora, dominantni načini kvara modula koji se mogu priključiti jednostavno se ne primjenjuju. Broadcomova Bailly 51.2T CPO switch platforma pokazala je otprilike 70% nižu potrošnju energije na optičkom sloju u poređenju sa ekvivalentnim konfiguracijama koje se mogu priključiti. (DataMIntelligence Optical Interconnect Report) NVIDIA je pokazala CPO-integrisane prekidače na GTC 2026 ciljajući scale{2}}primenu u periodu od 2027. do 2028. godine.

 

Naš stav: ako niste hiperskaler koji gradi prilagođeni prekidač silikona, optika koja se može priključiti je vaša jedina opcija za postavljanje do najmanje 2027. CPO-u su potrebne arhitekture ploča koje većina proizvođača prekidača još nije isporučila, standardi konektora koji nisu finalizirani i potpuno novi priručnik za rukovanje kvarovima koje ne možete popraviti povlačenjem modula. Ekosistem za opšte nabavke preduzeća još ne postoji. Imali smo dva potencijalna korisnika u protekloj godini koja su odgodila svoje nadogradnje od 400G-na 800G čekajući CPO. Obojica su se na kraju vratili i dali narudžbe koje se mogu priključiti nakon što su njihovi jazovi u propusnosti postali proizvodni incidenti. O inženjerskom obrazloženju ove pozicije detaljnije smo pisali na našemanaliza arhitekture primopredajnika koji se može priključiti.

 

LPO se nalazi u drugom prostoru. Uklanjanje DSP-a iz modula isključuje jedinu komponentu-koja najviše troši energiju, odgovornu za do polovine ukupne potrošnje energije modula. Rezultat je 30 do 50% manja potrošnja i do 15 nanosekundi manje kašnjenje. Počeli smo postavljati LPO{7}}specifične RFQ-e krajem 2025. Tri od četiri došla su od kupaca koji su izgradili GPU klastere jednog-proizvođača na NVIDIA Spectrum-X. Nijedan nije upravljao više-fabrikama, što vam govori sve o tome gdje LPO danas radi. Ako vaša mreža kombinuje dobavljače prekidača, LPO nije kompatibilan s vašim okruženjem. Ako pokrećete jedan-klaster AI dobavljača, to bi mogla biti najpametnija dostupna nadogradnja, a očekujemo da ćemo imati LPO{16}}spremne module u kvalifikaciji do sredine 2027. godine.

Što 800G termičke margine znače za odabir modula

 

Termalna matematika na 800G hvata ljude nespremne. Gustina snage optičke interkonekcije velike brzine u ovoj generaciji stvara probleme koji jednostavno nisu postojali na 400G. Prekidač sa 64 porta potpuno napunjen sa 800G modulima sa 16W svaki troši otprilike 1kW snage primopredajnika, prije nego što ASIC prekidač ima 400 do 500W. To je 1,4 do 1,5 kW po prekidaču. Osam prekidača u sloju kičme daje vam preko 11 kW samo iz mrežne opreme, u rekove koji su često bili predviđeni za ukupno 8 do 10 kW.

 

Juniper Networks izričito upozorava da moduli treće strane-s velikom potrošnjom energije, posebno koherentni tipovi ZR i ZR+, mogu uzrokovati termičko oštećenje host opreme, a odgovornost snosi korisnik. (Juniper Networks 800G Optics FAQ) To nije argument protiv optičkih modula-treće strane. To je argument da se tačno zna šta uključujete. U našoj kvalifikaciji za termalni biciklizam, testiramo svaki dizajn modula 800G na trajnoj temperaturi spoja od 85 stepeni tokom 2.000 sati i pratimo lasersko odstupanje struje kao primarni indikator starenja. Jedinice koje se kreću iznad 38 mA povlače se sa proizvodne linije. Pri gustoći od 800G, razlika između modula koji ima 14W i jednog crteža od 18W određuje da li će stalak ostati unutar termalnog omotača ili će aktivirati alarme za isključenje u 2 sata ujutro. Pogrešna specifikacija je uvijek bila neugodna. Na ovim nivoima snage, to je skupo.

Thermal heatmap of a high-density switch rack illustrating extreme heat concentration in the transceiver cage area where 64 modules drawing 16W each generate significant thermal load, nearing cooling capacity limits.

 

 

Isporučujemo priključne module od 1G SFP do 800G OSFP i testiramo na glavnim platformama prekidača. Vodimo evidenciju o tome šta radi, a šta ne. Ako vam je potrebna provjera kompatibilnosti u odnosu na specifično okruženje prekidača, ili želite specifikacije termalne i energetske-klase za visoke-rekove od 800G visoke gustine, naši inženjeri vode te razgovore svake sedmice. Naš800G OSFP i QSFP-DD800 stranica primopredajnikaima specifikacije, opcije dosega{0}}klase i uzorke obrazaca zahtjeva za svaki modul koji šaljemo.

Pošaljite upit