„Yandex“ programuotojai vos nepaliko visos Rusijos be tikslaus laiko (3)
2024 metų spalį išmaniųjų kolonėlių „Yandex Stancya“ programinės įrangos klaida sukėlė tikslaus laiko serverių (Network Time Protocol – NTP) Rusijos segmento sutrikimus.
Prisijunk prie technologijos.lt komandos!
Laisvas grafikas, uždarbis, daug įdomių veiklų. Patirtis nebūtina, reikia tik entuziazmo.
Sudomino? Užpildyk šią anketą!
Dėl klaidos įrenginiai pradėjo siųsti užklausas į NTP serverius kas 5 sekundes, dėl ko buvo pernelyg apkrauta infrastruktūra, nes Rusijoje jau parduoti keli milijonai kolonėlių. Iki lapkričio Rusijoje tikslaus laiko serverių sumažėjo nuo 140 iki vos 4. Likę nustojo dirbti dėl neplanuotos atakos iš Yandex pusės.
Problemą pastebėjo naudotojas, palaikantis NTP serverį naminiame maršrutizatoriuje. Jis aptiko, kad jo kanalas perkrautas nuolatinėmis užklausomis, ir laikinai atjungė serverį. Galiausiai išaiškėjo, kad sutrikimas susijęs su spalio viduryje atliktu „Yandex Stancya“ programinės įrangos atnaujinimu. Klaida laiko sinchronizavimo modulyje vertė įrenginį kartoti užklausas, nepaisant jų sėkmingo atlikimo.
|
Atnaujinimas iš pradžių buvo įdiegtas 10% įrenginių, tačiau montoringo sistema NTP užklausų nesekė, todėl iki spalio pabaigos atnaujinimas pasiekė visus prietaisus. Masiniai vartotojų skundai ėmė plūsti tik lapkritį, kas sulėtino problemos identifikavimą.
Sprendimas buvo rastas tik lapkričio 20 d.
Laikinai pašalinti sutrikimą „Yandex“ išleido pataisą, padidinančią užklausų intervalą nuo 5 iki 600 sekundžių. taip pavyko sumažinti serverių apkrovą 120 kartų. Tačiau jeigu laiko sinchronizavimas iš pirmo karto nepavykdavo, dalis kolonėlių funkcijų liko neprieinamos. Lygiagrečiai, entuziastų bendruomenės ir stambios kompanijos, tokios, kaip debesų kompiuterijos paslaugų operatoriai, ėmė kurti papildomus NTP serverius.
Siekdama užkirsti kelią situacijos pasikartojimui, „Yandex“ ėmėsi priemonių: kompanija planuoja sukurti atskirą NTP serverių zoną savo prietaisams, integruoti savo resursus į bendrą tikslaus laiko serverių grupuotę ir įdiegti atitinkamų metrikų monitoringą. Taip pat bus patobulintas atgalinis ryšys su naudotojais, kad problemos būtų aptinkamos operatyviau.
Sutrikimas išryškino Rusijos NTP infrastruktūros pažeidžiamumą.
Šis protokolas naudojamas milijonų įrenginių sinchronizavimui, tarp kurių išmanieji prietaisai, serveriai ir transporto sistemos. Ekspertai pažymi būtinybę padidinti serverių skaičių, kad būtų užkirstas kelias perkrovimams ateityje.
Problema taip pat išryškino rusiškų įrenginių priklausomybę nuo globalių tinklinių servisų ir būtinybę plėtoti lokalius sprendimus. Naudotojai aktyviai jungėsi prie naujų serverių kūrimo iniciatyvos, kad būtų atstatytas sistemos stabilumas. Tačiau stabiliam sprendimui reikės kompleksinio būdo ir papildomų investicijų į infrastruktūrą.
hightech.plus