Hogyan kezeljük a PSOD-t - A lila képernyős halált?
This article is available in the following languages:
![Dutch](https://cdn.prod.website-files.com/61dbed42d31a0add772757d9/642166cb3b58dba816d39ebf_606dc83bfbc95c1e45659940_60633cc9a2160d03cd469bfe_netherlands.png)
![Portuguese](https://cdn.prod.website-files.com/61dbed42d31a0add772757d9/642166cb3b58db3771d39ec0_606edff560f0e758f005ae17_606dca1e36c16177d4d4bbf9_portugal.png)
![Spanish](https://cdn.prod.website-files.com/61dbed42d31a0add772757d9/642166cb3b58dbfcfbd39eb9_606edff9dfb765c66b7b2640_60633ba6417d33ef11031dc9_spain.png)
![Russian](https://cdn.prod.website-files.com/61dbed42d31a0add772757d9/642166cb3b58db3c67d39ebe_606edffef0085939a29d007d_60633bbf417d332e81032f28_russia.png)
![French](https://cdn.prod.website-files.com/61dbed42d31a0add772757d9/642166cb3b58db8117d39ebb_606ee002c3f265a29acf2dbd_60633ae6d3f66e337f7d092e_france.png)
![Italian](https://cdn.prod.website-files.com/61dbed42d31a0add772757d9/642166cb3b58dbbf06d39eba_606ee0078f2950c176a4a226_60633bce076962232f404077_italy.png)
![Hungarian](https://cdn.prod.website-files.com/61dbed42d31a0add772757d9/642166cb3b58dbd15cd39ec2_607964c02e93ec250541b82b_hungary.jpeg)
![Romanian](https://cdn.prod.website-files.com/61dbed42d31a0add772757d9/642166cb3b58db16ded39ebd_607965106c39f5092a24c54b_romania.png)
![German](https://cdn.prod.website-files.com/61dbed42d31a0add772757d9/642166cb3b58dbaf94d39ebc_606dc8318d0cbc3761773627_60633ad1cec8ca1e97d33836_germany.png)
![English](https://cdn.prod.website-files.com/61dbed42d31a0add772757d9/642166cb3b58db4c52d39ec1_606ee00fdd76fa394fbf68be_606dc9da8ce40fae6e8e6e6f_United%252520Kingdom.png)
Tartalomjegyzék
Mi az a PSOD?
Miért történik ez?
Mi a hatása?
Mi a teendő, ha ez történik?
Hogyan lehet megelőzni?
TL;DR
A PSOD legproblémásabb aspektusa az, hogy elveszíti az infrastruktúrába vetett bizalmat, és ebből fakadó szorongást okoz. Amíg meg nem oldja a kiváltó okot, hogy ez újra megtörténhessen, akár egy másik kiszolgálón, éjszakánként ébren tarthatja az adminokat.
A Runecast Analyzer (ingyenes próbaverzió) segítségével ellenőrizheti, hogy a VMware lila képernyős halált okozó körülményei nem érintik-e valamelyik hosztját.
Mi az a PSOD?
A PSOD a Purple Screen of Diagnostics (Bíborszínű diagnosztikai képernyő) rövidítése, gyakran a Purple Screen of Death (a szélesebb körben ismert Blue Screen of Death (Kék halál képernyő) nevet viseli, amely néha a Microsoft Windows rendszerben is előfordul).
Ez egy diagnosztikai képernyő, amelyet a VMware ESXi akkor jelenít meg, amikor a rendszermag olyan végzetes hibát észlel, amelyből vagy nem tud biztonságosan helyreállni, vagy nem tudja folytatni a futást anélkül, hogy ne lenne sokkal nagyobb kockázata a jelentős adatvesztésnek.
Megmutatja a memória állapotát az összeomlás idején, valamint további részleteket, amelyek fontosak az összeomlás okának elhárításában: Az ESXi verziója és buildje, a kivétel típusa, a regiszter dömping, a backtrace, a szerver üzemideje, a hibaüzenetek és a core dump (a hiba után generált fájl, amely további diagnosztikai információkat tartalmaz) információi.
Ez a képernyő a szerver konzolján látható. Ahhoz, hogy láthassa, vagy az adatközpontban kell lennie, és csatlakoztatnia kell egy monitort, vagy távolról, a szerver sávon kívüli kezelésének segítségével (iLO, iDRAC, IMM... a gyártótól függően).
![Example of Purple Screen of Diagnostics](https://cdn.prod.website-files.com/61dbed42d31a0add772757d9/648c4b5dc498859c7fed7072_603f8e9f92f0be0b0ec3e9f1_wNdhoZWvxXFsvJAZu9LpCdZTqwhpnBhcrCDHhnXXYEUUuEdmz-jx1gUu9KWB5aBcq_-iVpIxls23hyEBPImKMpZnNfRnVFEYD0IoiIzwRdbI8R-4S_aZPz0gP_jDH40ebtZeHPE.png)
TUDTA?
A képernyőt lilának vagy rózsaszínnek nevezik, de valójában a szín sötét magenta (RGB:171,0,171 | CMYK:0.00, 1.00, 0.00, 0.33).
Miért történik a PSOD?
A PSOD egy kernelpánik. Bár mindannyian tudjuk, hogy az ESXi nem a UNIX-on alapul, a pánik végrehajtása megfelel a UNIX definíciójának. Az ESXi kernel (vmkernel) ezt a biztonsági intézkedést olyan esemény/hiba esetén váltja ki, amely helyreállíthatatlan, és amely azt jelentené, hogy a futás folytatása nagy kockázatot jelentene a szolgáltatások és a VM-ek számára. Egyszerűen fogalmazva: amikor az ESXi hosztok úgy érzik, hogy megrongálódott, "seppukut" követ el, és lila vért vérezve ír egy búcsúlevelet, amelyben részletezi, hogy miért tette ezt!
A PSOD leggyakoribb okai a következők:
1. Hardverhibák, többnyire RAM-mal vagy CPU-val kapcsolatosak. Általában "MCE" vagy "NMI" hibát dobnak ki.
- "MCE" - Machine Check Exception, amely a CPU-n belüli mechanizmus a hardverproblémák észlelésére és jelentésére. A lila képernyőn megjelenő kódokban fontos részletek találhatók a probléma kiváltó okának azonosításához.
- "NMI" - nem maszkolható megszakítás, amely egy olyan hardveres megszakítás, amelyet a processzor nem hagyhat figyelmen kívül. Mivel az NMI egy nagyon fontos üzenet a HW hibáról, az ESXi 5.0-tól kezdve az alapértelmezett válasz a PSOD kiváltása. A korábbi verziók csak naplózták a hibát és folytatták. Az MCE-khez hasonlóan az NMI által okozott lila képernyő is fontos kódokat ad, amelyek kulcsfontosságúak a hibaelhárításhoz.
2. Szoftverhibák
- nem megfelelő kölcsönhatások az ESXi SW-összetevők között (pl.: KB2105711)
- versenyfeltételek (pl.: KB2136430)
- elfogytak az erőforrások: memória, heap, puffer (pl.: KB2034111, KB2150280)
- végtelen ciklus + stack túlcsordulás (pl.: KB2105522)
- nem megfelelő vagy nem támogatott konfigurációs paraméterek (pl.: KB2012125, KB2127997)
3. Rosszul viselkedő illesztőprogramok; hibák az illesztőprogramokban, amelyek megpróbálnak hozzáférni valamilyen helytelen indexhez vagy nem létező módszerhez (pl.: KB2148123).
TUDTA?
Tesztelés céljából, vagy ha csak kíváncsi vagy, hogy mi történik, akár kézzel is elindíthatsz egy PSOD-ot. Jelentkezzen be az ESXi állomáson a DCUI-n vagy az SSH-n keresztül egy privilegizált fiókkal, és futtassa:
vsish -e set /reliability/crashMe/Panic
Nyilvánvalóan ajánlott egy tesztrendszer, ideális esetben egy virtuálisan beágyazott ESXi, hogy könnyen megfigyelhesse a konzolt. Győződjön meg arról is, hogy befejezte a cikk elolvasását, hogy megértse a művelet következményeit és a tesztrendszerre gyakorolt hatását.
Milyen hatása van a PSOD-nak?
Amikor a pánikhelyzet bekövetkezik, és a gazda összeomlik, a rajta futó összes szolgáltatást és az összes virtuális gépet is leállítja. A VM-ek nem kíméletesen leállnak, hanem hirtelen kikapcsolódnak. Ha az állomás egy fürt része, és HA-t konfigurált, akkor ezek a VM-ek a fürt többi állomásán indulnak el. A leállás és a VM-ek elérhetetlensége mellett a leállás ideje alatt néhány kritikus alkalmazást, például adatbázis-kiszolgálókat, üzenetvárólistákat vagy biztonsági mentési feladatokat is érinthet a "piszkos" leállás.
Emellett az állomás által nyújtott összes többi szolgáltatás is megszűnik, így ha az állomás egy VSAN fürt tagja, a PSOD a vSAN-ra is hatással lesz.
Számomra a PSOD legproblémásabb aspektusa az, hogy elveszíti az infrastruktúrába vetett bizalmat és szorongást kelt, legalábbis addig, amíg a végére nem járunk a dolognak. Oké, újraindítással helyreállítható, és lehet, hogy van HA vagy akár FT, így a hatás nem lehet pusztító... de amíg nem oldja meg a kiváltó okot, a gondolat, hogy ez újra vagy egy másik szerveren is megtörténhet, nem hagyja aludni az éjszaka.
Mi a teendő, ha PSOD történik?
1. Elemezze a lila képernyő üzenetet
Az egyik legfontosabb dolog, amit PSOD esetén meg kell tenned, hogy képernyőképet készítesz. Ha távolról csatlakozik (IMM, iLO, iDRAC...) a konzolhoz, akkor könnyű képernyőképet készíteni, de ha az adatközpontba kell mennie, akkor lehet, hogy szó szerint elő kell vennie a telefonját, és le kell fényképeznie a képernyőt. Azon a képernyőn sok hasznos információ van az összeomlás okáról.
![](https://cdn.prod.website-files.com/61dbed42d31a0add772757d9/648c4b5dc498859c7fed7080_6079568103375f65bec7d2b2_PSOD%2520message.png)
2. Kapcsolatfelvétel a VMware támogatással
Mielőtt további vizsgálatokba és hibaelhárításba kezdene, célszerű felvenni a kapcsolatot a VMware támogatásával, ha rendelkezik támogatási szerződéssel. Ők a vizsgálattal párhuzamosan segíteni tudnak Önnek a gyökér ok elemzés (RCA) elkészítésében.
3. Az érintett ESXi állomás újraindítása
A szerver helyreállításához újra kell indítania azt. Azt is javasolnám, hogy tartsa karbantartási üzemmódban, amíg nem végzi el a teljes RCA-t, nem azonosítja az okot, és nem javítja ki. Ha nem engedheti meg magának, hogy karbantartási üzemmódban tartsa, legalább finomhangolja a DRS-szabályokat, hogy csak a nem fontos VM-ek fussanak rajta, így ha egy másik PSOD lecsapódik, a hatás minimális lesz.
4. Szerezd meg a core dumpot
Miután a szerver elindult, össze kell gyűjtenie a coredumpot. A coredump, más néven vmkernel-zdump egy olyan fájl, amely a lila diagnosztikai képernyőn látottakhoz hasonló, de részletesebb információkat tartalmazó naplófájlokat tartalmaz, és a további hibaelhárítás során használható. Még ha az 1. lépésben elemzett PSOD-üzenetből nyilvánvalónak is tűnhet az összeomlás oka, célszerű a coredump naplóinak megtekintésével megerősíteni azt.
A konfigurációtól függően a core dump a következő formák valamelyikében jelenhet meg:
a. A scratch partíción
b. .dump fájlként az állomás egyik adattárolóján
c. .dump fájlként a vCenterben - a netdump szolgáltatáson keresztül.
A coredump különösen akkor válik fontossá, ha a hoszt konfigurációja automatikusan visszaáll a PSOD után, ebben az esetben nem fogod látni az üzenetet a képernyőn.
A dumpfile-t SCP segítségével kimásolhatja az ESXi állomásról, majd megnyithatja egy szövegszerkesztővel (például Notepad++). Ez tartalmazza a memória tartalmát az összeomlás idején, és az első részei tartalmazzák a lila képernyőn látott üzeneteket. A teljes fájlt kérheti a VMware support, de csak a vmkernel logot lehet kinyerni, ami egy kicsit ... emészthetőbb:
![Error message generated by the purple screen](https://cdn.prod.website-files.com/61dbed42d31a0add772757d9/648c4b5dc498859c7fed707d_604a06b0dc8e97c1f3c165d2_5hNoeV3_PpyJKtbQMM_TGhZ4rgpFxtih2DCE4tZArbzB_J9-7e4kFWISRMA1LFmWc1mnoH2f6jth4v_9laT3kG9quDseKgwTTht2lHi_946hn0ZC5XjioDcC8Ozod6ucWL5HHEY.png)
5. A hiba megfejtése
A hibaelhárítás és a gyökeres okok elemzése miatt az ember úgy érezheti magát, mint Sherlock Holmes. A PSOD-ok néha Arthur Conan Doyle ihlette történetté válhatnak, de a legtöbb esetben ez egy elég egyszerű folyamat, ahol nehéz lesz eljutni az 5 Whys technika ötödik "miértjéhez".
A legfontosabb tünet, amellyel érdemes kezdeni, a lila képernyő által generált hibaüzenet. Szerencsére az előállítható hibaüzenetek száma véges:
![](https://cdn.prod.website-files.com/61dbed42d31a0add772757d9/648c4b5dc498859c7fed7067_604a06cb8080d27cff0a3114_l0B6rjEH9bknW7rRkDoVnLawN4ar28ULQumeZ3doMlL36PUeRAFskoHE60khVEmV2nY6Q-eaQk-CYoxXww5BW4q0vkG-FYPtFcg3MkewCUqk8xnSlJ6x9q83mTcgEv3ZceXug5A.png)
Mivel a kernelpánikot a CPU kezeli, az ilyen kivételekkel kapcsolatos további információkért lásd: Intel 64 and IA-32 Architectures Software Developer's Manual, Volume 1: Basic Architecture és Intel 64 and IA-32 Architectures Software Developer's Manual, Volume 3A.
A leggyakoribb esetekkel külön VMware KB cikkek foglalkoznak, én pedig itt csak egy referenciatáblázatot vezetek az ilyen hibákról, mivel a cikkek nagyon részletesek és jól dokumentáltak. Használja tehát ezt a táblázatot a PSOD hibák indexeként:
![](https://cdn.prod.website-files.com/61dbed42d31a0add772757d9/648c4b5dc498859c7fed7064_604a06e0cfd2a777803cdac9_bvVHddzkdCsrgopRc1ErHymGCSyZfgX0a2tI1dbxX-6Iuvp02j-4E-a0zrkU72JDo0IHAoTgV9f4Rf2YkU4qYeJRB8RURGs2BwNQI1few7ddFI6XEFID6rw_azd3LvTBPrRSDMc.png)
6. Naplók ellenőrzése
Előfordulhat, hogy a lila képernyő üzenetéből vagy a core dump naplóból nem nagyon derül ki az ok, ezért a következő hely, ahol nyomokat kell keresni, a host naplói, különösen a PSOD-ot közvetlenül megelőző időintervallumban. Még ha úgy is érezzük, hogy megtaláltuk az okot, akkor is tanácsos a naplófájlok megnézésével megerősíteni azt.
Ha vállalati környezetet adminisztrál, akkor valószínűleg van valamilyen speciális naplókezelési megoldása (például a VMware Log Insight vagy a SolarWinds LEM), így könnyen átböngészheti ezeket a naplókat, de ha nincs naplókezelési megoldása, akkor könnyen exportálhatja azokat.
A legérdekesebb naplófájlok a következők:
![](https://cdn.prod.website-files.com/61dbed42d31a0add772757d9/648c4b5dc498859c7fed705e_604a06f5c9eeb516340e656e___axe40a4Q2hIQkRBNvkQ6-LvrlfHgnwORWbi9Cht4-axgzwaM32KnqbynNJplWikZHcYk-YsOZ956GG7Wt7_Lee-5PyA2Y2KcUCFHiJUnZAmseVNsvWlDCq8ZRjVcKD-abJZc0.png)
Hogyan előzhető meg a PSOD?
A szoftverrel kapcsolatos PSOD-k többségét javítások oldják meg, ezért győződjön meg róla, hogy naprakész a legújabb verziókkal.
Győződjön meg róla, hogy a szerverek szerepelnek a VMware Hardverkompatibilitás-ellenőrzési listáján, az összes eszközzel és adapterrel együtt. Ez védelmet nyújt néhány váratlan hardverrel kapcsolatos problémával szemben, de azt is biztosítja, hogy a VMware ügyfélszolgálata PSOD esetén is támogatni tudja Önt.
Amint azt fentebb a "Miért történik" című részben leírtuk, a PSOD-ok gyakori okozója a rosszul működő illesztőprogramok is, ezért feltétlenül ellenőrizze rendszeresen a gyártók támogatási webhelyeit a frissített firmware és illesztőprogramok, és különösen a dokumentált PSOD-okat okozó illesztőprogramok frissítésével kell minél hamarabb reagálni.
A Runecastnál rendszeresen elemezzük a VMware teljes tudásbázisát (kb.vmware.com), amely több mint 30 000 cikkből áll. A KB-ból hasznosítható meglátásokat vonunk ki annak érdekében, hogy proaktív módon rugalmasabbá, biztonságosabbá és hatékonyabbá tegyük a virtualizált infrastruktúrákat. Nagyon jól ismerjük a PSOD-ot, és képesek vagyunk azonosítani a legtöbb előfeltételt, amely a problémához vezethet. A környezetének proaktív elemzésével a Runecast Analyzer segít elkerülni ezeket a problémákat, így nyugodt lehet, hogy a környezetére leselkedő legtöbb PSOD megelőzhető.
![Screenshot of VMware Knowledge Base](https://cdn.prod.website-files.com/61dbed42d31a0add772757d9/648c4b5dc498859c7fed7061_604a0715e55a4275b424384e_SyoHpmlIt8VuNotRVY-utX0qjbe_DDNEfLJN2zcBi5N5xY1dMxnCT9jPZYc9_n5RG9tDOCAO-4ZTOH1iVBwt2KnafmyO5Z-1hDy8bVtTuEQ6lJg_sXwJvJsS6JsiQ7xB2sBraw0.png)
>> Runecast Analyzer ingyenes próbaverzió letöltése (angol nyelven)
Ebook - Hogyan kezeljük a PSOD-ot (angol nyelven)
Minden, amit a PSOD-ról (The Purple Screen of Death) tudni kell, a Runecast CTO Aylin Sali ebookjában.