در مقاله قبلی، در خصوص ضرورت Memory RAS، انواع ارورهای حافظه از جمله ارورهای قابل اصلاح، غیر قابل اصلاح، Hard error ،Soft error و HPE Fast Fault Tolerance به عنوان یکی از ویژگیهای RAS صحبت کردیم، در این مقاله قصد داریم تا به Advanced ECC به عنوان روشهای تصحیح خطا مورد اعتماد HPE صحبت کنیم، با ما همراه باشید.
پشتیبانی از Advanced ECC
در ECC استاندارد تنها خطاهای تک بیتی امکان تصحیح دارند و در مورد خطاهای چند بیتی فقط امکان شناسایی آنها وجود دارد. بعد از شناسایی خطاهای چند بیتی به کمک ECC، با بروز این خطا، به سرور سینگال فرستاده میشود و سپس سرور متوقف میشود.
اما در Advanced ECC که سالهاست HPE با اعتماد به آن پیش رفته و خطاها را تصحیح میکند، توانایی تصحیح خطاهای تک بیتی و چند بیتی را داراست. به خصوص خطاهای چند بیتی که در یک DRAM اتفاق میافتند را نیز تصحیح میکند.
اگر تمامی بیتهای مشکل دار روی DIMM دستگاه DRAM باشند، Advanced ECC میتواند خطاهای تک بیتی و چهار بیتی را تصحیح کند. Advanced ECC همانطور که از نامش پیداست، در مقایسه با ECC استاندارد پیشرفته تر بوده و حفاظت بیشتری را به همراه دارد.
با کمک این فناوری، زمانی که DIMM در حال خراب شدن است، به سرور اطلاع داده میشود و از این رو، احتمال از بین رفتن اطلاعات و Down شدن سرور کاهش پیدا میکند.
چگونه Advanced ECC را فعال کنیم؟
این قابلیت به صورت پیش فرض فعال است اما برای مدیریت آن میتوانید مسیر زیر را پیش ببرید.
RBSU –> Memory Options
با وجود اینکه این قابلیت از ایجاد خرابیهای متعدد جلوگیری میکند، در قبال خطاهای چند بیتی زمانی قادر به تصحیح خطاست که خطاها در یک DRAM رخ دهند. پس در این صورت، اگر حافظه دچار مشکل و خرابی شود، قبل از تعویض شدن منجر به خاموشی سرور میشود.
به روزترین نسلهای سرورهای HPE در سریهای ProLiant ،Synergy و Blade به پردازندههای Intel Xeon Scalable مجهز هستند که سه سطح حفاظت از حافظه را ایجاد میکنند و از این رو، تحمل خطای سرور برای برنامههایی که نیاز به سطح بالایی از دسترسی دارند افزایش پیدا میکند.
نکته: HPE Fast Fault Tolerance یکی از سطوح حفاظتی حافظه است که بالا اشاره نمودیم.
Mirror کردن حافظه با کمک قابلیت Advanced ECC
Mirror کردن حافظه با Advanced ECC در برابر خطاهای غیر قابل اصلاح محافظت ایجاد میکند. برای Mirror کردن حافظه دو روش وجود دارد که به شرح زیر میباشند:
- Mirror کردن کامل حافظه: با کمک این روش نیمی از ظرفیت حافظه برای نگهداری نسخهای از دیتاهای کپی شده استفاده میگردد.
- Mirror کردن بخشی از حافظه: در این روش فضای کمتری برای نگهداری کپیها و Mirror کردن مورد استفاده قرار میگیرد. برای استفاده از این روش، پردازنده شما باید در گروه Advanced CPU SKUs، پردازندههای Intel Xeon Platinum و Intel Xeon Gold باشد.
اگر خطایی غیر قابل اصلاح در قسمت حافظه Mirror شده رخ دهد، سیستم اتوماتیک وار میتواند اطلاعات به مشکل خورده را از کپیها شناسایی کرده و بازیابی کند. با ایجاد این افزونگی در Memory subsystem، خطاهایی که روشهای ECC ،SDDC ،DDDC ،ADDDC قادر به تصحیح آن نبودند، به آسانی امکان پذیر خواهد بود.
Mirror کردن بخشی از حافظه میتواند توسط کاربر پیکربندی شود و از مدهای مختلف زیر پشتیبانی میکند:
- پیکربندی سیستم عامل
- 4GB حافظه اول سرور
- 10% یا 20% حافظه، بالای 4GB
نکته: تمامی پلتفرمهای سرورهای نسل 10 به بعد، از Mirror کردن 2 و 3 کاناله استفاده میکنند و این مدها در پیکربندیهای با 8 یا 16 DIMM قابل استفاده خواهند بود.
مثال: سرورهای DL360، DL380، ML350 و DL560 نسل 11 برند HPE
Mirror کردن سه کانله حافظه
حافظه را در هر سه کانال در هر طرف پردازنده منعکس میکند.
Mirror کردن دو کاناله
بین دو کانال از سه کانال در هر طرف پردازنده (2 و 3؛ 5 و 6) منعکس میشود. در هر دو حالت، همه کانال های پر شده در هر طرف پردازنده باید به طور یکسان پر شوند (تعداد DIMM یکسان، نوع DIMM یکسان، ظرفیت یکسان).
نحوه فعالسازی Memory Mirroring
برای فعالسازی Memory Mirroring کافیست مراحل زیر را در RBSU طی کنید:
انتخاب نوع کانفیگ <–Configuring the advanced memory protection option –> Mirrored memory with advanced ECC
Memory scrubbing (Patrol و Demand)
Memory scrubbing یک ویژگی استاندارد RAS است که از روی هم جمع شدن soft errorها و تبدیل آنها به خطاهای uncorrected جلوگیری میکند. روش انجام Memory scrubbing به گونهایست که در هر بار رخ دادن خطا و شناسایی آن، دادههای درست جایگزین و نوشته میشوند. این روش به دو حالت انجام میپذیرد که عبارتند از: Patrol scrubbing و Demand scrubbing.
هر دو این حالتها یک کار را انجام میدهند، در واقع شناسایی خطا و تصحیح آن کار مشترک هر دوی آنهاست. تفاوت در چگونگی انجام این تصحیحات است.
در Patrol scrubbing، خطاهایی که مداوما در پس زمینه در حال رخ دادن هستند، جستجو میشوند. اما demand scrubbing زمانی اتفاق میافتد که حافظه توسط سیستم عامل یا برنامه خوانده میشود.
جمع شدن خطاهای تک بیتی بر روی هم سبب خطاهای چند بیتی میشود. از این رو، patrol scrubbing در صورت فعال بودن به جستجوی این خطاهای قابل اصلاح میپردازند تا آنها را اصلاح کرده و از بروز این مشکل جلوگیری کند.
نکته: Demand scrubbing به صورت پیش فرض همیشه فعال است و امکان خاموش کردن وجود ندارد.
نحوه فعالسازی Patrol scrubbing
RBSU —> advanced memory protection mode —> Memory Options
سخن آخر
در این مقاله در خصوص Advanced ECC، نحوه فعالسازی آن و Mirror کردن به عنوان راهکارهایی برای رفع و تصحیح خطای حافظه صحبت کردیم. امیدواریم از این مقاله لذت برده باشید.
آداک فناوری مانیا با عرضه سرور و استوریج با قیمت و کیفیت مناسب در کنار شماست تا بهترین انتخاب را داشته باشید. برای انتخاب حافظه مناسب سرور خود نیز میتوانید با مشاورین فنی ما در تماس باشید تا بهترین پیشنهاد را به شما داشته باشند.