آشنایی با Memory RAS و انواع خطاهای حافظه (Advanced ECC)

13 دي 1402      0 دیدگاه

در مقاله قبلی، در خصوص ضرورت Memory RAS، انواع ارورهای حافظه از جمله ارورهای قابل اصلاح، غیر قابل اصلاح، Hard error ،Soft error و HPE Fast Fault Tolerance به عنوان یکی از ویژگی‌های RAS صحبت کردیم، در این مقاله قصد داریم تا به Advanced ECC به عنوان روش‌های تصحیح خطا مورد اعتماد HPE صحبت کنیم، با ما همراه باشید.

پشتیبانی از Advanced ECC

در ECC استاندارد تنها خطاهای تک بیتی امکان تصحیح دارند و در مورد خطاهای چند بیتی فقط امکان شناسایی آن‌ها وجود دارد. بعد از شناسایی خطاهای چند بیتی به کمک ECC، با بروز این خطا، به سرور سینگال فرستاده می‌شود و سپس سرور متوقف می‌شود.

اما در Advanced ECC که سال‌هاست HPE با اعتماد به آن پیش رفته و خطاها را تصحیح می‌کند، توانایی تصحیح خطاهای تک بیتی و چند بیتی را داراست. به خصوص خطاهای چند بیتی که در یک DRAM اتفاق می‌افتند را نیز تصحیح می‌کند.

اگر تمامی بیت‌های مشکل دار روی DIMM دستگاه DRAM باشند، Advanced ECC می‌تواند خطاهای تک بیتی و چهار بیتی را تصحیح کند. Advanced ECC همانطور که از نامش پیداست، در مقایسه با ECC استاندارد پیشرفته تر بوده و حفاظت بیشتری را به همراه دارد.

با کمک این فناوری، زمانی که DIMM در حال خراب شدن است، به سرور اطلاع داده می‌شود و از این رو، احتمال از بین رفتن اطلاعات و Down شدن سرور کاهش پیدا می‌کند.

چگونه Advanced ECC را فعال کنیم؟

این قابلیت به صورت پیش فرض فعال است اما برای مدیریت آن می‌توانید مسیر زیر را پیش ببرید.

RBSU –> Memory Options

با وجود اینکه این قابلیت از ایجاد خرابی‌های متعدد جلوگیری می‌کند، در قبال خطاهای چند بیتی زمانی قادر به تصحیح خطاست که خطاها در یک DRAM رخ دهند. پس در این صورت، اگر حافظه دچار مشکل و خرابی شود، قبل از تعویض شدن منجر به خاموشی سرور می‌شود.

به روزترین نسل‌های سرورهای HPE در سری‌های ProLiant ،Synergy و Blade به پردازنده‌های Intel Xeon Scalable مجهز هستند که سه سطح حفاظت از حافظه را ایجاد می‌کنند و از این رو، تحمل خطای سرور برای برنامه‌هایی که نیاز به سطح بالایی از دسترسی دارند افزایش پیدا می‌کند.

نکته: HPE Fast Fault Tolerance یکی از سطوح حفاظتی حافظه است که بالا اشاره نمودیم.

hpe fault tolerance

Mirror کردن حافظه با کمک قابلیت Advanced ECC

Mirror کردن حافظه با Advanced ECC در برابر خطاهای غیر قابل اصلاح محافظت ایجاد می‌کند. برای Mirror کردن حافظه دو روش وجود دارد که به شرح زیر می‌باشند:

  • Mirror کردن کامل حافظه: با کمک این روش نیمی از ظرفیت حافظه برای نگهداری نسخه‌ای از دیتاهای کپی شده استفاده می‌گردد.
  • Mirror کردن بخشی از حافظه: در این روش فضای کمتری برای نگهداری کپی‌ها و Mirror کردن مورد استفاده قرار می‌گیرد. برای استفاده از این روش، پردازنده شما باید در گروه Advanced CPU SKUs، پردازنده‌های Intel Xeon Platinum و Intel Xeon Gold باشد.

اگر خطایی غیر قابل اصلاح در قسمت حافظه Mirror شده رخ دهد، سیستم اتوماتیک وار می‌تواند اطلاعات به مشکل خورده را از کپی‌ها شناسایی کرده و بازیابی کند. با ایجاد این افزونگی در Memory subsystem، خطاهایی که روش‌های ECC ،SDDC ،DDDC ،ADDDC قادر به تصحیح آن نبودند، به آسانی امکان پذیر خواهد بود.

Mirror کردن بخشی از حافظه می‌تواند توسط کاربر پیکربندی شود و از مدهای مختلف زیر پشتیبانی می‌کند:

  • پیکربندی سیستم عامل
  • 4GB حافظه اول سرور
  • 10% یا 20% حافظه، بالای 4GB

نکته: تمامی پلتفرم‌های سرورهای نسل 10 به بعد، از Mirror کردن 2 و 3 کاناله استفاده می‌کنند و این مدها در پیکربندی‌های با 8 یا 16 DIMM قابل استفاده خواهند بود.

مثال: سرورهای DL360، DL380، ML350 و DL560 نسل 11 برند HPE

mirror کردن در ram ras

 

Mirror کردن سه کانله حافظه

حافظه را در هر سه کانال در هر طرف پردازنده منعکس می‌کند.

Mirror کردن دو کاناله

بین دو کانال از سه کانال در هر طرف پردازنده (2 و 3؛ 5 و 6) منعکس می‌شود. در هر دو حالت، همه کانال های پر شده در هر طرف پردازنده باید به طور یکسان پر شوند (تعداد DIMM یکسان، نوع DIMM یکسان، ظرفیت یکسان).

نحوه فعالسازی Memory Mirroring

برای فعالسازی Memory Mirroring کافیست مراحل زیر را در RBSU طی کنید:

انتخاب نوع کانفیگ <–Configuring the advanced memory protection option –> Mirrored memory with advanced ECC

 

Memory scrubbing (Patrol و Demand)

Memory scrubbing یک ویژگی استاندارد RAS است که از روی هم جمع شدن soft errorها و تبدیل آن‌‌ها به خطاهای uncorrected جلوگیری می‌کند. روش انجام Memory scrubbing به گونه‌ایست که در هر بار رخ دادن خطا و شناسایی آن، داده‌های درست جایگزین و نوشته می‌شوند. این روش به دو حالت انجام می‌پذیرد که عبارتند از: Patrol scrubbing و Demand scrubbing.

هر دو این حالت‌ها یک کار را انجام می‌دهند، در واقع شناسایی خطا و تصحیح آن کار مشترک هر دوی آن‌هاست. تفاوت در چگونگی انجام این تصحیحات است.

در Patrol scrubbing، خطاهایی که مداوما در پس زمینه در حال رخ دادن هستند، جستجو می‌شوند. اما demand scrubbing زمانی اتفاق می‌افتد که حافظه توسط سیستم عامل یا برنامه خوانده می‌شود.

جمع شدن خطاهای تک بیتی بر روی هم سبب خطاهای چند بیتی می‌شود. از این رو، patrol scrubbing در صورت فعال بودن به جستجوی این خطاهای قابل اصلاح می‌پردازند تا آن‌ها را اصلاح کرده و از بروز این مشکل جلوگیری کند.

نکته: Demand scrubbing به صورت پیش فرض همیشه فعال است و امکان خاموش کردن وجود ندارد.

نحوه فعالسازی Patrol scrubbing

RBSU —> advanced memory protection mode —> Memory Options

سخن آخر

در این مقاله در خصوص Advanced ECC، نحوه فعالسازی آن و Mirror کردن به عنوان راهکارهایی برای رفع و تصحیح خطای حافظه صحبت کردیم. امیدواریم از این مقاله لذت برده باشید.

آداک فناوری مانیا با عرضه سرور و استوریج با قیمت و کیفیت مناسب در کنار شماست تا بهترین انتخاب را داشته باشید. برای انتخاب حافظه مناسب سرور خود نیز می‌توانید با مشاورین فنی ما در تماس باشید تا بهترین پیشنهاد را به شما داشته باشند.


به اشتراک بگذارید :

در مقاله قبلی، در خصوص ضرورت Memory RAS، انواع ارورهای حافظه از جمله ارورهای قابل اصلاح، غیر قابل اصلاح، Hard error ،Soft error و HPE Fast Fault Tolerance به عنوان یکی از ویژگی‌های RAS صحبت کردیم، در این مقاله قصد داریم تا به Advanced ECC به عنوان روش‌های تصحیح خطا مورد اعتماد HPE صحبت کنیم، با ما همراه باشید.

  • آدرس دفتر مرکزی: تهران، بلوار نلسون ماندلا (آفریقا)، خ فرزان شرقی، پ 33

  • تلفن ویژه: 43672 (9821+) 88193969 (9821+)
  • ایمیل: info@mania-co.com