آشنایی با Memory RAS و انواع خطاهای حافظه (پارت 1)

آشنایی با Memory RAS و انواع خطاهای حافظه (پارت 1)

بروز خطا در مموری در صورت تصحیح نشدن، می‌تواند باعث بروز مشکلاتی در عملکرد کلی سرور شود. در دنیای پیاده سازی سرورها، با افزایش ظرفیت حافظه، میزان بروز خطا نیز افزایش می‌یابد. از آنجایی که خطاهای مموری در کنار خطاهای استوریج از متداول‌ترین خطاها در کار با سرورها هستند، سرورهای HPE نسل 10 به بعد، از پردازنده‌های Intel Xeon استفاده می‌کنند که این پردازنده‌ها به قابلیت RAS مجهز هستند. RAS(reliability, availability, and serviceability) قابلیت اطمینان، در دسترس بودن و سرویس پذیری را به بهترین نحو ارائه می‌دهد و از مزایای این تکنولوژی می‌توان به موارد زیر اشاره نمود:

  • تشخیص و تصحیح خطا
  • نگهداری سیستم
  • افزونگی و انعطاف پذیری

در این مقاله و مقاله‌های بعدی، قصد داریم تا نگاهی به تکنولوژی RAS در سرورهای HPE ProLiant Gen11، ویژگی‌ها، نیازمندی‌ها و نحوه فعالسازی آن‌ها بپردازیم. این اطلاعات به شما کمک خواهند کرد تا بتوانید بهترین مموری با تکنولوژی Memory RAS را متناسب با بارهای کاری و نیازمندی خود انتخاب کنید. با ما همراه باشید.

چرا وجود Memory RAS ضروری است؟

Uptime سرور یکی از جنبه‌های مهم و ضروری در دیتاسنترهاست. از قضا، سرورها به دلایل مختلف چون مشکلات نرم افزاری، ارورهای مموری یا قطعی برق می‌توانند دچار مشکل شوند. سه مورد از ارورهای اصلی مموری که در ادامه به آن‌ها می‌پردازیم عبارتند از: 1.ارورهای قابل اصلاح 2.ارورهای غیر قابل اصلاح 3.ارورهای با قابلیت بازیابی.

نکته: تعیین اینکه چه اروری قابلیت اصلاح شدن و یا نشدن دارد، کاملا به توانایی و قابلیت کنترلر حافظه بستگی دارد.

ارورهای قابل اصلاح

ارورهایی که قابلیت اصلاح دارند، ارورهای تک بیتی هستند که می‌توانند توسط چیپست شناسایی و تصحیح شوند. تمامی سرورهای HPE توانایی شناسایی و تصحیح خطاهای تک بیتی را با پشتیبانی از ECC دارند.

در سرور HPE، به کمک چراغ‌های روی پنل جلوی سرور یا برد سیستم (در صورت وجود) یا HPE Integrated Management Log (IML)، هشدار داده می‌شود که DIMM از آستانه خطای قابل تصحیح فراتر رفته است و ادامه دار بودن این خطا منجر به خرابی و یا خاموشی سرور خواهد شد. 

ارورهای غیر قابل اصلاح

این ارورهای چند بیتی توسط چیپست شناسایی می‌شوند، اما چیپست توانایی تصحیح آن‌ها را ندارد. log این ارورها در IML ثبت می‌شود و بروز این ارورها می‌تواند فوراً سبب crash کردن و یا خاموش شدن سیستم و سرور شود.

در برخی موارد، با پشتیبانی سیستم عامل و SKU پردازنده‌ها (پردازنده‌های Intel Xeon سری‌های Platinum و Gold) دیگر ارورهای غیر قابل اصلاح سبب بروز crash در سیستم نمی‌شوند. از این رو، به این سبک ارورها، ارورهای قابل ریکاور شدن گفته می‌شود.

ارورهای DRAM عموما در دو نوع مختلف ایجاد می‌شوند، که به آن‌ها Hard error و Soft error گفته می‌شود.

Hard error: معمولاً مشکل را در خود DIMM نشان می‌دهد. بعلاوه این ارورها که بیانگر مشکلات سخت افزاری هستند، توسط خود سیستم تصحیح می‌شوند و سبب بروز Downtime یا از بین رفتن اطلاعات نخواهند شد.

Soft error: این ارورها مشکلی را در DIMM نشان نمی‌دهند و زمانی رخ می‌دهند که دیتا یا بیت‌های ECC روی DIMM اشتباه باشند.

با انواع ارورها آشنا شدیم، اما باید گفت که هر ارور اگر به درستی مدیریت نشود، می‌تواند سبب بروز خاموشی سیستم شود. در اوایل کار با سرورها، ECCها برای حل مشکلات DRAMها مناسب بودند. اما سرورهای امروزی چالش‌های گوناگونی را با خود به همراه دارند. به همین دلیل است که ویژگی‌های Memory RAS به کمک آمده‌اند تا پایداری سرور به حداکثر خود برسد.

HPE Fast Fault Tolerance

HPE Fast Fault Tolerance یک ویژگی RAS است که اولین بار در سرورهای نسل 10 برند HPE معرفی شد و در سرورهای نسل 11 با پشتیبانی از پردازنده‌های Intel Xeon Scalable به کار گرفته شده است. سرورهایی که به HPE SmartMemory و HPE Fast Fault Tolerance مجهز هستند، یک لایه محافظتی اضافه‌تر در مقابل Downtime و Crash دارند.

در سرورهای HPE ProLiant نسل قدیمی، پیشرفته ترین فناوری حفاظتی و امنیتی حافظه، Double Device Data Correction (DDDC) بود. اما HPE Fast Fault Tolerance یک نسخه پیشرفته از ADDDC است و حاصل همکاری اینتل و HPE می‌باشد که عملکرد و بازدهی حافظه را تا حد زیادی بهبود می‌بخشد و قابلیت اطمینان بیشتر و دسترسی آسان‌تری را در سروهای جدید تجربه خواهید کرد.

یکی از بزرگترین مشکلات این تکنولوژی، فعال شدن آن در زمان BOOT بود که با فعالسازی، توان حافظه را به شدت کاهش می‌داد و به همین دلیل، کاربران مجبور بودند بین عملکرد و انعطاف پذیری یک مورد را فدای دیگری کنند.

اما به کمک HPE Fast Fault Tolerance دیگر نیاز نیست تا تصمیم بگیرید بین عملکرد و انعطاف پذیری کدام یک را فدا کنید. به دلیل اینکه ویژگی Memory RAS انعطاف پذیری DDDC را با عملکرد SDDC ترکیب می‌کند، با کمک آن دسترسی بی نظیر و عملکرد بالایی را نیز شاهد خواهید بود. همچنین، سیستم قادر خواهد بود تا با حداکثر عملکرد حافظه BOOT شود و تنها بخش بسیار کوچکی از حافظه که بانک نام دارد، در حالت قفل قرار می‌گیرد.

چگونه باید HPE Fast Fault Tolerance را فعال کرد؟

برای فعالسازی و غیر فعال کردن HPE Fast Fault Tolerance در سرورهای نسل 11 می‌توان از طریق RBSU یا RESTful API اقدام نمود. برای اینکه بتوان تنظیمات پیش فرض آن را تغییر داد، کافیست تا در بخش Workload Profile، گزینه مورد نظر را انتخاب کنیم و آن را بر روی حالت Custom قرار دهیم. در این حالت، فعالسازی یا غیر فعال کردن HPE Fast Fault Tolerance از طریق Memory Options Advanced Memory Protection امکان پذیر خواهد بود.

نکته: نیازمندی‌های پیکربندی HPE Fast Fault Tolerance می‌تواند متناسب با سری سرورها متفاوت باشد اما نکته مطرح این است که به پشتیبانی سیستم عامل یا نرم افزار خاصی فراتر از BIOS نیازی نخواهد داشت.

برای فعالسازی HPE Fast Fault Tolerance در RBSU کافیست مطابق شکل زیر این مراحل را طی کنید:

System Configuration > BIOS/Platform Configuration (RBSU) > Memory Options > Advanced
Memory Protection

 

 

در حال حاضر، سرور باید در حالت closed-page در HPE Fast Fault Tolerance کار کند که همین سبب می‌شود تا کاهش جزئی در توان عملیاتی دیده شود. انتظار نمی رود در حالت closed-page، افت عملکرد قابل توجهی برای الگوهای حافظه دسترسی تصادفی وجود داشته باشد (به عنوان مثال، SQL یا سایر پایگاه‌های داده)، اما عملکرد الگوهای حافظه دسترسی متوالی (مانند جریان‌های داده) دچار افت خواهند شد.

اگر یک DRAM در سرور به مشکل بخورد، در عملکرد کلی سرور تاثیر چشمگیری نخواهد گذاشت، تنها بخش خیلی کوچکی از حافظه (عموما اندازه یک بانک) تحت تاثیر قرار می‌گیرد. برای الگوهای حافظه با دسترسی تصادفی، ضرر قابل توجهی آن را تحت تاثیر قرار نمی‌دهد، چراکه DRAM در مرحله قفل به ندرت قابل دسترسی خواهد بود.

سخن آخر

در این مقاله، در خصوص انواع ارورهایی که می‌تواند حافظه سرور را با مشکل رو به رو کند صحبت کردیم. همچنین با تکنولوژی Memory RAS و یکی از ویژگی‌های آن تحت عنوان HPE Fast Fault Tolerance آشنا شدیم که سبب می‌شود تا دیگر عملکرد و انعطاف پذیری را فدای یکدیگر نکنید. در مقاله بعدی قصد داریم تا در خصوص ویژگی‌های دیگر تکنولوژی Memory RAS صحبت کنیم. پس منتظر مقاله بعدی ما باشید.

آداک فناوری مانیا با عرضه سرور و استوریج با قیمت و کیفیت مناسب در کنار شماست تا بهترین انتخاب را داشته باشید. برای انتخاب حافظه مناسب سرور خود نیز می‌توانید با مشاورین فنی ما در تماس باشید تا بهترین پیشنهاد را به شما داشته باشند.

ادامه دارد…..

نوشته های مرتبط
یک پاسخ بنویسید

نشانی ایمیل شما منتشر نخواهد شد.فیلد های مورد نیاز علامت گذاری شده اند *