بروز خطا در مموری در صورت تصحیح نشدن، میتواند باعث بروز مشکلاتی در عملکرد کلی سرور شود. در دنیای پیاده سازی سرورها، با افزایش ظرفیت حافظه، میزان بروز خطا نیز افزایش مییابد. از آنجایی که خطاهای مموری در کنار خطاهای استوریج از متداولترین خطاها در کار با سرورها هستند، سرورهای HPE نسل 10 به بعد، از پردازندههای Intel Xeon استفاده میکنند که این پردازندهها به قابلیت RAS مجهز هستند. RAS(reliability, availability, and serviceability) قابلیت اطمینان، در دسترس بودن و سرویس پذیری را به بهترین نحو ارائه میدهد و از مزایای این تکنولوژی میتوان به موارد زیر اشاره نمود:
- تشخیص و تصحیح خطا
- نگهداری سیستم
- افزونگی و انعطاف پذیری
در این مقاله و مقالههای بعدی، قصد داریم تا نگاهی به تکنولوژی RAS در سرورهای HPE ProLiant Gen11، ویژگیها، نیازمندیها و نحوه فعالسازی آنها بپردازیم. این اطلاعات به شما کمک خواهند کرد تا بتوانید بهترین مموری با تکنولوژی Memory RAS را متناسب با بارهای کاری و نیازمندی خود انتخاب کنید. با ما همراه باشید.
چرا وجود Memory RAS ضروری است؟
Uptime سرور یکی از جنبههای مهم و ضروری در دیتاسنترهاست. از قضا، سرورها به دلایل مختلف چون مشکلات نرم افزاری، ارورهای مموری یا قطعی برق میتوانند دچار مشکل شوند. سه مورد از ارورهای اصلی مموری که در ادامه به آنها میپردازیم عبارتند از: 1.ارورهای قابل اصلاح 2.ارورهای غیر قابل اصلاح 3.ارورهای با قابلیت بازیابی.
نکته: تعیین اینکه چه اروری قابلیت اصلاح شدن و یا نشدن دارد، کاملا به توانایی و قابلیت کنترلر حافظه بستگی دارد.
ارورهای قابل اصلاح
ارورهایی که قابلیت اصلاح دارند، ارورهای تک بیتی هستند که میتوانند توسط چیپست شناسایی و تصحیح شوند. تمامی سرورهای HPE توانایی شناسایی و تصحیح خطاهای تک بیتی را با پشتیبانی از ECC دارند.
در سرور HPE، به کمک چراغهای روی پنل جلوی سرور یا برد سیستم (در صورت وجود) یا HPE Integrated Management Log (IML)، هشدار داده میشود که DIMM از آستانه خطای قابل تصحیح فراتر رفته است و ادامه دار بودن این خطا منجر به خرابی و یا خاموشی سرور خواهد شد.
ارورهای غیر قابل اصلاح
این ارورهای چند بیتی توسط چیپست شناسایی میشوند، اما چیپست توانایی تصحیح آنها را ندارد. log این ارورها در IML ثبت میشود و بروز این ارورها میتواند فوراً سبب crash کردن و یا خاموش شدن سیستم و سرور شود.
در برخی موارد، با پشتیبانی سیستم عامل و SKU پردازندهها (پردازندههای Intel Xeon سریهای Platinum و Gold) دیگر ارورهای غیر قابل اصلاح سبب بروز crash در سیستم نمیشوند. از این رو، به این سبک ارورها، ارورهای قابل ریکاور شدن گفته میشود.
ارورهای DRAM عموما در دو نوع مختلف ایجاد میشوند، که به آنها Hard error و Soft error گفته میشود.
Hard error: معمولاً مشکل را در خود DIMM نشان میدهد. بعلاوه این ارورها که بیانگر مشکلات سخت افزاری هستند، توسط خود سیستم تصحیح میشوند و سبب بروز Downtime یا از بین رفتن اطلاعات نخواهند شد.
Soft error: این ارورها مشکلی را در DIMM نشان نمیدهند و زمانی رخ میدهند که دیتا یا بیتهای ECC روی DIMM اشتباه باشند.
با انواع ارورها آشنا شدیم، اما باید گفت که هر ارور اگر به درستی مدیریت نشود، میتواند سبب بروز خاموشی سیستم شود. در اوایل کار با سرورها، ECCها برای حل مشکلات DRAMها مناسب بودند. اما سرورهای امروزی چالشهای گوناگونی را با خود به همراه دارند. به همین دلیل است که ویژگیهای Memory RAS به کمک آمدهاند تا پایداری سرور به حداکثر خود برسد.
HPE Fast Fault Tolerance
HPE Fast Fault Tolerance یک ویژگی RAS است که اولین بار در سرورهای نسل 10 برند HPE معرفی شد و در سرورهای نسل 11 با پشتیبانی از پردازندههای Intel Xeon Scalable به کار گرفته شده است. سرورهایی که به HPE SmartMemory و HPE Fast Fault Tolerance مجهز هستند، یک لایه محافظتی اضافهتر در مقابل Downtime و Crash دارند.
در سرورهای HPE ProLiant نسل قدیمی، پیشرفته ترین فناوری حفاظتی و امنیتی حافظه، Double Device Data Correction (DDDC) بود. اما HPE Fast Fault Tolerance یک نسخه پیشرفته از ADDDC است و حاصل همکاری اینتل و HPE میباشد که عملکرد و بازدهی حافظه را تا حد زیادی بهبود میبخشد و قابلیت اطمینان بیشتر و دسترسی آسانتری را در سروهای جدید تجربه خواهید کرد.
یکی از بزرگترین مشکلات این تکنولوژی، فعال شدن آن در زمان BOOT بود که با فعالسازی، توان حافظه را به شدت کاهش میداد و به همین دلیل، کاربران مجبور بودند بین عملکرد و انعطاف پذیری یک مورد را فدای دیگری کنند.
اما به کمک HPE Fast Fault Tolerance دیگر نیاز نیست تا تصمیم بگیرید بین عملکرد و انعطاف پذیری کدام یک را فدا کنید. به دلیل اینکه ویژگی Memory RAS انعطاف پذیری DDDC را با عملکرد SDDC ترکیب میکند، با کمک آن دسترسی بی نظیر و عملکرد بالایی را نیز شاهد خواهید بود. همچنین، سیستم قادر خواهد بود تا با حداکثر عملکرد حافظه BOOT شود و تنها بخش بسیار کوچکی از حافظه که بانک نام دارد، در حالت قفل قرار میگیرد.
چگونه باید HPE Fast Fault Tolerance را فعال کرد؟
برای فعالسازی و غیر فعال کردن HPE Fast Fault Tolerance در سرورهای نسل 11 میتوان از طریق RBSU یا RESTful API اقدام نمود. برای اینکه بتوان تنظیمات پیش فرض آن را تغییر داد، کافیست تا در بخش Workload Profile، گزینه مورد نظر را انتخاب کنیم و آن را بر روی حالت Custom قرار دهیم. در این حالت، فعالسازی یا غیر فعال کردن HPE Fast Fault Tolerance از طریق Memory Options Advanced Memory Protection امکان پذیر خواهد بود.
نکته: نیازمندیهای پیکربندی HPE Fast Fault Tolerance میتواند متناسب با سری سرورها متفاوت باشد اما نکته مطرح این است که به پشتیبانی سیستم عامل یا نرم افزار خاصی فراتر از BIOS نیازی نخواهد داشت.
برای فعالسازی HPE Fast Fault Tolerance در RBSU کافیست مطابق شکل زیر این مراحل را طی کنید:
System Configuration > BIOS/Platform Configuration (RBSU) > Memory Options > Advanced
Memory Protection
در حال حاضر، سرور باید در حالت closed-page در HPE Fast Fault Tolerance کار کند که همین سبب میشود تا کاهش جزئی در توان عملیاتی دیده شود. انتظار نمی رود در حالت closed-page، افت عملکرد قابل توجهی برای الگوهای حافظه دسترسی تصادفی وجود داشته باشد (به عنوان مثال، SQL یا سایر پایگاههای داده)، اما عملکرد الگوهای حافظه دسترسی متوالی (مانند جریانهای داده) دچار افت خواهند شد.
اگر یک DRAM در سرور به مشکل بخورد، در عملکرد کلی سرور تاثیر چشمگیری نخواهد گذاشت، تنها بخش خیلی کوچکی از حافظه (عموما اندازه یک بانک) تحت تاثیر قرار میگیرد. برای الگوهای حافظه با دسترسی تصادفی، ضرر قابل توجهی آن را تحت تاثیر قرار نمیدهد، چراکه DRAM در مرحله قفل به ندرت قابل دسترسی خواهد بود.
سخن آخر
در این مقاله، در خصوص انواع ارورهایی که میتواند حافظه سرور را با مشکل رو به رو کند صحبت کردیم. همچنین با تکنولوژی Memory RAS و یکی از ویژگیهای آن تحت عنوان HPE Fast Fault Tolerance آشنا شدیم که سبب میشود تا دیگر عملکرد و انعطاف پذیری را فدای یکدیگر نکنید. در مقاله بعدی قصد داریم تا در خصوص ویژگیهای دیگر تکنولوژی Memory RAS صحبت کنیم. پس منتظر مقاله بعدی ما باشید.
آداک فناوری مانیا با عرضه سرور و استوریج با قیمت و کیفیت مناسب در کنار شماست تا بهترین انتخاب را داشته باشید. برای انتخاب حافظه مناسب سرور خود نیز میتوانید با مشاورین فنی ما در تماس باشید تا بهترین پیشنهاد را به شما داشته باشند.
ادامه دارد…..