هادوپ (1)

هادوپ توسط Doug Cutting خالق Lucene (کتابخانه پرکاربرد جستجوی متن) ساخته شد. هادوپ پروژه Nutch (موتور جستجوی بازمتن وب) ریشه دارد که خود بخشی از پروژه Lucene بود.

ساخت موتور جستجوی وب از صفر هدفی بزرگ محسوب می‌شود چرا که از یک‌سو نوشتن نرم‌افزاری که در وب‌سایت‌ها بخزد و آن‌ها را نمایه‌سازی کند کاری پیچیده است و از دیگر سو اجرای آم بدون یک تیم عملیاتی تمام‌وقت اختصاصی چالش‌برانگیز است.

Nutch در سال ۲۰۰۲ آغاز شد و به سرعت یک خزنده‌ی وب و یک سامانه جستجو برای آن ساخته شد. تیم سازنده دریافتند که معماری آن‌ها برای میلیاردها صفحه روی وب گسترش‌پذیر نیست. چاپ مقاله‌ای در سال ۲۰۰۳ به آن‌ها کمک کرد که این مساله را حل نمایند. در این سال مقاله‌ای چاپ شد که در آن معماری سیستم‌فایل توزیع‌شده گوگل یا همان GFS توضیح داده شده بود و این نیاز آن‌ها به ذخیره‌سازی فایل‌های بسیار بزرگی که از خروجی فرآیند خزیدن در وب و نمایه‌سازی آن ساخته شده بود را حل می‌کرد. در سال ۲۰۰۴ آن‌ها آغاز به پیاده‌سازی نسخه‌ای بازمتن از آن کردند و آن را سیستم‌فایل توزیع شده ناچ (NDFS) نامیدند.
سال ۲۰۰۴ گوگل مقاله‌ی دیگری چاپ کرد که در آن MapReduce را به جهانیان معرفی کرد. اوایل سال ۲۰۰۵ سازندگانNutch نسخه‌ی پیاده‌سازی شده از MapReduce را ساخته بودند و در میانه سال همه‌ی الگوریتم‌های اصلی Nutch برای کار با MapReduce و NDFS تغییر یافته بودند.

نسخه‌ی پیاده‌سازی شده از MapReduce و NDFS در Nutch برای کاربری‌هایی فراتر از جستجو نیز کاربرد داشت بنابراین در آغاز ۲۰۰۶ آن‌ها از Nutch جدا ومستقل شده و Hadoop نام گرفتند.
تقریباً همزمان با این کار Doug Cutting به یاهو پیوست که تیم و منابع اختصاصی را برای کار بر روی هادوپ فراهم کرده بود تا آن را به سیستمی برای کار در مقیاس وب تبدیل کند.
در فوریه ۲۰۰۸ یاهو اعلام کرد که نمایه جستجوی آن توسط کلاستری از هادوپ با ۱۰۰۰۰ هسته ساخته می‌شود.
در ژانویه ۲۰۰۸ هادوپ یک پروژه سطح بالای بنیاد آپاچی شد که نشان دهنده موفقیت، مقبولیت و جامعه کاربری فعال آن است.
تا این زمان هادوپ توسط شرکت‌های بسیاری دیگری جز یاهو نیز بکار گرفته شده است. از آن جمله‌اند Last.fm، فیس بوک و نیویورک تایمز.
در یک کار جالب نییورک تایمز از سرویس ابری EC2 آمازون استفاده کرد تا ۴ ترابایت صفحه اسکن شده را به PDF مناسب برای وب تبدیل نماید پردازش با استفاده از ۱۰۰ سرور کمتر از ۲۴ ساعت زمان برد.
در آوریل ۲۰۰۸ هادوپ رکورد جهانی را شکست و تیدیل به سریع‌ترین سیستم مرتب‌سازی یک ترابایت داده شد. با اجرا روی کلاستری با ۹۱۰ گره، هادوپ یک ترابایت را در ۲۰۹ ثانیه (کمتر از ۳/۵ دقیقه) مرتب کرد و از رکورد سال پیش که ۲۹۷ ثانیه بود گذشت.
در نوامبر گوگل اعلام کرد که پیاده‌سازی MapReduce یک ترابایت را در ۶۸ ثانیه مرتب کرده است. در می ۲۰۰۹ یاهو اعلام کرد که توانسته یک ترابایت را با استفاده از هادوپ در ۶۲ ثاتیه مرتب نماید.
در سال ۲۰۱۰ هادوپ با اقبال عمومی روبرو شده است.