Làm thế nào để tạo cụm Hadoop với Amazon EMR?



Trong bài viết này, chúng ta sẽ khám phá Dịch vụ AWS EMR và trong quá trình này, chúng ta sẽ tìm hiểu Cách tạo Cụm Hadoop Với Amazon EMR?

Trong bài viết này về Cách tạo Cluster Với Amazon EMR, chúng ta sẽ thấy cách dễ dàng Chạy và mở rộng các ứng dụng Hadoop và Big Data. Các gợi ý sau sẽ được đề cập trong bài viết này,

Tiếp tục với điều này Làm thế nào để tạo cụm Hadoop với Amazon EMR?





Làm thế nào để tạo cụm Hadoop với Amazon EMR?

Khi chúng tôi tìm kiếm một thứ gì đó trên Google hoặc Yahoo, chúng tôi nhận được phản hồi trong một phần nhỏ giây. Làm thế nào mà Google, Yahoo và các công cụ tìm kiếm khác lại có thể trả lại kết quả nhanh như vậy từ web ngày càng phát triển? Các công cụ tìm kiếm thu thập thông tin qua internet, tải xuống các trang web và tạo một chỉ mục như hình dưới đây. Đối với bất kỳ truy vấn nào từ chúng tôi, họ sử dụng chỉ mục để tìm ra đâu là tất cả các trang web chứa văn bản mà chúng tôi đang tìm kiếm. Bằng cách nhìn vào chỉ mục bên dưới ở phía bên phải, chúng ta có thể biết rõ ràng rằng Hadoop có trang web 1, 2 và 3.

Hình ảnh - Cách tạo cụm Hadoop với Amazon EMR - EdurekaSau đó, Thuật toán PageRanking được sử dụng dựa trên cách các trang được kết nối để tìm ra trang nào sẽ hiển thị ở trên cùng và trang nào ở dưới cùng. Trong tình huống dưới đây, W1 là 'phổ biến nhất' vì mọi người đang liên kết với nó và W4 là 'ít phổ biến nhất' vì không ai liên kết với nó. Vì vậy, W1 được hiển thị ở trên cùng và W4 ở dưới cùng trong kết quả tìm kiếm.



Với sự bùng nổ của các trang web, các công cụ tìm kiếm này đang tìm ra những thách thức để tạo chỉ mục và thực hiện các tính toán PageRanking. Đây là nơi mà sự ra đời của Hadoop đã diễn ra trong Yahoo và sau đó trở thành FOSS (Phần mềm nguồn mở và miễn phí) thuộc ASF (Apache Software Foundation). Sau khi thuộc ASF, nhiều công ty bắt đầu quan tâm đến Hadoop và bắt đầu đóng góp để cải thiện nó. Hadoop là phần mềm bắt đầu cuộc cách mạng Dữ liệu lớn, nhưng rất nhiều phần mềm khác như Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume bắt đầu phát triển để giải quyết những hạn chế và lỗ hổng trong Hadoop.

Các công cụ tìm kiếm web là những công cụ đầu tiên sử dụng Hadoop, nhưng sau đó, nhiều trường hợp sử dụng bắt đầu phát triển khi ngày càng có nhiều dữ liệu được tạo ra. Hãy lấy ví dụ về một ứng dụng Thương mại điện tử được sử dụng để giới thiệu sách cho người dùng. Theo sơ đồ bên dưới, người dùng1 đã mua sách1, sách2 và sách3, người dùng2 đã mua một số sách, v.v. Quan sát kỹ hơn, chúng ta có thể thấy rằng user1 và user2 có sở thích tương tự như họ đã mua book1 và book2. Vì vậy, book3 có thể được đề xuất cho người dùng2 và book4 có thể được đề xuất cho người dùng1. Đây được gọi là Lọc cộng tác, một loại thuật toán Học máy. Chúng ta có thể lật sơ đồ dưới đây và lấy những cuốn sách tương tự.

Trong trường hợp trên, chúng tôi đã tạo chỉ mục, Xếp hạng trang và đề xuất cho người dùng, kích thước của dữ liệu nhỏ và vì vậy chúng tôi có thể hình dung dữ liệu và suy ra một số kết quả từ nó. Khi kích thước dữ liệu lớn hơn từng ngày và không thể kiểm soát được, đây là lúc các công cụ Dữ liệu lớn như Hadoop trở thành hình ảnh.



Hadoop giải quyết được rất nhiều vấn đề, nhưng cài đặt Hadoop và các phần mềm Dữ liệu lớn khác chưa bao giờ là một nhiệm vụ dễ dàng. Có rất nhiều thông số cấu hình cần điều chỉnh, chẳng hạn như các vấn đề tích hợp, cài đặt và cấu hình để làm việc. Đây là nơi các công ty như Cloudera, và Databricks trợ giúp. Chúng giúp việc cài đặt phần mềm Dữ liệu lớn dễ dàng hơn và cung cấp hỗ trợ thương mại, chẳng hạn như giả sử có điều gì đó xảy ra trong quá trình sản xuất. Amazon EMR (Elastic MapReduce) giúp việc sử dụng Hadoop, v.v. dễ dàng hơn nhiều. Cái tên Elastic MapReduce hơi gây nhầm lẫn vì EMR cũng hỗ trợ các mô hình tính toán phân tán khác như Tập dữ liệu phân tán đàn hồi chứ không chỉ MapReduce.

Trong hướng dẫn này, chúng ta sẽ khám phá cách thiết lập một cụm EMR trên Đám mây AWS và trong hướng dẫn sắp tới, chúng ta sẽ khám phá cách chạy Spark, Hive và các chương trình khác trên đó.

Tiếp tục với điều này Làm thế nào để tạo cụm Hadoop với Amazon EMR?

Demo: Tạo Cụm EMR trong AWS

Bước 1: Đi tới Bảng điều khiển quản lý EMR và nhấp vào “Tạo cụm”. Trong bảng điều khiển, siêu dữ liệu cho cụm kết thúc cũng được lưu miễn phí trong hai tháng. Điều này cho phép cụm đã kết thúc được sao chép và tạo lại.

Bước 2 : Từ màn hình tùy chọn nhanh, nhấp vào “Chuyển đến tùy chọn nâng cao” để chỉ định nhiều chi tiết hơn về cụm.

Bước 3: Trong tab Tùy chọn nâng cao, chúng ta có thể chọn phần mềm khác nhau sẽ được cài đặt trên cụm EMR. Đối với giao diện SQL, Hive có thể được chọn. Đối với giao diện ngôn ngữ luồng dữ liệu, có thể chọn Pig. Để phối hợp ứng dụng phân tán, ZooKeeper có thể được chọn, v.v. Tab này cũng cho phép chúng tôi thêm các bước, đây là một nhiệm vụ tùy chọn. Các bước là các công việc xử lý Dữ liệu lớn bằng cách sử dụng MapReduce, Pig, Hive, v.v. Chúng có thể được thêm vào tab này hoặc sau đó khi cụm đã được tạo. Nhấp vào “Tiếp theo” để chọn Phần cứng cần thiết cho cụm EMR.

cách kết nối cơ sở dữ liệu mysql trong java

Bước 4: Hadoop tuân theo kiến ​​trúc master-worker trong đó master thực hiện tất cả các điều phối như lập lịch và phân công công việc cũng như kiểm tra tiến độ của họ, trong khi worker thực hiện công việc xử lý và lưu trữ dữ liệu thực tế. Một tổng thể duy nhất là một điểm thất bại duy nhất (SPOF). Amazon EMR hỗ trợ đa chủ để có Tính khả dụng cao (HA). Bước trước đó cho phép thiết lập một cụm đa chủ trong EMR.

EMR cho phép hai loại nút, Core và Task. Nút lõi được sử dụng cho cả quá trình xử lý và lưu trữ dữ liệu, nút tác vụ được sử dụng để chỉ xử lý dữ liệu. Đối với hướng dẫn này, chúng ta chỉ có thể chọn một Core và không có nút Task nào vì nó ít tốn kém hơn cho chúng ta. Ngoài ra, hãy chọn Phiên bản Spot kết thúc Theo yêu cầu vì các phiên bản Spot rẻ hơn. Điểm bắt buộc với các phiên bản Spot là chúng có thể được AWS tự động chấm dứt với thông báo hai phút . Điều này là tốt cho lợi ích của thực tế và trong một số tình huống thực tế. Các phiên bản Spot sẽ tự động kết thúc vì chúng có mức độ ưu tiên thấp so với các loại phiên bản khác. Nhấp vào “Tiếp theo”.

Bước 5: Chỉ định tên Cụm. và nhấp vào “Tiếp theo”. Lưu ý rằng “Bảo vệ kết thúc” được bật theo mặc định, điều này đảm bảo rằng cụm EMR không bị xóa ngẫu nhiên bằng cách thực hiện một vài bước trong khi kết thúc cụm.

Bước 6: Trong tab, các tùy chọn bảo mật khác nhau cho cụm EMR được chỉ định. KeyPair cần được chọn để đăng nhập vào phiên bản EC2. EMR sẽ tự động tạo các vai trò và Nhóm bảo mật thích hợp và gắn chúng vào các nút EC2 chính và công nhân. Nhấp vào “Tạo cụm”.

Việc tạo cụm mất vài phút vì các cá thể EC2 phải được mua hết và các phần mềm Dữ liệu lớn khác nhau phải được cài đặt và cấu hình. Ban đầu, trạng thái cụm sẽ ở trạng thái “Đang bắt đầu” và chuyển sang trạng thái “Đang chờ”. Ở trạng thái “Đang chờ”, cụm EMR chỉ đơn giản là đợi chúng tôi gửi các công việc xử lý Dữ liệu lớn khác nhau như MR, Spark, Hive, v.v.

Ngoài ra, hãy thông báo từ Bảng điều khiển quản lý EC2 và lưu ý rằng các phiên bản EC2 chính và công nhân phải ở trạng thái đang chạy. Đây là các phiên bản Spot đã được tạo như một phần của quá trình tạo cụm EMR. Cũng có thể quan sát EC2 tương tự từ tab Phần cứng trong Bảng điều khiển quản lý EMR. Lưu ý rằng trong tab Phần cứng, giá cho các phiên bản Spot EC2 được đề cập là 0,032 USD / giờ. Giá của phiên bản Spot liên tục thay đổi theo thời gian và thấp hơn nhiều so với giá EC2 Theo Yêu cầu.

Bước 7: Bây giờ cụm EMR đã được thêm thành công, các công việc xử lý Bước hoặc Dữ liệu lớn có thể được thêm vào. Chuyển đến tab Các bước và nhấp vào “Thêm Bước” và chọn loại Bước (MR, Hive, Spark, v.v.). Chúng ta sẽ khám phá điều tương tự trong hướng dẫn sắp tới. Bây giờ, hãy nhấp vào Hủy.

Bước 8: Bây giờ chúng ta đã thấy cách khởi động EMR, hãy xem cách dừng lại.

Bước 8.1: Nhấp vào Chấm dứt.

Bước 8.2: Như đã đề cập trong các bước trước, “Bảo vệ chấm dứt” được Bật cho cụm EMR và nút Chấm dứt đã bị tắt. Nhấp vào Thay đổi.

Bước 8.3: Chọn nút radio “Tắt” và nhấp vào dấu tích. Bây giờ nút Chấm dứt sẽ được bật. Đây là bước bổ sung mà EMR đã giới thiệu, chỉ để đảm bảo rằng chúng tôi không vô tình xóa cụm EMR.

mã sắp xếp hợp nhất c ++

Lưu ý rằng cụm EMR sẽ ở trạng thái Kết thúc và các EC2 sẽ bị kết thúc. Cuối cùng, cụm EMR sẽ được chuyển sang trạng thái Đã chấm dứt, từ đây việc thanh toán của chúng tôi với AWS sẽ dừng lại. Đảm bảo kết thúc cụm để không phải chịu thêm chi phí AWS.

Phần kết luận

Trong hướng dẫn này, chúng ta đã thấy cách khởi động cụm EMR trong vòng vài phút từ bảng điều khiển web (trình duyệt), điều này có thể được tự động hóa bằng cách sử dụng , AWS SDK hoặc bằng cách sử dụng AWS CloudFormation . Như đã nhận thấy, việc thiết lập một cụm EMR có thể được thực hiện chỉ trong vài phút và quá trình xử lý Dữ liệu lớn có thể được bắt đầu ngay lập tức, sau khi xử lý xong, đầu ra có thể được lưu trữ trong S3 hoặc DynamoDB và do đó, cụm sẽ tắt để dừng thanh toán. Do mô hình định giá này và tính dễ sử dụng, EMR là một hit lớn đối với những người đang thực hiện xử lý Dữ liệu lớn. Không cần phải mua máy chủ với số lượng lớn, hãy nhận giấy phép cho phần mềm Dữ liệu lớn và duy trì chúng. '

Vậy là xong, chúng ta sẽ đến phần cuối của bài viết này về Cách tạo cụm Hadoop với Amazon EMR?Trong trường hợp nếu bạn muốn có kiến ​​thức chuyên môn về chủ đề này, Edureka đã đưa ra một chương trình giảng dạy bao gồm chính xác những gì bạn cần để đạt được kỳ thi Kiến trúc sư giải pháp! Bạn có thể xem chi tiết khóa học cho đào tạo.

Trong trường hợp có bất kỳ câu hỏi nào liên quan đến blog này, vui lòng đặt câu hỏi trong phần bình luận bên dưới và chúng tôi rất sẵn lòng trả lời bạn sớm nhất.