Cài đặt Hadoop: Thiết lập Cụm Hadoop một nút



Hướng dẫn này là hướng dẫn từng bước để cài đặt cụm Hadoop và định cấu hình nó trên một nút duy nhất. Tất cả các bước cài đặt Hadoop dành cho máy CentOS.

Cài đặt Hadoop: Thiết lập Cụm Hadoop một nút

Từ các blog trước của chúng tôi trên , bạn hẳn đã có một ý tưởng lý thuyết về Hadoop, HDFS và kiến ​​trúc của nó.Nhưng để có được bạn cần kiến ​​thức thực hành tốt.Tôi hy vọng bạn sẽ thích blog trước của chúng tôi trên , bây giờ tôi sẽ đưa bạn qua những kiến ​​thức thực tế về Hadoop và HDFS. Bước đầu tiên là cài đặt Hadoop.

Có hai cách để cài đặt Hadoop, tức là Một nútNhiều nút .





Cụm nút đơn có nghĩa là chỉ một DataNode chạy và thiết lập tất cả NameNode, DataNode, ResourceManager và NodeManager trên một máy duy nhất. Điều này được sử dụng cho mục đích nghiên cứu và thử nghiệm. Ví dụ: chúng ta hãy xem xét một tập dữ liệu mẫu trong ngành chăm sóc sức khỏe. Vì vậy, để kiểm tra xem các công việc của Oozie đã lên lịch cho tất cả các quy trình như thu thập, tổng hợp, lưu trữ và xử lý dữ liệu theo một trình tự thích hợp hay chưa, chúng tôi sử dụng cụm nút đơn. Nó có thể dễ dàng và hiệu quả kiểm tra quy trình làm việc tuần tự trong một môi trường nhỏ hơn so với các môi trường lớn chứa hàng chục terabyte dữ liệu được phân phối trên hàng trăm máy.

Trong khi trong một Cụm nhiều nút , có nhiều hơn một DataNode đang chạy và mỗi DataNode đang chạy trên các máy khác nhau. Thực tế, cụm đa nút được sử dụng trong các tổ chức để phân tích Dữ liệu lớn. Xem xét ví dụ trên, trong thời gian thực khi chúng ta xử lý petabyte dữ liệu, nó cần được phân phối trên hàng trăm máy để xử lý. Vì vậy, ở đây chúng tôi sử dụng cụm đa nút.



sự khác biệt giữa cuối cùng cuối cùng và cuối cùng

Trong blog này, tôi sẽ chỉ cho bạn cách cài đặt Hadoop trên một cụm nút duy nhất.

Điều kiện tiên quyết

  • HỘP VIRTUAL : nó được sử dụng để cài đặt hệ điều hành trên đó.
  • HỆ ĐIỀU HÀNH : Bạn có thể cài đặt Hadoop trên hệ điều hành dựa trên Linux. Ubuntu và CentOS được sử dụng rất phổ biến. Trong hướng dẫn này, chúng tôi đang sử dụng CentOS.
  • JAVA : Bạn cần cài đặt gói Java 8 trên hệ thống của mình.
  • HADOOP : Bạn yêu cầu gói Hadoop 2.7.3.

Cài đặt Hadoop

Bước 1: Bấm vào đây để tải xuống Gói Java 8. Lưu tệp này trong thư mục chính của bạn.

Bước 2: Giải nén tệp Java Tar.

Chỉ huy : tar -xvf jdk-8u101-linux-i586.tar.gz

Smear Java - Cài đặt Hadoop - Edureka



Hình: Cài đặt Hadoop - Giải nén tệp Java

Bước 3: Tải xuống Gói Hadoop 2.7.3.

Chỉ huy : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Hình: Cài đặt Hadoop - Tải xuống Hadoop

Bước 4: Giải nén Tệp tar Hadoop.

Chỉ huy : tar -xvf hadoop-2.7.3.tar.gz

Hình: Cài đặt Hadoop - Giải nén các tệp Hadoop

Bước 5: Thêm đường dẫn Hadoop và Java vào tệp bash (.bashrc).

Mở . bashrc tập tin. Bây giờ, thêm Hadoop và Java Path như hình dưới đây.

Chỉ huy : vi .bashrc

Hình: Cài đặt Hadoop - Biến môi trường thiết lập

Sau đó, lưu tệp bash và đóng nó.

Để áp dụng tất cả những thay đổi này cho Terminal hiện tại, hãy thực hiện lệnh nguồn.

Chỉ huy : nguồn .bashrc

Hình: Cài đặt Hadoop - Làm mới các biến môi trường

Để đảm bảo rằng Java và Hadoop đã được cài đặt đúng cách trên hệ thống của bạn và có thể được truy cập thông qua Terminal, đxecute các lệnh phiên bản java -version và hadoop.

Chỉ huy : java-phiên bản

Hình: Cài đặt Hadoop - Kiểm tra phiên bản Java

Chỉ huy : hadoopphiên bản

Hình: Cài đặt Hadoop - Kiểm tra Phiên bản Hadoop

Bước 6 : Chỉnh sửa .

Chỉ huy: cd hadoop-2.7.3 / etc / hadoop /

Chỉ huy: ls

Tất cả các tệp cấu hình Hadoop đều nằm trong hadoop-2.7.3 / etc / hadoop như bạn có thể thấy trong ảnh chụp nhanh bên dưới:

Hình: Cài đặt Hadoop - Tệp cấu hình Hadoop

Bước 7 : Mở core-site.xml và chỉnh sửa thuộc tính được đề cập bên dưới bên trong thẻ cấu hình:

core-site.xml thông báo cho daemon Hadoop nơi NameNode chạy trong cụm. Nó chứa các cài đặt cấu hình của lõi Hadoop chẳng hạn như cài đặt I / O phổ biến cho HDFS & MapReduce.

Chỉ huy : vi core-site.xml

Hình: Cài đặt Hadoop - Định cấu hình core-site.xml

fs.default.name hdfs: // localhost: 9000

Bước 8: Biên tập hdfs-site.xml và chỉnh sửa thuộc tính được đề cập bên dưới bên trong thẻ cấu hình:

hdfs-site.xml chứa cài đặt cấu hình của daemon HDFS (tức là Mã tên, Mã dữ liệu, Mã tên phụ). Nó cũng bao gồm yếu tố sao chép và kích thước khối của HDFS.

Chỉ huy : vi hdfs-site.xml

Hình: Cài đặt Hadoop - Định cấu hình hdfs-site.xml

dfs.replication 1 dfs.permission false

Bước 9 : Chỉnh sửa mapred-site.xml và chỉnh sửa thuộc tính được đề cập bên dưới bên trong thẻ cấu hình:

mapred-site.xml chứa cài đặt cấu hình của ứng dụng MapReduce như số lượng JVM có thể chạy song song, kích thước của trình ánh xạ và quy trình giảm thiểu, lõi CPU có sẵn cho một quy trình, v.v.

Trong một số trường hợp, tệp mapred-site.xml không khả dụng. Vì vậy, chúng ta phải tạo tệp mapred-site.xmlbằng cách sử dụng mẫu mapred-site.xml.

Chỉ huy : cp mapred-site.xml.template mapred-site.xml

Chỉ huy : chúng tôi bản đồ-Địa điểm.xml.

Hình: Cài đặt Hadoop - Định cấu hình mapred-site.xml

sợi mapreduce.framework.name

Bước 10: Biên tập fiber-site.xml và chỉnh sửa thuộc tính được đề cập bên dưới bên trong thẻ cấu hình:

fiber-site.xml chứa các cài đặt cấu hình của ResourceManager và NodeManager như kích thước quản lý bộ nhớ ứng dụng, hoạt động cần thiết trên chương trình và thuật toán, v.v.

Chỉ huy : vi sợi-site.xml

Hình: Cài đặt Hadoop - Định cấu hình fiber-site.xml

fiber.nodemanager.aux-services mapreduce_shuffle fiber.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Bước 11: Biên tập hadoop-env.sh và thêm Java Path như được đề cập bên dưới:

hadoop-env.sh chứa các biến môi trường được sử dụng trong tập lệnh để chạy Hadoop như đường dẫn trang chủ Java, v.v.

Chỉ huy : chúng tôi hadoop-env.sh

Hình: Cài đặt Hadoop - Cấu hình hadoop-env.sh

Bước 12: Đi tới thư mục chính của Hadoop và định dạng NameNode.

Chỉ huy : CD

Chỉ huy : cd hadoop-2.7.3

Chỉ huy : bin / hadoop mục đích-định dạng

Hình: Cài đặt Hadoop - Định dạng TênNode

Điều này định dạng HDFS thông qua NameNode. Lệnh này chỉ được thực hiện lần đầu tiên. Định dạng hệ thống tệp có nghĩa là khởi tạo thư mục được chỉ định bởi biến dfs.name.dir.

Không bao giờ định dạng, thiết lập và chạy hệ thống tệp Hadoop. Bạn sẽ mất tất cả dữ liệu được lưu trữ trong HDFS.

Bước 13: Khi NameNode được định dạng, hãy chuyển đến thư mục hadoop-2.7.3 / sbin và khởi động tất cả các daemon.

Chỉ huy: cd hadoop-2.7.3 / sbin

Bạn có thể khởi động tất cả các daemon bằng một lệnh duy nhất hoặc làm điều đó riêng lẻ.

Chỉ huy: ./ start-all.sh

Lệnh trên là sự kết hợp của start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

Hoặc bạn có thể chạy tất cả các dịch vụ riêng lẻ như sau:

Start NameNode:

NameNode là trung tâm của hệ thống tệp HDFS. Nó giữ cây thư mục của tất cả các tệp được lưu trữ trong HDFS và theo dõi tất cả tệp được lưu trữ trên toàn cụm.

Chỉ huy: ./Mục đích bắt đầu của hadoop-daemon.sh

Hình: Cài đặt Hadoop - TênNode bắt đầu

Khởi động DataNode:

Khi khởi động, một DataNode kết nối với Namenode và nó phản hồi các yêu cầu từ Namenode cho các hoạt động khác nhau.

Chỉ huy: ./hadoop-daemon.sh start datanode

Hình: Cài đặt Hadoop - Bắt đầu DataNode

Khởi động ResourceManager:

ResourceManager là phần mềm tổng thể phân xử tất cả các tài nguyên cụm có sẵn và do đó giúp quản lý các ứng dụng phân tán đang chạy trên hệ thống YARN. Công việc của nó là quản lý từng NodeManagers và ApplicationMaster của từng ứng dụng.

Chỉ huy: ./yarn-daemon.sh start resourcemanager

Hình: Cài đặt Hadoop - Khởi động ResourceManager

Khởi động NodeManager:

NodeManager trong mỗi khung công tác máy là tác nhân chịu trách nhiệm quản lý các vùng chứa, giám sát việc sử dụng tài nguyên của chúng và báo cáo tương tự cho ResourceManager.

Chỉ huy: ./yarn-daemon.sh bắt đầu gật đầu

Hình: Cài đặt Hadoop - Khởi động NodeManager

Bắt đầu JobHistoryServer:

JobHistoryServer chịu trách nhiệm phục vụ tất cả các yêu cầu liên quan đến lịch sử công việc từ khách hàng.

Chỉ huy : ./mr-jobhistory-daemon.sh start historyserver

Bước 14: Để kiểm tra xem tất cả các dịch vụ Hadoop đã được thiết lập và đang chạy chưa, hãy chạy lệnh dưới đây.

Chỉ huy: jps

Hình: Cài đặt Hadoop - Kiểm tra Daemons

Bước 15: Bây giờ, hãy mở trình duyệt Mozilla và đi tới localhost : 50070 / dfshealth.html để kiểm tra giao diện NameNode.

Hình: Cài đặt Hadoop - Khởi động WebUI

Xin chúc mừng, bạn đã cài đặt thành công một cụm Hadoop nút duy nhất trong một lần.Trong blog tiếp theo của chúng tôi về , chúng tôi cũng sẽ trình bày cách cài đặt Hadoop trên một cụm nhiều nút.

Bây giờ bạn đã hiểu cách cài đặt Hadoop, hãy xem của Edureka, một công ty học trực tuyến đáng tin cậy với mạng lưới hơn 250.000 người học hài lòng trải dài trên toàn cầu. Khóa đào tạo Chứng chỉ Edureka Big Data Hadoop giúp người học trở thành chuyên gia trong lĩnh vực HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume và Sqoop bằng các trường hợp sử dụng thời gian thực trên miền Bán lẻ, Truyền thông xã hội, Hàng không, Du lịch, Tài chính.

Có một câu hỏi cho chúng tôi? Vui lòng đề cập đến nó trong phần bình luận và chúng tôi sẽ liên hệ lại với bạn.