Tổng quan về Liên đoàn kiến ​​trúc cụm Hadoop 2.0



Apache Hadoop 2.x bao gồm những cải tiến đáng kể so với Hadoop 1.x. Blog này nói về Liên đoàn kiến ​​trúc cụm Hadoop 2.0 và các thành phần của nó.

Liên kết kiến ​​trúc cụm Hadoop 2.0

Giới thiệu:

Trong blog này, tôi sẽ đi sâu vào Liên đoàn kiến ​​trúc cụm Hadoop 2.0. Apache Hadoop đã phát triển rất nhiều kể từ khi phát hành Apache Hadoop 1.x. Như bạn đã biết từ blog trước của tôi rằng theo Topology Master / Slave trong đó NameNode hoạt động như một daemon chính và chịu trách nhiệm quản lý các nút phụ khác được gọi là DataNodes. Trong hệ sinh thái này, Master Daemon hoặc NameNode đơn lẻ này sẽ trở thành một nút thắt cổ chai và ngược lại, các công ty cần phải có NameNode có tính khả dụng cao. Chính lý do này đã trở thành nền tảng của Kiến trúc Liên đoàn HDFS và Kiến trúc HA (Tính khả dụng cao) .

java chuyển đổi double thành int

Các chủ đề mà tôi đã đề cập trong blog này như sau:





  • Kiến trúc HDFS hiện tại
  • Hạn chế của Kiến trúc HDFS hiện tại
  • Kiến trúc liên kết HDFS

Tổng quan về Kiến trúc HDFS Hiện tại:

Kiến trúc HDFS không gian tên đơn - Tổng quan về Liên đoàn kiến ​​trúc cụm Hadoop 2.0 - Edureka

Như bạn có thể thấy trong hình trên, HDFS hiện tại có hai lớp:



  • Không gian tên HDFS (NS): Lớp này chịu trách nhiệm quản lý các thư mục, tệp và khối. Nó cung cấp tất cả hoạt động của Hệ thống tệp liên quan đến Không gian tên như tạo, xóa hoặc sửa đổi tệp hoặc thư mục tệp.
  • Lớp lưu trữ: Nó bao gồm hai thành phần cơ bản.
    1. Quản lý khối : Nó thực hiện các hoạt động sau:
      • Kiểm tra nhịp tim của DataNodes theo định kỳ và nó quản lý tư cách thành viên của DataNode trong cụm.
      • Quản lý các báo cáo khối và duy trì vị trí khối.
      • Hỗ trợ các hoạt động của khối như tạo, sửa đổi, xóa và phân bổ vị trí khối.
      • Duy trì yếu tố nhân rộng nhất quán trong toàn bộ cụm.

2. Lưu trữ vật lý : Nó được quản lý bởi DataNodes chịu trách nhiệm lưu trữ dữ liệu và do đó cung cấp quyền truy cập Đọc / Ghi vào dữ liệu được lưu trữ trong HDFS.

Vì vậy, Kiến trúc HDFS hiện tại cho phép bạn có một không gian tên duy nhất cho một cụm. Trong kiến ​​trúc này, một Mã tên duy nhất chịu trách nhiệm quản lý không gian tên. Kiến trúc này rất tiện lợi và dễ thực hiện. Ngoài ra, nó cung cấp đủ khả năng để đáp ứng nhu cầu của cụm sản xuất nhỏ.

flume trong hadoop là gì

Hạn chế của HDFS hiện tại:

Như đã thảo luận trước đó, HDFS hiện tại đã đáp ứng đủ nhu cầu và trường hợp sử dụng của một cụm sản xuất nhỏ. Tuy nhiên, các tổ chức lớn như Yahoo, Facebook nhận thấy một số hạn chế khi cụm HDFS phát triển theo cấp số nhân. Hãy để chúng tôi xem nhanh một số hạn chế:



  1. Không gian tên là không thể mở rộng như DataNodes. Do đó, chúng ta chỉ có thể có số lượng DataNode đó trong cụm mà một NameNode duy nhất có thể xử lý.
  2. Hai lớp, tức là lớp không gian tên và lớp lưu trữ là liên kết chặt chẽ điều này làm cho việc triển khai thay thế NameNode rất khó khăn.
  3. Hiệu suất của toàn bộ Hệ thống Hadoop phụ thuộc vào thông lượng của NameNode. Do đó, toàn bộ hiệu suất của tất cả các hoạt động HDFS phụ thuộc vào số lượng tác vụ mà NameNode có thể xử lý tại một thời điểm cụ thể.
  4. NameNode lưu trữ toàn bộ không gian tên trong RAM để truy cập nhanh. Điều này dẫn đến những hạn chế về kích thước bộ nhớ tức là số lượng các đối tượng không gian tên (tệp và khối) mà một máy chủ không gian tên duy nhất có thể xử lý.
  5. Nhiều tổ chức (nhà cung cấp) triển khai HDFS, cho phép nhiều tổ chức (đối tượng thuê) sử dụng không gian tên cụm của họ. Vì vậy, không có sự phân tách của không gian tên và do đó, có không cô lập giữa tổ chức người thuê đang sử dụng cụm.

Kiến trúc liên kết HDFS:

  • Trong Kiến trúc Liên kết HDFS, chúng tôi có khả năng mở rộng theo chiều ngang của dịch vụ tên. Do đó, chúng tôi có nhiều Mã tên được liên kết, tức là độc lập với nhau.
  • Các DataNodes hiện diện ở dưới cùng, tức là lớp lưu trữ bên dưới.
  • Mỗi DataNode đăng ký với tất cả các NameNode trong cụm.
  • Các DataNodes truyền nhịp tim định kỳ, báo cáo khối và xử lý các lệnh từ NameNodes.

Hình ảnh đại diện của Kiến trúc Liên đoàn HDFS được đưa ra dưới đây:

Trước khi tiếp tục, tôi xin nói sơ qua về hình ảnh kiến ​​trúc trên:

  • Có nhiều vùng tên (NS1, NS2,…, NSn) và mỗi vùng trong số chúng được quản lý bởi NameNode tương ứng của nó.
  • Mỗi không gian tên có nhóm khối riêng của nó (NS1 có Nhóm 1, NSk có Nhóm k, v.v.).
  • Như trong hình, các khối từ nhóm 1 (xanh da trời) được lưu trữ trên DataNode 1, DataNode 2, v.v. Tương tự, tất cả các khối từ mỗi nhóm khối sẽ nằm trên tất cả các Mã dữ liệu.

Bây giờ, hãy hiểu chi tiết các thành phần của Kiến trúc liên kết HDFS:

cách sử dụng tệp trong java

Hồ bơi khối:

Nhóm khối không là gì ngoài tập hợp các khối thuộc một Không gian tên cụ thể. Vì vậy, chúng ta có một bộ sưu tập nhóm khối trong đó mỗi khối khối được quản lý độc lập với khối khác. Sự độc lập này trong đó mỗi nhóm khối được quản lý độc lập cho phép không gian tên tạo ID khối cho các khối mới mà không cần phối hợp với các không gian tên khác. Các khối dữ liệu hiện diện trong tất cả nhóm khối được lưu trữ trong tất cả các Mã dữ liệu. Về cơ bản, nhóm khối cung cấp một sự trừu tượng để các khối dữ liệu nằm trong các Mã dữ liệu (như trong Kiến trúc không gian tên đơn) có thể được nhóm lại tương ứng với một không gian tên cụ thể.

Vùng chứa tên:

Khối lượng không gian tên không là gì ngoài không gian tên cùng với nhóm khối của nó. Do đó, trong Liên đoàn HDFS, chúng ta có nhiều vùng không gian tên. Nó là một đơn vị quản lý khép kín, tức là mỗi vùng chứa tên có thể hoạt động độc lập. Nếu một NameNode hoặc không gian tên bị xóa, nhóm khối tương ứng nằm trên DataNodes cũng sẽ bị xóa.

Demo trên Hadoop 2.0 Cluster Architecture Federation | Edureka

Bây giờ, tôi đoán bạn có một ý tưởng khá tốt về Kiến trúc Liên kết HDFS. Nó là một khái niệm lý thuyết hơn và người ta không sử dụng nó trong một hệ thống sản xuất thực tế. Có một số vấn đề triển khai với Liên đoàn HDFS gây khó khăn cho việc triển khai. Do đó, Kiến trúc HA (Tính khả dụng cao) được ưu tiên hơn để giải quyết vấn đề Điểm lỗi duy nhất. Tôi đã bao phủ Kiến trúc HDFS HA trong blog tiếp theo của tôi.

Bây giờ bạn đã hiểu Kiến trúc Liên kết Hadoop HDFS, hãy xem của Edureka, một công ty học trực tuyến đáng tin cậy với mạng lưới hơn 250.000 người học hài lòng trải dài trên toàn cầu. Khóa đào tạo Chứng chỉ Edureka Big Data Hadoop giúp người học trở thành chuyên gia trong lĩnh vực HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume và Sqoop bằng các trường hợp sử dụng thời gian thực trên miền Bán lẻ, Truyền thông xã hội, Hàng không, Du lịch, Tài chính.

Có một câu hỏi cho chúng tôi? Vui lòng đề cập đến nó trong phần bình luận và chúng tôi sẽ liên hệ lại với bạn.