Hadoop YARN kết hợp đơn vị lưu trữ của Hadoop, tức là HDFS (Hệ thống tệp phân tán Hadoop) với các công cụ xử lý khác nhau. Đối với những người hoàn toàn mới đối với chủ đề này, YARN là viết tắt của “ Y và ĐẾN người viết thư R esource N người đàm phán ”. Tôi cũng sẽ đề nghị bạn xem qua và trước khi bạn tiếp tục học Apache Hadoop YARN. Tôi sẽ giải thích các chủ đề sau ở đây để đảm bảo rằng ở cuối blog này, hiểu biết của bạn về Hadoop YARN là rõ ràng.
- Tại sao SỢ?
- Giới thiệu về Hadoop YARN
- Các thành phần của YARN
- Gửi đơn đăng ký trong YARN
- Quy trình làm việc của ứng dụng trong Hadoop YARN
Tại sao SỢ?
Trong Hadoop phiên bản 1.0 còn được gọi là MRV1 (MapReduce Phiên bản 1), MapReduce thực hiện cả chức năng xử lý và quản lý tài nguyên. Nó bao gồm một Trình theo dõi công việc là một cái chính duy nhất. Trình theo dõi công việc đã phân bổ tài nguyên, thực hiện lập lịch và giám sát các công việc xử lý. Nó chỉ định bản đồ và giảm bớt nhiệm vụ trên một số quy trình cấp dưới được gọi là Task Trackers. Bộ theo dõi công việc báo cáo định kỳ tiến độ của họ cho Bộ theo dõi công việc.
Thiết kế này dẫn đến tắc nghẽn khả năng mở rộng do chỉ có một Trình theo dõi công việc duy nhất.IBM đã đề cập trong bài báo của mình rằng theo Yahoo !, giới hạn thực tế của một thiết kế như vậy là đạt tới một cụm 5000 nút và 40.000 tác vụ chạy đồng thời.Ngoài hạn chế này, việc sử dụng tài nguyên tính toán không hiệu quả trong MRV1. Ngoài ra, khuôn khổ Hadoop chỉ trở nên giới hạn đối với mô hình xử lý MapReduce.
lấy độ dài của mảng js
Để khắc phục tất cả những vấn đề này, YARN đã được Yahoo và Hortonworks giới thiệu trong Hadoop phiên bản 2.0 vào năm 2012. Ý tưởng cơ bản đằng sau YARN là giảm bớt MapReduce bằng cách đảm nhận trách nhiệm Quản lý tài nguyên và Lập lịch công việc. YARN bắt đầu cung cấp cho Hadoop khả năng chạy các công việc không phải MapReduce trong khuôn khổ Hadoop.
Bạn cũng có thể xem video dưới đây, nơi chuyên gia đang thảo luận chi tiết về các khái niệm YARN và kiến trúc của nó.
Hướng dẫn sử dụng sợi Hadoop | Kiến trúc sợi Hadoop | Edureka
Với sự ra đời của YARN, đã hoàn toàn được cách mạng hóa. Nó trở nên linh hoạt, hiệu quả và có thể mở rộng hơn nhiều. Khi Yahoo hợp tác với YARN vào quý đầu tiên của năm 2013, nó đã hỗ trợ công ty thu nhỏ quy mô của cụm Hadoop từ 40.000 nút xuống 32.000 nút. Nhưng số lượng công việc tăng gấp đôi lên 26 triệu mỗi tháng.
Giới thiệu về Hadoop YARN
Bây giờ tôi đã hiểu cho bạn sự cần thiết của YARN, hãy để tôi giới thiệu cho bạn thành phần cốt lõi của Hadoop v2.0, SỢI . YARN cho phép các phương pháp xử lý dữ liệu khác nhau như xử lý đồ thị, xử lý tương tác, xử lý luồng cũng như xử lý hàng loạt để chạy và xử lý dữ liệu được lưu trữ trong HDFS. Do đó, YARN mở ra Hadoop cho các loại ứng dụng phân tán khác ngoài MapReduce.
YARN cho phép người dùng thực hiện các hoạt động theo yêu cầu bằng cách sử dụng nhiều công cụ như để xử lý thời gian thực, Hive cho SQL, HBase cho NoSQL và những người khác.
Ngoài Quản lý tài nguyên, YARN cũng thực hiện Lập lịch công việc. YARN thực hiện tất cả các hoạt động xử lý của bạn bằng cách phân bổ tài nguyên và lập lịch cho các tác vụ. Kiến trúc Apache Hadoop YARN bao gồm các thành phần chính sau:
- Quản lý tài nguyên : Chạy trên một daemon chính và quản lý việc phân bổ tài nguyên trong cụm.
- Trình quản lý nút: Chúng chạy trên các daemon nô lệ và chịu trách nhiệm thực hiện một tác vụ trên mỗi Nút dữ liệu.
- Bậc thầy ứng dụng: Quản lý vòng đời công việc của người dùng và nhu cầu tài nguyên của các ứng dụng riêng lẻ. Nó hoạt động cùng với Node Manager và giám sát việc thực thi các tác vụ.
- Thùng đựng hàng: Gói tài nguyên bao gồm RAM, CPU, Mạng, HDD, v.v. trên một nút duy nhất.
Các thành phần của YARN
Bạn có thể coi SỢI là bộ não của Hệ sinh thái Hadoop của bạn. Hình ảnh dưới đây đại diện cho Kiến trúc YARN.
fibonacci đệ quy c ++
Các thành phần đầu tiên của Kiến trúc YARN là,
Quản lý tài nguyên
- Đây là cơ quan có thẩm quyền cuối cùng trong việc phân bổ nguồn lực .
- Khi nhận được các yêu cầu xử lý, nó sẽ chuyển các phần của yêu cầu tới các nhà quản lý nút tương ứng, nơi quá trình xử lý thực sự diễn ra.
- Nó là trọng tài của các tài nguyên cụm và quyết định việc phân bổ các tài nguyên có sẵn cho các ứng dụng cạnh tranh.
- Tối ưu hóa việc sử dụng cụm như giữ tất cả các tài nguyên được sử dụng mọi lúc chống lại các ràng buộc khác nhau như đảm bảo năng lực, tính công bằng và SLA.
- Nó có hai thành phần chính:a) Người lập lịch trìnhb)Quản lý ứng dụng
a) Người lập lịch trình
- Bộ lập lịch chịu trách nhiệm phân bổ tài nguyên cho các ứng dụng đang chạy khác nhau tùy thuộc vào các ràng buộc về dung lượng, hàng đợi, v.v.
- Nó được gọi là bộ lập lịch thuần túy trong ResourceManager, có nghĩa là nó không thực hiện bất kỳ giám sát hoặc theo dõi trạng thái nào cho các ứng dụng.
- Nếu có lỗi ứng dụng hoặc lỗi phần cứng, Bộ lập lịch không đảm bảo khởi động lại các tác vụ bị lỗi.
- Thực hiện lập lịch dựa trên yêu cầu tài nguyên của các ứng dụng.
- Nó có một trình cắm thêm chính sách có thể cắm được, chịu trách nhiệm phân vùng tài nguyên cụm giữa các ứng dụng khác nhau. Có hai trình cắm như vậy: Bộ lập lịch công suất và Người lập lịch trình công bằng , hiện được sử dụng làm Bộ lập lịch trong ResourceManager.
b) Trình quản lý ứng dụng
- Nó có trách nhiệm chấp nhận các bài nộp công việc.
- Thương lượng vùng chứa đầu tiên từ Trình quản lý tài nguyên để thực thi Ứng dụng chính của ứng dụng cụ thể.
- Quản lý việc chạy Application Master trong một cụm và cung cấp dịch vụ khởi động lại vùng chứa Application Master khi bị lỗi.
Đến với thành phần thứ hai đó là:
Trình quản lý nút
- Nó chăm sóc các nút riêng lẻ trong một cụm Hadoop vàquản lý công việc của người dùng và quy trình làm việc trên nút nhất định.
- Nó đăng ký với Trình quản lý tài nguyên và gửi nhịp tim với tình trạng sức khỏe của nút.
- Mục tiêu chính của nó là quản lý các vùng chứa ứng dụng được người quản lý tài nguyên gán cho nó.
- Nó luôn cập nhật với Trình quản lý tài nguyên.
- Application Master yêu cầu vùng chứa được chỉ định từ Trình quản lý nút bằng cách gửi cho nó một Bối cảnh khởi chạy vùng chứa (CLC) bao gồm mọi thứ ứng dụng cần để chạy. Node Manager tạo quy trình vùng chứa được yêu cầu và bắt đầu nó.
- Theo dõi việc sử dụng tài nguyên (bộ nhớ, CPU) của từng vùng chứa.
- Thực hiện quản lý nhật ký.
- Nó cũng giết vùng chứa theo chỉ dẫn của Trình quản lý tài nguyên.
Các thành phần thứ ba của Apache Hadoop YARN là,
Bậc thầy ứng dụng
- Đơn xin việc là một công việc đơn lẻ được nộp vào khuôn khổ. Mỗi ứng dụng như vậy có một Ứng dụng chính duy nhất được liên kết với nó là một thực thể khung cụ thể.
- Đây là quá trình điều phối quá trình thực thi của ứng dụng trong cụm và cũng quản lý các lỗi.
- Nhiệm vụ của nó là thương lượng tài nguyên từ Trình quản lý tài nguyên và làm việc với Trình quản lý nút để thực thi và giám sát các tác vụ thành phần.
- Nó chịu trách nhiệm thương lượng các thùng chứa tài nguyên thích hợp từ ResourceManager, theo dõi trạng thái của chúng và theo dõi tiến trình.
- Sau khi bắt đầu, nó định kỳ gửi nhịp tim cho Người quản lý tài nguyên để xác nhận tình trạng của nó và để cập nhật hồ sơ về nhu cầu tài nguyên của nó.
Các thành phần thứ tư Là:
Thùng đựng hàng
- Nó là một tập hợp các tài nguyên vật lý như RAM, lõi CPU và đĩa trên một nút duy nhất.
- Vùng chứa YARN được quản lý bởi bối cảnh khởi chạy vùng chứa là vòng đời của vùng chứa (CLC). Bản ghi này chứa bản đồ các biến môi trường, các phụ thuộc được lưu trữ trong bộ lưu trữ có thể truy cập từ xa, mã thông báo bảo mật, tải trọng cho các dịch vụ Node Manager và lệnh cần thiết để tạo quy trình.
- Nó cấp quyền cho ứng dụng để sử dụng một lượng tài nguyên cụ thể (bộ nhớ, CPU, v.v.) trên một máy chủ cụ thể.
Gửi đơn đăng ký trong YARN
Tham khảo hình ảnh và xem các bước liên quan đến việc nộp đơn đăng ký Hadoop YARN:
1) Gửi công việc
2)Nhận ID ứng dụng
3) Bối cảnh nộp đơn đăng ký
4 a) Khởi động vùng chứaPhóng
b) Khởi chạy Ứng dụng Master
5) Phân bổ nguồn lực
6 a) Thùng chứa
b) Khởi chạy
Quy trình làm việc của ứng dụng trong Hadoop YARN
Tham khảo hình ảnh đã cho và xem các bước sau liên quan đến quy trình làm việc Ứng dụng của Apache Hadoop YARN:
cách sắp xếp số trong c ++
- Khách hàng nộp đơn đăng ký
- Trình quản lý tài nguyên phân bổ một vùng chứa để khởi động Trình quản lý ứng dụng
- Trình quản lý ứng dụng đăng ký với Trình quản lý tài nguyên
- Trình quản lý ứng dụng yêu cầu vùng chứa từ Trình quản lý tài nguyên
- Trình quản lý ứng dụng thông báo Trình quản lý nút khởi chạy vùng chứa
- Mã ứng dụng được thực thi trong vùng chứa
- Khách hàng liên hệ Người quản lý tài nguyên / Người quản lý ứng dụng để theo dõi trạng thái của ứng dụng
- Trình quản lý ứng dụng hủy đăng ký với Trình quản lý tài nguyên
Bây giờ bạn đã biết Apache Hadoop YARN, hãy xem của Edureka, một công ty học trực tuyến đáng tin cậy với mạng lưới hơn 250.000 người học hài lòng trải dài trên toàn cầu. Khóa đào tạo Chứng chỉ Edureka Big Data Hadoop giúp người học trở thành chuyên gia trong lĩnh vực HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume và Sqoop bằng các trường hợp sử dụng thời gian thực trên miền Bán lẻ, Truyền thông xã hội, Hàng không, Du lịch, Tài chính.
Có một câu hỏi cho chúng tôi? Vui lòng đề cập đến nó trong phần bình luận và chúng tôi sẽ liên hệ lại với bạn.