Cloudera Hadoop: Bắt đầu với Phân phối CDH



Blog Edureka này trên Hướng dẫn Cloudera Hadoop sẽ cung cấp cho bạn cái nhìn sâu sắc về các thành phần Cloudera khác nhau như Cloudera Manager, Parcels, Hue, v.v.

Với nhu cầu ngày càng tăng về Dữ liệu lớn và Apache Hadoop đangtạitrung tâm của cuộc cách mạng, nó đã thay đổi cách chúng ta tổ chức và tính toán dữ liệu. Nhu cầu của các tổ chức để điều chỉnh Hadoop với nhu cầu kinh doanh của họ đã thúc đẩy sự xuất hiện của các bản phân phối thương mại. Các bản phân phối Hadoop thương mại thường được đóng gói với các tính năng, được thiết kế để hợp lý hóa việc triển khai Hadoop. Cloudera Hadoop Distribution cung cấp một nền tảng tích hợp, linh hoạt, có thể mở rộng, giúp dễ dàng quản lý khối lượng và nhiều loại dữ liệu đang tăng nhanh trong doanh nghiệp của bạn.

Trong blog này về Cloudera Hadoop Distribution, chúng tôi sẽ đề cập đến các chủ đề sau:





Cloudera Hadoop: Giới thiệu về Hadoop

Hadoop là một khuôn khổ mã nguồn mở Apache lưu trữ và xử lý Dữ liệu lớn trong môi trường phân tánđi quacụm sử dụng các mô hình lập trình đơn giản. Hadoop cung cấp khả năng tính toán song song trên bộ nhớ phân tán.Để tìm hiểu thêm về Hadoop chi tiết từ bạn có thể tham khảo cái này

Sau phần giới thiệu ngắn này về Hadoop, bây giờ hãy để tôi giải thích các loại khác nhau của Phân phối Hadoop.



Cloudera Hadoop: Phân phối Hadoop

Vì Apache Hadoop là mã nguồn mở, nhiều công ty đã phát triển các bản phân phối vượt ra ngoài mã nguồn mở ban đầu. Điều này rất giống với các bản phân phối Linux như RedHat, Fedora và Ubuntu. Mỗi bản phân phối Linux đều hỗ trợ các chức năng và tính năng riêng như GUI thân thiện với người dùng trong Ubuntu. Tương tự, Mũ đỏ phổ biến trong các doanh nghiệp vì nó cung cấp hỗ trợ và cũng cung cấp tư tưởng để thực hiện thay đổi bất kỳ phần nào của hệ thống theo ý muốn. Red Hat giúp bạn thoát khỏi các vấn đề tương thích phần mềm. Đây thường là một vấn đề lớn đối với người dùngnhững người đang chuyển đổi từ Windows.

Tương tự như vậy, có 3 loại bản phân phối Hadoop chính có bộ chức năng và tính năng riêng của nó và được xây dựng dưới HDFS cơ sở.

Cloudera vs MapR vs Hortonworks

Hình: MapR vs Hortonworks vs Cloudera

Hình: MapR vs Hortonworks vs Cloudera



Phân phối Cloudera Hadoop

Cloudera là xu hướng thị trường trong không gian Hadoop và là người đầu tiên phát hành bản phân phối Hadoop thương mại. Nó cung cấp các dịch vụ tư vấn để thu hẹp khoảng cách giữa - “Apache Hadoop cung cấp những gì” và “những gì tổ chức cần”.

Phân phối Cloudera là:

  • Nhanh chóng cho doanh nghiệp : Từ phân tích đến khoa học dữ liệu và mọi thứ liên quan, Cloudera mang lại hiệu suất mà bạn cần để mở khóa tiềm năng của dữ liệu không giới hạn.
  • Giúp quản lý Hadoop dễ dàng : Với Trình quản lý Cloudera, trình hướng dẫn tự động cho phép bạn nhanh chóng triển khai cụm của mình, bất kể quy mô hoặc môi trường triển khai.
  • Bảo mật mà không có sự thỏa hiệp: Đáp ứng các nhu cầu tuân thủ và bảo mật dữ liệu nghiêm ngặt mà không làm mất đi sự nhanh nhẹn trong kinh doanh. Cloudera cung cấp một cách tiếp cận tích hợp để quản trị và bảo mật dữ liệu.

Horton-Works Phân phối

Nền tảng dữ liệu Horton-Works (HDP) hoàn toàn là một nền tảng mã nguồn mở được thiết kế để điều động dữ liệu từ nhiều nguồn và định dạng. Nền tảng này bao gồm các công cụ Hadoop khác nhau như Hệ thống tệp phân tán Hadoop (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive và các thành phần bổ sung.

Nó cũng hỗ trợ các tính năng như:

  • HDP tạo ra Hive nhanh hơn thông qua dự án Stinger mới của mình.
  • HDP tránh bị nhà cung cấp khóa bằng cách cam kết với một phiên bản Hadoop được phân nhánh.
  • HDP tập trung vào việc nâng cao khả năng sử dụng của nền tảng Hadoop.

Phân phối MapR

MapR là nhà cung cấp giải pháp Hadoop tập trung vào nền tảng, giống như HortonWorks và Cloudera. MapR tích hợp hệ thống cơ sở dữ liệu của riêng mình, được gọi là MapR-DB trong khi cung cấp dịch vụ phân phối Hadoop. MapR-DB được cho là nhanh hơn từ bốn đến bảy lần so với cơ sở dữ liệu Hadoop có sẵn, tức là HBase, được thực thi trên các bản phân phối khác.

Nó có các tính năng hấp dẫn như:

  • Đây là bản phân phối Hadoop duy nhất bao gồm Pig, Hive và Sqoop mà không có bất kỳ phụ thuộc Java nào - vì nó dựa trên MapR-File System.
  • MapR là bản phân phối Hadoop sẵn sàng sản xuất nhất với nhiều cải tiến giúp nó thân thiện hơn, nhanh hơn và đáng tin cậy hơn.

Bây giờ chúng ta hãy thảo luận sâu hơn về Phân phối Cloudera Hadoop.

Đăng ký kênh YouTube của chúng tôi để nhận thông tin cập nhật mới ...

Cloudera Hadoop: Phân phối Cloudera

Cloudera là người chơi nổi tiếng nhất trong không gian Hadoop để phát hành bản phân phối Hadoop thương mại đầu tiên.

Hình: Phân phối Cloudera Hadoop

Cloudera Hadoop Distribution hỗ trợ tập hợp các tính năng sau:

  1. CDH của Cloudera bao gồm tất cả các thành phần mã nguồn mở, nhắm mục tiêu triển khai cấp doanh nghiệp và là một trong những bản phân phối Hadoop thương mại phổ biến nhất.
  2. Được biết đến với những đổi mới, Cloudera là người đầu tiên cung cấp SQL-cho-Hadoop với nó Impala công cụ truy vấn.
  3. Bảng điều khiển quản lý - Quản lý Cloudera , dễ sử dụng và thực hiện với giao diện người dùng phong phú hiển thị tất cả thông tin cụm một cách có tổ chức và rõ ràng.
  4. Trong CDH, bạn có thể thêm các dịch vụ vào cụm đang chạy mà không bị gián đoạn.
  5. Các bổ sung khác của Cloudera bao gồm bảo mật, giao diện người dùng và giao diện để tích hợp với các ứng dụng của bên thứ ba.
  6. CDH cung cấp Mẫu nút tức là nó cho phép tạo một nhóm các nút trong một cụm Hadoop với các cấu hình khác nhau. Nó loại bỏ việc sử dụng cùng một cấu hình trong toàn bộ cụm Hadoop.
  7. Nó cũng hỗ trợ:
    • độ tin cậy
      Các nhà cung cấp Hadoop nhanh chóng hành động để phản hồi bất cứ khi nào phát hiện ra lỗi. Với mục đích làm cho các giải pháp thương mại ổn định hơn, các bản vá và sửa lỗi được triển khai ngay lập tức.
    • Ủng hộ
      Các nhà cung cấp Cloudera Hadoop cung cấp hướng dẫn và hỗ trợ kỹ thuật giúp khách hàng dễ dàng áp dụng Hadoop cho các nhiệm vụ cấp doanh nghiệp và các ứng dụng quan trọng.

    • Sự hoàn chỉnh
      Các nhà cung cấp Hadoop kết hợp các bản phân phối của họ với nhiều công cụ bổ trợ khác giúp khách hàng tùy chỉnh ứng dụng Hadoop để giải quyết các tác vụ cụ thể của họ.

Bản phân phối Cloudera có 2 loại phiên bản khác nhau.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Bây giờ chúng ta hãy xem xét sự khác biệt giữa chúng.

Đặc trưng Cloudera-Express Cloudera-Enterprise
Quản lý cụm
1. Quản lý nhiều cụmĐúngĐúng
2. Quản lý tài nguyênĐúngĐúng
Triển khai
1. Hỗ trợ cho CDH 4 và 5ĐúngĐúng
2. Nâng cấp cuộn CDHKhôngĐúng
Quản lý cấu hình và dịch vụ
1. Quản lý các dịch vụ HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark và AccumuloĐúngĐúng
2. Khởi động lại cuộn các dịch vụKhôngĐúng
Bảo vệ
1. Xác thực LDAPKhôngĐúng
2. Xác thực SAMLKhôngĐúng
Giám sát và chẩn đoán
1. Lịch sử sức khỏeĐúngĐúng
Quản lý cảnh báo
1. Cảnh báo qua emailĐúngĐúng
2. Cảnh báo qua SNMPKhôngĐúng
Các tính năng quản lý nâng cao
1. Sao lưu và phục hồi tự độngKhôngĐúng
2. Duyệt và tìm kiếm tệpKhôngĐúng
3. Báo cáo sử dụng MapReduce, Impala, HBase, YarnKhôngĐúng

Cloudera Hadoop: Người quản lý Cloudera

Theo Cloudera, Cloudera Manager là cách tốt nhất để Tải về , cấu hình , quản lýgiám sát ngăn xếp Hadoop.

Nó cung cấp:

  1. Triển khai và cấu hình tự động
  2. Giám sát và báo cáo có thể tùy chỉnh
  3. Khắc phục sự cố mạnh mẽ dễ dàng
  4. Zero - Bảo trì thời gian ngừng hoạt động

Nhận kiến ​​thức chuyên sâu về Cloudera Hadoop và các công cụ khác nhau của nó

Trình diễn của Quản lý Cloudera

Hãy khám phá Trình quản lý Cloudera.

1. Hình dưới đây cho thấy số lượng dịch vụ hiện đang chạy trong Trình quản lý Cloudera. Bạn cũng có thể xem các biểu đồ về mức sử dụng CPU cụm, mức sử dụng Disk IO, v.v.

Hình: Trang chủ của Cloudera Manager

muối vs đầu bếp vs rối

2. Hình ảnh dưới đây minh họa cụm HBase. Nó cung cấp cho bạn các biểu đồ và đồ thị về tình trạng sức khỏe của máy chủ HBase REST hiện đang chạy.

Hình: Tình trạng sức khỏe của máy chủ HBase

3. Bây giờ, hãy xem tab Phiên bản của cụm HBase nơi bạn có thể kiểm tra trạng thái và cấu hình IP.

Hình: Trạng thái và địa chỉ IP của Máy chủ lưu trữ của cụm HBase

4. Tiếp theo, bạn có tab Cấu hình. Tại đây bạn có thể xem tất cả các thông số cấu hình và thay đổi giá trị của chúng.

Hình: Cấu hình của cụm HBase

Bây giờ, chúng ta hãy hiểu Parcels ở Cloudera là gì.

Cloudera Hadoop: Parcels

Một bưu kiện là một định dạng phân phối nhị phân có chứa các tệp chương trình, cùng với siêu dữ liệu bổ sung được Cloudera Manager sử dụng.

Các bưu kiện là độc lập và được cài đặt trong một thư mục được tạo phiên bản, có nghĩa là nhiều phiên bản của một dịch vụ nhất định có thể được cài đặt song song.

Dưới đây là những lợi ích của việc sử dụng Bưu kiện:

  • Nó cung cấp phân phối CDH như một đối tượng duy nhất, tức là thay vì có một gói riêng biệt cho từng phần của CDH, các bưu kiện chỉ có một đối tượng duy nhất để cài đặt.

  • Nó cung cấp tính nhất quán nội bộ (vì CDH hoàn chỉnh được phân phối dưới dạng một gói duy nhất, tất cả các thành phần CDH được khớp và sẽ không có rủi ro về các phần khác nhau đến từ các phiên bản CDH khác nhau).

  • Bạn có thể cài đặt, nâng cấp, hạ cấp, phân phối và kích hoạt các bưu kiện trong CDH bằng vài cú nhấp chuột.

Bây giờ, hãy xem cách cài đặt và kích hoạt dịch vụ Kafka trong CDH bằng Parcels.

  1. Vào trang chủ quản lý Cloudera >> Máy chủ >> Parcels như hình bên dưới

    Hình: Chọn bưu kiện từ máy chủ

2. Nếu bạn không thấy Kafka trong danh sách các bưu kiện, bạn có thể thêm bưu kiện vào danh sách.

  1. Tìm gói của phiên bản Kafka bạn muốn sử dụng. Nếu không thấy, bạn có thể thêm kho bưu kiện vào danh sách.
  2. Tìm gói cho phiên bản Kafka bạn muốn cài đặt - Cloudera Phân phối các phiên bản Apache Kafka .
    Hình dưới đây cho thấy điều tương tự.

Hình: Đường dẫn kho cho bưu kiện.

3. Sao chép liên kết như trong hình trên và thêm nó vào Kho lưu trữ bưu kiện từ xa như hình dưới đây.

Hình: Bổ sung đường dẫn Kafka từ kho lưu trữ

Bốn.Sau khi thêm đường dẫn, Kafka sẽ sẵn sàng để tải xuống. Bạn chỉ cần nhấp vào nút tải xuống và tải xuống Kafka.

Hình: Tải xuống Kafka

5. Sau khi tải xuống Kafka, tất cả những gì bạn cần làm là phân phối và kích hoạt nó.

Hình: Kích hoạt Kafka

Khi nó được kích hoạt, bạn có thể tiếp tục và xem Kafka trong tab dịch vụ trong trình quản lý Cloudera.

Hình: Dịch vụ Kafka

Cloudera Hadoop: Tạo Quy trình làm việc Oozie

Việc tạo dòng công việc bằng cách viết mã XML theo cách thủ công và sau đó thực thi nó, rất phức tạp. Bạn có thể tham khảo cái này Lên lịch công việc Oozie blog, để biết về cách tiếp cận truyền thống.

Bạn có thể xem hình ảnh bên dưới, nơi chúng tôi đã viết một tệp XML để tạo một quy trình làm việc Oozie đơn giản. Hình: Tạo quy trình làm việc Oozie bằng cách tiếp cận Truyền thống

Như bạn có thể thấy, ngay cả để tạo một bộ lập lịch Oozie đơn giản, chúng tôi đã phải viết mã XML khổng lồ, tốn thời gian và việc gỡ lỗi từng dòng trở nên phức tạp. Để khắc phục điều này, Cloudera Manager đã giới thiệu một tính năng mới có tên là Huế cung cấp GUI và các tính năng kéo và thả đơn giản để tạo và thực thi quy trình công việc Oozie.

Bây giờ, hãy xem cách Hue thực hiện nhiệm vụ tương tự theo cách đơn giản hóa.

Trước khi tạo quy trình làm việc, trước tiên hãy tạo tệp đầu vào, tức là clickstream.txt và user.txt.
Trong file user.txt, chúng ta có User Id, Name, Age, Country, Gender như hình bên dưới. Chúng tôi cần tệp người dùng này để biết số người dùng và số lần nhấp vào URL (được đề cập trong tệp dòng nhấp) dựa trên Id người dùng.

Hình: Tạo tệp văn bản

Để biết số lượng nhấp chuột của người dùng vào mỗi URL, chúng tôi có một dòng nhấp chuột chứa ID người dùng và URL.

Hình: Tệp Clickstream

Hãy viết các truy vấn vào tệp script.

Hình: Tập lệnh

Sau khi tạo tệp người dùng, tệp clickstream và tệp tập lệnh, tiếp theo, chúng ta có thể tiếp tục và tạo quy trình làm việc Oozie.

1. Bạn có thể chỉ cần kéo và thả quy trình công việc Oozie như trong hình.

Hình: Tính năng kéo và thả của việc tạo quy trình làm việc Oozie

2. Ngay sau khi bỏ hành động của bạn, bạn phải chỉ định các đường dẫn đến tệp script và thêm các tham số được đề cập trong tệp script. Ở đây bạn cần thêm các tham số OUTPUT, CLICKSTREAM, USER và chỉ định đường dẫn đến từng tham số.

Hình: Thêm tệp kịch bản và các Tham số bắt buộc để thực hiện hành động

3. Khi bạn đã chỉ định các đường dẫn và thêm các tham số, bây giờ chỉ cần lưu và gửi quy trình làm việc như thể hiện trong hình ảnh bên dưới.

Hình: Lưu và gửi hành động Oozie

4. Sau khi bạn gửi nhiệm vụ, công việc của bạn đã hoàn thành. Phần thi công và các công đoạn khác đều do Huệ đảm nhận.

Hình: Trạng thái thực hiện công việc Oozie

5.Bây giờ chúng ta đã thực hiện xong công việc Oozie, hãy xem tab hành động. Nó chứa ID người dùng và trạng thái của quy trình làm việc. Nó cũng hiển thị mã lỗi nếu có, thời gian bắt đầu và kết thúc của mục hành động.

Hình: Các phần tử có trong tab hành động của quy trình làm việc Oozie

6. Bên cạnh tab hành động là tab chi tiết. Trong đó, chúng ta có thể thấy thời gian bắt đầu và thời gian sửa đổi cuối cùng của công việc.

Hình: Chi tiết về quy trình làm việc Oozie.

7. Bên cạnh tab Chi tiết, chúng ta có tab Cấu hình của quy trình làm việc.

Hình: Cài đặt cấu hình của quy trình làm việc Oozie

7. Trong khi thực hiện mục hành động, nếu có bất kỳ lỗi nào, nó sẽ được liệt kê trong tab Nhật ký. Bạn có thể tham khảo các câu lệnh lỗi và gỡ lỗi nó cho phù hợp.

Hình: Tệp nhật ký chứa mã lỗi và báo cáo lỗi

8. Đây là mã XML của quy trình làm việc được tạo tự động bởi Hue.

Hình: Mã XML của quy trình làm việc Oozie

9.1. Như bạn đã chỉ định đường dẫn cho thư mục đầu ra ở bước 2, ở đây bạn có thư mục đầu ra trong Trình duyệt HDFS như hình dưới đây.

Hình: Thư mục đầu ra của Trình duyệt HDFS

9.2 Khi bạn nhấp vào thư mục đầu ra, bạn sẽ tìm thấy một tệp văn bản có tên là output.txt và tệp văn bản đó chứa đầu ra thực như được hiển thị trong hình bên dưới.

Hình: Văn bản đầu ra cuối cùng

Đây là cách Hue làm cho công việc của chúng tôi trở nên đơn giản bằng cách cung cấp các tùy chọn kéo và thả để tạo quy trình làm việc Oozie.

Tôi hy vọng blog này hữu ích để hiểu về Phân phối Cloudera và các Thành phần Cloudera khác nhau.

Bạn muốn tham gia vào cuộc cách mạng Dữ liệu lớn?

Bây giờ bạn đã hiểu Cloudera Hadoop Distribution, hãy xem của Edureka, một công ty học trực tuyến đáng tin cậy với mạng lưới hơn 250.000 người học hài lòng trải dài trên toàn cầu. Khóa đào tạo Chứng chỉ Edureka Big Data Hadoop giúp người học trở thành chuyên gia trong lĩnh vực HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume và Sqoop bằng các trường hợp sử dụng thời gian thực trên miền Bán lẻ, Truyền thông xã hội, Hàng không, Du lịch, Tài chính.

Có một câu hỏi cho chúng tôi? Vui lòng đề cập đến nó trong phần bình luận và chúng tôi sẽ liên hệ lại với bạn.