Các công cụ Hadoop cần thiết để thu thập dữ liệu lớn



Hadoop là từ thông dụng trong thế giới CNTT ngày nay và bài đăng này mô tả các công cụ Hadoop cần thiết để xử lý dữ liệu lớn.

Ngày nay, thuật ngữ phổ biến nhất trong thế giới CNTT là 'Hadoop'. Trong một khoảng thời gian ngắn, Hadoop đã phát triển ồ ạt và tỏ ra hữu ích cho một bộ sưu tập lớn các dự án đa dạng. Cộng đồng Hadoop đang phát triển nhanh chóng và có vai trò nổi bật trong hệ sinh thái của nó.





Dưới đây là tổng quan về các công cụ Hadoop thiết yếu được sử dụng để xử lý Dữ liệu lớn.

cách tạo ứng dụng salesforce

ambari



Ambari là một dự án Apache được hỗ trợ bởi Hortonworks. Nó cung cấp GUI dựa trên web (Giao diện người dùng đồ họa) với các tập lệnh thuật sĩ để thiết lập các cụm với hầu hết các thành phần tiêu chuẩn. Ambari cung cấp, quản lý và giám sát tất cả các cụm công việc Hadoop.

hdfs-logo

Các HDFS , được phân phối theo giấy phép Apache cung cấp một khuôn khổ cơ bản để tách bộ sưu tập dữ liệu giữa nhiều nút. Trong HDFS, các tệp lớn được chia thành các khối, trong đó một số nút giữ tất cả các khối từ một tệp. Hệ thống tệp được thiết kế theo cách kết hợp khả năng chịu lỗi với thông lượng cao. Các khối HDFS được tải để duy trì phát trực tuyến ổn định. Chúng thường không được lưu vào bộ nhớ đệm để giảm thiểu độ trễ.



hbaselogo

HBase là một hệ quản trị cơ sở dữ liệu hướng cột chạy trên HDFS. Các ứng dụng HBase được viết bằng Java, rất giống ứng dụng MapReduce. Nó bao gồm một tập hợp các bảng, trong đó mỗi bảng chứa các hàng và cột giống như một cơ sở dữ liệu truyền thống. Khi dữ liệu rơi vào bảng lớn, HBase sẽ lưu trữ dữ liệu, tìm kiếm và tự động chia sẻ bảng trên nhiều nút để các công việc MapReduce có thể chạy cục bộ. HBase cung cấp một bảo đảm giới hạn cho một số thay đổi cục bộ. Những thay đổi xảy ra trong một hàng có thể thành công hoặc thất bại cùng một lúc.

hive

Nếu bạn đã thông thạo SQL, thì bạn có thể tận dụng Hadoop bằng cách sử dụng Hive . Hive được phát triển bởi một số người tại Facebook. Apache Hive quy định quá trình trích xuất các bit từ tất cả các tệp trong HBase. Nó hỗ trợ phân tích các tập dữ liệu lớn được lưu trữ trong Hadoop’s HDFS và các hệ thống tệp tương thích. Nó cũng cung cấp một ngôn ngữ giống SQL được gọi là HSQL (HiveSQL) để truy cập vào các tệp và trích xuất các đoạn mã cần thiết cho mã.

sqoop

Apache Sqoop được thiết kế đặc biệt để chuyển dữ liệu số lượng lớn một cách hiệu quả từ cơ sở dữ liệu truyền thống sang Hive hoặc HBase. Nó cũng có thể được sử dụng để trích xuất dữ liệu từ Hadoop và xuất nó sang các kho dữ liệu có cấu trúc bên ngoài như cơ sở dữ liệu quan hệ và kho dữ liệu doanh nghiệp. Sqoop là một công cụ dòng lệnh, ánh xạ giữa các bảng và lớp lưu trữ dữ liệu, dịch các bảng thành một tổ hợp có thể định cấu hình của HDFS, HBase hoặc Hive.

Pig1

Khi dữ liệu được lưu trữ hiển thị với Hadoop, Apache Pig đi sâu vào dữ liệu và chạy mã được viết bằng ngôn ngữ riêng của nó, được gọi là Pig Latin. Pig Latin chứa đầy những nội dung trừu tượng để xử lý dữ liệu. Pig đi kèm với các chức năng tiêu chuẩn cho các tác vụ phổ biến như tính trung bình dữ liệu, làm việc với ngày tháng hoặc để tìm sự khác biệt giữa các chuỗi. Pig cũng cho phép người dùng tự viết ngôn ngữ, được gọi là UDF (Chức năng do người dùng xác định), khi các chức năng tiêu chuẩn bị thiếu.

zookeper

Người giữ vườn thú là một dịch vụ tập trung duy trì, cấu hình thông tin, đặt tên và cung cấp đồng bộ hóa phân tán trên một cụm. Nó áp đặt một hệ thống phân cấp giống như tệp trên cụm và lưu trữ tất cả siêu dữ liệu cho các máy, vì vậy chúng tôi có thể đồng bộ hóa công việc của các máy khác nhau.

NoSQL

Một số cụm Hadoop tích hợp với NoSQL các kho dữ liệu đi kèm với các cơ chế riêng để lưu trữ dữ liệu trên một cụm nút. Điều này cho phép họ lưu trữ và truy xuất dữ liệu với tất cả các tính năng của cơ sở dữ liệu NoSQL, sau đó Hadoop có thể được sử dụng để lập lịch các công việc phân tích dữ liệu trên cùng một cụm.

mahoutlogo

Quản tượng được thiết kế để triển khai một số lượng lớn các thuật toán, phân loại và lọc phân tích dữ liệu cho cụm Hadoop. Nhiều thuật toán tiêu chuẩn như K-means, Dirichelet, mô hình song song và phân loại Bayes đã sẵn sàng chạy trên dữ liệu với một Bản đồ kiểu Hadoop và giảm.

Lucene, được viết bằng Java và được tích hợp dễ dàng với Hadoop, là một người bạn đồng hành tự nhiên của Hadoop. Nó là một công cụ dùng để lập chỉ mục các khối văn bản phi cấu trúc lớn. Lucene xử lý việc lập chỉ mục, trong khi Hadoop xử lý các truy vấn phân tán trên toàn cụm. Các tính năng Lucene-Hadoop đang phát triển nhanh chóng khi các dự án mới đang được phát triển.

Avro

Euro là một hệ thống tuần tự hóa gói dữ liệu cùng với một lược đồ để hiểu nó. Mỗi gói đi kèm với một cấu trúc dữ liệu JSON. JSON giải thích cách dữ liệu có thể được phân tích cú pháp. Tiêu đề của JSON chỉ định cấu trúc cho dữ liệu, nơi có thể tránh được nhu cầu viết thẻ phụ trong dữ liệu để đánh dấu các trường. Đầu ra nhỏ gọn hơn đáng kể so với các định dạng truyền thống như XML.

Một công việc có thể được đơn giản hóa bằng cách chia nó thành các bước. Khi phá vỡ dự án trong nhiều công việc Hadoop, Oozie bắt đầu xử lý chúng theo đúng trình tự. Nó quản lý quy trình làm việc theo chỉ định của DAG (Đồ thị vòng quay được hướng dẫn) và không cần giám sát kịp thời.

Công cụ GIS

Làm việc với bản đồ địa lý là một công việc lớn đối với các cụm đang chạy Hadoop. GIS ( Hệ thống thông tin địa lý ) các công cụ dành cho các dự án Hadoop đã điều chỉnh các công cụ dựa trên Java tốt nhất để hiểu thông tin địa lý để chạy với Hadoop. Cơ sở dữ liệu hiện có thể xử lý các truy vấn địa lý bằng cách sử dụng tọa độ và các mã có thể triển khai các công cụ GIS.

Thu thập tất cả dữ liệu bằng với việc lưu trữ và phân tích nó. Apache Flume cử ‘đặc vụ’ thu thập thông tin sẽ được lưu trữ trong HDFS. Thông tin thu thập được có thể là tệp nhật ký, API Twitter hoặc mẩu tin lưu niệm trang web. Những dữ liệu này có thể được xâu chuỗi và phân tích.

Spark

Tia lửa là thế hệ tiếp theo hoạt động khá giống Hadoop xử lý dữ liệu được lưu trong bộ nhớ. Mục tiêu của nó là làm cho phân tích dữ liệu chạy và ghi nhanh với một mô hình thực thi chung. Điều này có thể tối ưu hóa các biểu đồ toán tử tùy ý và hỗ trợ tính toán trong bộ nhớ, cho phép nó truy vấn dữ liệu nhanh hơn các công cụ dựa trên đĩa như Hadoop.

SQL trên Hadoop

Khi bắt buộc phải chạy một truy vấn đặc biệt nhanh về tất cả dữ liệu trong cụm, công việc Hadoop mới có thể được viết, nhưng điều này mất một chút thời gian. Khi các lập trình viên bắt đầu làm việc này thường xuyên hơn, họ đã nghĩ ra các công cụ được viết bằng ngôn ngữ đơn giản của SQL. Những công cụ này giúp truy cập nhanh vào kết quả.

Máy khoan Apache

Apache Drill cung cấp các truy vấn đặc biệt có độ trễ thấp đến nhiều nguồn dữ liệu khác nhau, bao gồm cả dữ liệu lồng nhau. Drill, lấy cảm hứng từ Dremel của Google, được thiết kế để mở rộng quy mô lên 10.000 máy chủ và truy vấn petabyte dữ liệu trong vài giây.

Đây là những công cụ Hadoop cần thiết để xử lý dữ liệu lớn!

Có một câu hỏi cho chúng tôi? Vui lòng đề cập đến chúng trong phần nhận xét và chúng tôi sẽ liên hệ lại với bạn.

Bài viết liên quan:

Những lý do thực tế để học Hadoop 2.0