Tìm hiểu sâu về Apache Drill, Công cụ truy vấn thời đại mới



Hướng dẫn Apache Drill này cung cấp cho bạn tất cả thông tin bạn cần để bắt đầu với công cụ truy vấn Apache Drill, cách sử dụng với Hadoop, Big Data & Apache Spark.

Apache Drill là Công cụ SQL không có giản đồ đầu tiên của ngành. Drill không phải là công cụ truy vấn đầu tiên trên thế giới, nhưng nó là công cụ đầu tiên đạt được sự cân bằng tốt giữa tính linh hoạt và tốc độ. Drill được thiết kế để mở rộng quy mô đến hàng nghìn nút và truy vấn hàng petabyte dữ liệu ở tốc độ tương tác mà môi trường BI / Analytics yêu cầu.





Nó có thể tích hợp với một số nguồn dữ liệu như Hive, HBase, MongoDB, hệ thống tệp, RDBMS. Ngoài ra, các định dạng đầu vào như tệp Avro, CSV, TSV, PSV, Parquet, Hadoop Sequence và nhiều định dạng khác có thể được sử dụng trong Drill một cách dễ dàng.

Tại sao Apache Drill?

Ưu điểm lớn nhất của Apache Drill là nó có thể khám phá lược đồ một cách nhanh chóng khi bạn truy vấn bất kỳ dữ liệu nào. Hơn nữa, nó có thể hoạt động với các công cụ BI của bạn như Tableau, Qlikview, MicroStrategy, v.v. để phân tích tốt hơn.



Dưới đây là trích dẫn từ một nhà phân tích trong ngành tóm tắt giá trị của Apache Drill:

“Khoan không chỉ là về SQL-on-Hadoop. Đó là về SQL-on-khá-nhiều-thứ, ngay lập tức và không cần hình thức. '

- Andrew Burst, Gigaom Research, tháng 1 năm 2015



Drillbit là daemon của Apache Drill chạy trên mỗi nút trong cụm. Nó sử dụng ZooKeeper cho tất cả các giao tiếp trong cụm và thành viên cụm bảo trì. Nó có trách nhiệm chấp nhận các yêu cầu từ khách hàng, xử lý các truy vấn và trả kết quả cho khách hàng. Mũi khoan nhận yêu cầu từ khách hàng được gọi là 'quản đốc'. Nó tạo ra kế hoạch thực thi, các đoạn thực thi được gửi đến các mũi khoan khác đang chạy trong cụm.

Drillbits-Apache-Drill

Thêm một ưu điểm nữa là việc lắp đặt và thiết lập máy khoan khá đơn giản. Hãy để chúng tôi tìm hiểu cách cài đặt Apache Drill.

Bước đầu tiên là tải xuống gói khoan.

quản trị viên linux làm gì

Chỉ huy: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Chỉ huy: tar -xvf apache-khoan-1.5.0.tar.gz

Chỉ huy: ls

Tiếp theo, đặt các biến môi trường trong tệp .bashrc.

Chỉ huy: sudo gedit .bashrc

xuất DRILL_HOME = / home / edureka / apache-khoan-1.5.0

xuất PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Lệnh này sẽ cập nhật các thay đổi:

Chỉ huy: nguồn .bashrc

Bây giờ vào thư mục khoan conf và chỉnh sửa tệp khoan-override.conf với id cụm và máy chủ & cổng Zookeeper, chúng tôi sẽ chạy nó trên một cụm cục bộ.

Chỉ huy: cd apache-khoan-1.5.0

Chỉ huy: sudo gedit conf / khoan-override.conf

Theo mặc định, DRILL_MAX_DIRECT_MEMORY sẽ là 8 GB trong khoan-env.sh và chúng ta cần giữ nó theo bộ nhớ mà chúng ta có.

Chỉ huy: sudo gedit conf / khoan-env.sh

Để cài đặt máy khoan chỉ trong một nút duy nhất, bạn có thể sử dụng chế độ nhúng, nơi nó sẽ chạy cục bộ. Nó sẽ tự động khởi động dịch vụ khoan khi bạn chạy lệnh này.

Chỉ huy: ./bin/drill-embedded

Bạn có thể chạy một truy vấn đơn giản để kiểm tra cài đặt.

Chỉ huy: select * from sys.options WHERE type = ‘SYSTEM’ và đặt tên như ‘security%’

Để kiểm tra bảng điều khiển web của Apache Drill, chúng ta cần vào localhost: 8047 trong trình duyệt web.

cách tạo danh sách liên kết trong c

Bạn cũng có thể chạy truy vấn của mình từ tab Truy vấn.

Để chạy khoan ở chế độ phân tán, bạn cần chỉnh sửa ID cụm và thêm thông tin ZooKeeper trong khoan-override.conf như bên dưới.

Sau đó, chúng ta cần khởi động dịch vụ ZooKeeper trên mỗi nút. Sau đó, bạn phải bắt đầu dịch vụ khoan trên mỗi nút bằng lệnh này.

Chỉ huy: ./bin/drillbit.sh bắt đầu

Chỉ huy: jps

Bây giờ, chúng ta sử dụng lệnh dưới đây để khởi động shell khoan.

Bây giờ, chúng ta có thể thực hiện các truy vấn của mình trên cụm ở chế độ phân tán.

Đây là bài đăng trên blog đầu tiên trong loạt blog Apache Drill gồm hai phần. Blog thứ hai trong loạt bài này sẽ sớm ra mắt.

Có một câu hỏi cho chúng tôi? Đề cập đến họ trong phần bình luận và chúng tôi sẽ liên hệ lại với bạn.

Bài viết liên quan:

Khoan trên Apache Drill Phần 2

Apache Spark Vs Hadoop MapReduce