Cài đặt Apache Hive trên Ubuntu



Trong blog này, chúng ta sẽ tìm hiểu về cài đặt Apache Hive trên Ubuntu và các khái niệm xung quanh Hadoop Hive, Hive sql, cơ sở dữ liệu Hive, máy chủ Hive & cài đặt Hive.

Apache Hive là một trong những khuôn khổ quan trọng nhất trong hệ sinh thái Hadoop, do đó nó rất quan trọng đối với . Trong blog này, chúng ta sẽ tìm hiểu về Apache Hive và cài đặt Hive trên Ubuntu.

Apache Hive là gì?

Apache Hive là cơ sở hạ tầng kho dữ liệu tạo điều kiện thuận lợi cho việc truy vấn và quản lý các tập dữ liệu lớn nằm trong hệ thống lưu trữ phân tán. Nó được xây dựng trên Hadoop và được phát triển bởi Facebook. Hive cung cấp một cách để truy vấn dữ liệu bằng ngôn ngữ truy vấn giống SQL được gọi là HiveQL (Ngôn ngữ truy vấn Hive).





Nội bộ, một trình biên dịch dịch HiveQL tuyên bố thành MapReduce công việc, sau đó được nộp cho Khung Hadoop để thực hiện.

Sự khác biệt giữa Hive và SQL:

Hive trông rất giống với cơ sở dữ liệu truyền thống với SQL truy cập. Tuy nhiên, vì Hive được dựa trên HadoopMapReduce hoạt động, có một số khác biệt chính:



Vì Hadoop được thiết kế để quét tuần tự dài và Hive được dựa trên Hadoop , bạn sẽ mong đợi các truy vấn có độ trễ rất cao. Nó có nghĩa là Hive sẽ không thích hợp cho những ứng dụng cần thời gian phản hồi rất nhanh, như bạn có thể mong đợi với cơ sở dữ liệu RDBMS truyền thống.

Cuối cùng, Hive là dựa trên đọc và do đó không thích hợp để xử lý giao dịch thường liên quan đến tỷ lệ cao các hoạt động ghi.

cài đặt php trên windows 8

Cài đặt Hive trên Ubuntu:

Vui lòng làm theo các bước dưới đây để cài đặt Apache Hive trên Ubuntu:



Bước 1: Tải xuống Hive hắc ín.

Chỉ huy: wget http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz

Bước 2: Trích xuất nhựa đường tập tin.

Chỉ huy: tar -xzf apache-hive-2.1.0-bin.tar.gz

Chỉ huy: ls

Spread Hive File - Cài đặt Hive - Edureka

Bước 3: Chỉnh sửa “.Bashrc” để cập nhật các biến môi trường cho người dùng.

Chỉ huy: sudo gedit .bashrc

Thêm phần sau vào cuối tệp:

# Đặt HIVE_HOME

export HIVE_HOME = / home / edureka / apache-hive-2.1.0-bin
xuất PATH = $ PATH: /home/edureka/apache-hive-2.1.0-bin/bin

Ngoài ra, hãy đảm bảo rằng đường dẫn hadoop cũng được thiết lập.

Chạy lệnh dưới đây để làm cho các thay đổi hoạt động trong cùng một thiết bị đầu cuối.

Chỉ huy: nguồn .bashrc

Bước 4: Kiểm tra phiên bản tổ ong.

sự khác biệt giữa ghi đè và quá tải là gì

Bước 5: Tạo nên Hive thư mục trong HDFS . Cac thu mục 'Kho' là vị trí lưu trữ bảng hoặc dữ liệu liên quan đến tổ ong.

Chỉ huy:

  • hdfs dfs -mkdir -p / user / hive / kho
  • hdfs dfs -mkdir / tmp

Bước 6: Đặt quyền đọc / ghi cho bảng.

Chỉ huy:

Trong lệnh này, chúng tôi đang cấp quyền ghi cho nhóm:

  • hdfs dfs -chmod g + w / user / hive / kho
  • hdfs dfs -chmod g + w / tmp

Bước 7: Bộ Hadoop đường vào h ive-env.sh

Chỉ huy: cd apache-hive-2.1.0-bin /

Chỉ huy: gedit conf / hive-env.sh

Đặt các thông số như trong ảnh chụp nhanh bên dưới.

Bước 8: Biên tập hive-site.xml

Chỉ huy: gedit conf / hive-site.xml

javax.jdo.option.ConnectionURL jdbc: derby: databaseName = / home / edureka / apache-hive-2.1.0-bin / inheritore_dbcreate = true JDBC kết nối chuỗi cho một trung tâm JDBC. Để sử dụng SSL để mã hóa / xác thực kết nối, hãy cung cấp cờ SSL dành riêng cho cơ sở dữ liệu trong URL kết nối. Ví dụ: jdbc: postgresql: // myhost / db? Ssl = true cho cơ sở dữ liệu postgres. hive.metastore.warehouse.dir / user / hive / vị trí kho của cơ sở dữ liệu mặc định cho kho hàng hive.metastore.uris Thrift URI cho vùng di căn từ xa. Được sử dụng bởi máy khách di căn để kết nối với di căn từ xa. javax.jdo.option.ConnectionDriverName org.apache.derby.jdbc.EmbeddedDriver Tên lớp trình điều khiển cho một lớp JDBC di căn javax.jdo.PersistenceManagerFactoryClass org.datanucleus.api.jdo.JDOPersistenceManagerFactory lớp triển khai jdo

Bước 9: Theo mặc định, Hive sử dụng Derby cơ sở dữ liệu. Khởi tạo cơ sở dữ liệu Derby.

Chỉ huy: bin / schematool -initSchema -dbType derby

Bước 10 :Phóng Hive.

Chỉ huy: tổ ong

Bước 11 :Chạy một số truy vấn trong Hive shell.

Chỉ huy: hiển thị cơ sở dữ liệu

Chỉ huy: tạo bảng nhân viên (chuỗi id, chuỗi tên, chuỗi dept) định dạng hàng các trường được phân tách bằng ‘‘ được lưu trữ dưới dạng tệp văn bản

Chỉ huy: hiển thị bảng

Bước 12: Để thoát khỏi Hive:

Chỉ huy: lối ra

java với sức mạnh của nhà điều hành

Bây giờ bạn đã hoàn tất việc cài đặt Hive, bước tiếp theo là thử các lệnh Hive trên Hive shell. Do đó, blog tiếp theo của chúng tôi “ Các lệnh Hive hàng đầu với các ví dụ trong HQL ”Sẽ giúp bạn thành thạo các lệnh Hive.

Bài viết liên quan:

Làm thế nào để chạy Hive Scripts?

Lệnh Hive

Giới thiệu về Apache Hive