Cài đặt Apache Pig trên Linux



Blog này là hướng dẫn từng bước để Cài đặt Apache Pig trên môi trường Linux. Chúng tôi sẽ cài đặt Apache Pig 0.16.0 và chạy nó ở các chế độ khác nhau.

Trong bài đăng này, tôi sẽ nói về Cài đặt Apache Pig trên Linux . Hãy bắt đầu với định nghĩa cơ bản của Apache Pig và Pig Latin.

Lợn Apache là một công cụ / nền tảng để tạo và thực thi chương trình Map Reduce được sử dụng với Hadoop. Nó là một công cụ / nền tảng để phân tích các bộ dữ liệu lớn. Bạn có thể nói, Apache Pig là một sự trừu tượng so với MapReduce. Các lập trình viên không giỏi Java đã từng gặp khó khăn khi làm việc trên Hadoop, chủ yếu là khi viết các công việc MapReduce.Vì vậy, đây là một chủ đề quan trọng để học và nắm vững .Apache Pig có ngôn ngữ riêng Pig Latin đó là lợi ích cho các lập trình viên kém.





Phần giới thiệu cơ bản về Pig Latin sẽ giúp bạn hiểu rõ hơn:

Ngôn ngữ thủ tục cấp cao được sử dụng trong nền tảng Apache Pig được gọi là Pig Latin . Apache Pig có tính năng ‘Pig Latin’ là một ngôn ngữ tương đối đơn giản hơn có thể chạy qua các tập dữ liệu phân tán trên Hệ thống tệp Hadoop (HDFS). Trong Apache Pig, bạn cần viết tập lệnh Pig bằng ngôn ngữ Pig Latin, ngôn ngữ này sẽ được chuyển đổi thành công việc MapReduce khi bạn chạy tập lệnh Pig của bạn. Apache Pig có các toán tử khác nhau được sử dụng để thực hiện các tác vụ như đọc, ghi, xử lý dữ liệu. Để tìm hiểu về các toán tử Apache Pig, hãy truy cập blog của chúng tôi “ Các toán tử trong Apache Pig: Phần 1- Các toán tử quan hệ ”.

Bây giờ bạn đã hiểu cơ bản về Apache Pig, chúng ta hãy bắt đầu với Cài đặt Apache Pig trên Linux.



Cài đặt Apache Pig trên Linux:

Dưới đây là các bước cài đặt Apache Pig trên Linux (ubuntu / centos / windows sử dụng Linux VM). Tôi đang sử dụng Ubuntu 16.04 trong thiết lập bên dưới.

Bước 1: Tải xuống Con lợn nhựa đường tập tin.

Chỉ huy: wget http://www-us.apache.org/dist/pig/pig-0.16.0/pig-0.16.0.tar.gz



Tải xuống Pig - Cài đặt Pig - Edureka

Bước 2: Trích xuất nhựa đường sử dụng lệnh tar. Trong lệnh tar dưới đây, x có nghĩa là giải nén một tệp lưu trữ, với nghĩa là lọc một kho lưu trữ thông qua gzip, f nghĩa là tên tệp của tệp lưu trữ.

Chỉ huy: tar -xzf pig-0.16.0.tar.gz

Chỉ huy: ls

Bước 3: Chỉnh sửa “ .bashrc ”Để cập nhật các biến môi trường của Apache Pig. Chúng tôi đang thiết lập nó để chúng tôi có thể truy cập pig từ bất kỳ thư mục nào, chúng tôi không cần phải vào thư mục pig để thực hiện các lệnh pig. Ngoài ra, nếu bất kỳ ứng dụng nào khác đang tìm kiếm Pig, nó sẽ biết đường dẫn của Apache Pig từ tệp này.

Chỉ huy: sudo gedit .bashrc

Thêm phần sau vào cuối tệp:

# Đặt HEO_HOME

xuất PIG_HOME = / home / edureka / pig-0.16.0
xuất PATH = $ PATH: /home/edureka/pig-0.16.0/bin
xuất PIG_CLASSPATH = $ HADOOP_CONF_DIR

Ngoài ra, hãy đảm bảo rằng đường dẫn hadoop cũng được thiết lập.

Chạy lệnh dưới đây để cập nhật các thay đổi trong cùng một thiết bị đầu cuối.

Chỉ huy: nguồn .bashrc

Bước 4: Kiểm tra phiên bản lợn. Đây là để kiểm tra xem Apache Pig đã được cài đặt đúng chưa. Trong trường hợp không nhận được phiên bản Apache Pig, bạn cần xác minh xem bạn đã thực hiện đúng các bước trên hay chưa.

Chỉ huy: heo

Bước 5 :Kiểm tra trợ giúp lợn để xem tất cả các tùy chọn lệnh lợn.

Chỉ huy: heo - trợ giúp

Bước 6 :Chạy Pig để bắt đầu vỏ grunt. Grunt shell được sử dụng để chạy các tập lệnh Pig Latin.

thẻ br trong html là gì

Chỉ huy: con lợn

Nếu bạn nhìn vào hình trên một cách chính xác, Apache Pig có hai chế độ để nó có thể chạy, mặc định nó chọn chế độ MapReduce. Chế độ khác mà bạn có thể chạy Pig là chế độ Local. Hãy để tôi nói cho bạn biết thêm về điều này.

Các chế độ thực thi trong Apache Pig:

  • Chế độ MapReduce - Đây là chế độ mặc định, yêu cầu quyền truy cập vào một cụm Hadoop và cài đặt HDFS. Vì đây là chế độ mặc định nên không cần chỉ định cờ -x (bạn có thể thực thi con lợn HOẶC LÀ pig -x mapreduce ). Đầu vào và đầu ra ở chế độ này hiển thị trên HDFS.
  • Chế độ cục bộ - Với quyền truy cập vào một máy duy nhất, tất cả các tệp được cài đặt và chạy bằng máy chủ lưu trữ cục bộ và hệ thống tệp. Ở đây, chế độ cục bộ được chỉ định bằng cách sử dụng ‘-x flag’ ( lợn -x địa phương ). Đầu vào và đầu ra ở chế độ này có trên hệ thống tệp cục bộ.

Chỉ huy: lợn -x địa phương

Bạn có thể xem qua video dưới đây để xem Cài đặt Apache Pig trên Linux:

Cài đặt Apache Pig | Cài đặt Pig trên Linux | Edureka

Bây giờ bạn đã hoàn tất Cài đặt Apache Pig trên Linux, bước tiếp theo là thử một số toán tử Pig quan hệ trên vỏ Pig Grunt. Do đó, blog tiếp theo “ Các toán tử trong Apache Pig: Phần 1- Các toán tử quan hệ ”Sẽ giúp bạn thành thạo các toán tử Pig.

Bây giờ bạn đã cài đặt Apache Pig trên Linux, hãy xem của Edureka, một công ty học trực tuyến đáng tin cậy với mạng lưới hơn 250.000 người học hài lòng trải dài trên toàn cầu. Khóa đào tạo Chứng chỉ Edureka Big Data Hadoop giúp người học trở thành chuyên gia trong lĩnh vực HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume và Sqoop bằng các trường hợp sử dụng thời gian thực trên miền Bán lẻ, Truyền thông xã hội, Hàng không, Du lịch, Tài chính.

Có một câu hỏi cho chúng tôi? Vui lòng đề cập đến nó trong phần bình luận và chúng tôi sẽ liên hệ lại với bạn.