Lập trình lợn: Tạo tập lệnh lợn Apache đầu tiên của bạn



Đọc bài đăng trên blog này để tạo tập lệnh Apache Pig đầu tiên của bạn. Các tập lệnh Apache Pig được sử dụng để thực thi một tập hợp các lệnh Apache Pig gọi chung.

Lập trình lợn: Tạo tập lệnh lợn Apache đầu tiên của bạn

Trong của chúng tôi , bây giờ chúng ta sẽ học cách tạo một tập lệnh Apache Pig. Các tập lệnh Apache Pig được sử dụng để thực thi một tập hợp các lệnh Apache Pig gọi chung. Điều này giúp giảm thời gian và công sức đầu tư vào việc viết và thực hiện từng lệnh theo cách thủ công trong khi thực hiện việc này trong lập trình Pig.Nó cũng là một phần không thể thiếu của .Blog này là hướng dẫn từng bước để giúp bạn tạo tập lệnh Apache Pig đầu tiên của mình.

cuối cùng và hoàn thiện trong java

Chế độ thực thi tập lệnh Apache Pig

Chế độ cục bộ : Trong ‘chế độ cục bộ’, bạn có thể thực thi tập lệnh heo trong hệ thống tệp cục bộ. Trong trường hợp này, bạn không cần lưu trữ dữ liệu trong hệ thống tệp Hadoop HDFS, thay vào đó bạn có thể làm việc với dữ liệu được lưu trữ trong chính hệ thống tệp cục bộ.





Chế độ MapReduce : Trong ‘chế độ MapReduce’, dữ liệu cần được lưu trữ trong hệ thống tệp HDFS và bạn có thể xử lý dữ liệu với sự trợ giúp của tập lệnh pig.

Apache Pig Script trong Chế độ MapReduce

Giả sử nhiệm vụ của chúng ta là đọc dữ liệu từ tệp dữ liệu và hiển thị nội dung cần thiết trên thiết bị đầu cuối dưới dạng đầu ra.



Tệp dữ liệu mẫu chứa dữ liệu sau:

Tập tin txt thông tin - Apache Pig Script - Edureka

Lưu tệp văn bản với tên ‘information.txt’



Tệp dữ liệu mẫu chứa năm cột Tên đầu tiên , LastName , MobileNo , Tp.Nghề nghiệp cách nhau bởi phím Tab . Nhiệm vụ của chúng ta là đọc nội dung của tệp này từ HDFS và hiển thị tất cả các cột của các bản ghi này.

Để xử lý dữ liệu này bằng Pig, tệp này phải có trong Apache Hadoop HDFS.

Chỉ huy : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka

Bước 1: Viết kịch bản Pig

Tạo và mở tệp tập lệnh Apache Pig trong trình chỉnh sửa (ví dụ: gedit).

chuỗi con trong java là gì

Chỉ huy : sudo gedit /home/edureka/output.pig

Lệnh này sẽ tạo tệp ‘output.pig’ bên trong thư mục chính của người dùng edureka.

Hãy viết một vài lệnh PIG trong tệp output.pig.

A = LOAD '/edureka/information.txt' using PigStorage ('') as (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Profession: chararray) B = FOREACH A tạo FName, MobileNo, Profession DUMP B

Lưu và đóng tập tin.

  • Lệnh đầu tiên tải tệp ‘information.txt’ vào biến A với lược đồ gián tiếp (FName, LName, MobileNo, City, Profession).
  • Lệnh thứ hai tải dữ liệu cần thiết từ biến A đến biến B.
  • Dòng thứ ba hiển thị nội dung của biến B trên terminal / console.

Bước 2: Thực thi Apache Pig Script

Để thực thi tập lệnh heo ở chế độ HDFS, hãy chạy lệnh sau:

Chỉ huy : pig /home/edureka/output.pig

Sau khi quá trình thực hiện kết thúc, hãy xem lại kết quả. Những hình ảnh dưới đây cho thấy các kết quả và bản đồ trung gian và các chức năng thu nhỏ của chúng.

Hình ảnh dưới đây cho thấy rằng Script đã thực thi thành công.

Hình ảnh dưới đây cho thấy kết quả của tập lệnh của chúng tôi.

Chúc mừng bạn đã thực hiện thành công tập lệnh Apache Pig đầu tiên của mình!

Bây giờ bạn đã biết cách tạo và thực thi tập lệnh Apache Pig. Do đó, blog tiếp theo của chúng tôi trong sẽ bao gồm cách tạo UDF (Chức năng do người dùng xác định) trong Apache Pig và thực thi nó ở chế độ MapReduce / HDFS.

làm thế nào để dừng một chương trình java trong mã

Bây giờ bạn đã tạo và thực thi Apache Pig Script, hãy xem của Edureka, một công ty học trực tuyến đáng tin cậy với mạng lưới hơn 250.000 người học hài lòng trải dài trên toàn cầu. Khóa đào tạo Chứng chỉ Edureka Big Data Hadoop giúp người học trở thành chuyên gia trong lĩnh vực HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume và Sqoop bằng các trường hợp sử dụng thời gian thực trên miền Bán lẻ, Truyền thông xã hội, Hàng không, Du lịch, Tài chính.

Có một câu hỏi cho chúng tôi? Vui lòng đề cập đến nó trong phần bình luận và chúng tôi sẽ liên hệ lại với bạn.