Apache Flink: Khung phân tích dữ liệu lớn thế hệ tiếp theo để xử lý dữ liệu hàng loạt và luồng



Tìm hiểu tất cả về Apache Flink và thiết lập một cụm Flink trong blog này. Flink hỗ trợ thời gian thực & xử lý hàng loạt và là công nghệ Dữ liệu lớn phải xem cho Phân tích dữ liệu lớn.

Apache Flink là một nền tảng mã nguồn mở để xử lý dữ liệu hàng loạt và luồng phân tán. Nó có thể chạy trên Windows, Mac OS và Linux OS. Trong bài đăng blog này, hãy thảo luận cách thiết lập cụm Flink cục bộ. Nó giống với Spark theo nhiều cách - nó có các API để xử lý Đồ thị và Máy học như Apache Spark - nhưng Apache Flink và Apache Spark không hoàn toàn giống nhau.





Để thiết lập cụm Flink, bạn phải cài đặt java 7.x trở lên trên hệ thống của mình. Vì tôi đã cài đặt Hadoop-2.2.0 ở cuối trên CentOS (Linux), tôi đã tải xuống gói Flink tương thích với Hadoop 2.x. Chạy lệnh dưới đây để tải xuống gói Flink.

Chỉ huy: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Mở tệp để lấy thư mục liên kết.

trực quan hóa dữ liệu trong hoạt cảnh là gì

Chỉ huy: Tải xuống tar -xvf / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Chỉ huy: ls

Thêm các biến môi trường Flink trong tệp .bashrc.

Chỉ huy: sudo gedit .bashrc

Bạn cần chạy lệnh dưới đây để các thay đổi trong tệp .bashrc được kích hoạt

Chỉ huy: nguồn .bashrc

Bây giờ vào thư mục flink và khởi động cụm cục bộ.

Chỉ huy: cd hefty-1.0.0

Chỉ huy: bin / start-local.sh

Khi bạn đã khởi động cụm, bạn sẽ có thể thấy JobManager daemon mới đang chạy.

Chỉ huy: jps

Mở trình duyệt và truy cập http: // localhost: 8081 để xem giao diện người dùng web Apache Flink.

Hãy để chúng tôi chạy một ví dụ đơn giản về số lượng từ sử dụng Apache Flink.

Trước khi chạy ví dụ cài đặt netcat trên hệ thống của bạn (sudo yum install nc).

Bây giờ trong một thiết bị đầu cuối mới, hãy chạy lệnh dưới đây.

Chỉ huy: nc -lk 9000

mô tả công việc của nhà phát triển dữ liệu lớn

Chạy lệnh dưới đây trong thiết bị đầu cuối liên kết. Lệnh này chạy một chương trình lấy dữ liệu được truyền trực tuyến làm đầu vào và thực hiện thao tác đếm từ trên dữ liệu được truyền trực tuyến đó.

Chỉ huy: ví dụ chạy bin / flink / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

Trong ui web, bạn sẽ có thể thấy một công việc ở trạng thái đang chạy.

Chạy lệnh dưới đây trong một thiết bị đầu cuối mới, điều này sẽ in dữ liệu được truyền và xử lý.

Chỉ huy: tail -f log / flink - * - jobmanager - *. out

Bây giờ, hãy chuyển đến terminal nơi bạn đã bắt đầu sử dụng netcat và nhập nội dung nào đó.

Thời điểm bạn nhấn nút enter trên từ khóa của mình sau khi bạn nhập một số dữ liệu trên thiết bị đầu cuối netcat, thao tác đếm từ sẽ được áp dụng trên dữ liệu đó và đầu ra sẽ được in ở đây (nhật ký công việc của flink) trong vòng mili giây!

Trong một khoảng thời gian rất ngắn, dữ liệu sẽ được truyền trực tuyến, xử lý và in.

Còn nhiều điều cần tìm hiểu về Apache Flink. Chúng tôi sẽ đề cập đến các chủ đề Flink khác trong blog sắp tới của chúng tôi.

gõ đúc trong java với ví dụ

Có một câu hỏi cho chúng tôi? Đề cập đến họ trong phần bình luận và chúng tôi sẽ liên hệ lại với bạn.

Bài viết liên quan:

Apache Falcon: Nền tảng quản lý dữ liệu mới cho Hệ sinh thái Hadoop