Apache Flink là một nền tảng mã nguồn mở để xử lý dữ liệu hàng loạt và luồng phân tán. Nó có thể chạy trên Windows, Mac OS và Linux OS. Trong bài đăng blog này, hãy thảo luận cách thiết lập cụm Flink cục bộ. Nó giống với Spark theo nhiều cách - nó có các API để xử lý Đồ thị và Máy học như Apache Spark - nhưng Apache Flink và Apache Spark không hoàn toàn giống nhau.
Để thiết lập cụm Flink, bạn phải cài đặt java 7.x trở lên trên hệ thống của mình. Vì tôi đã cài đặt Hadoop-2.2.0 ở cuối trên CentOS (Linux), tôi đã tải xuống gói Flink tương thích với Hadoop 2.x. Chạy lệnh dưới đây để tải xuống gói Flink.
Chỉ huy: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Mở tệp để lấy thư mục liên kết.
trực quan hóa dữ liệu trong hoạt cảnh là gì
Chỉ huy: Tải xuống tar -xvf / flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Chỉ huy: ls
Thêm các biến môi trường Flink trong tệp .bashrc.
Chỉ huy: sudo gedit .bashrc
Bạn cần chạy lệnh dưới đây để các thay đổi trong tệp .bashrc được kích hoạt
Chỉ huy: nguồn .bashrc
Bây giờ vào thư mục flink và khởi động cụm cục bộ.
Chỉ huy: cd hefty-1.0.0
Chỉ huy: bin / start-local.sh
Khi bạn đã khởi động cụm, bạn sẽ có thể thấy JobManager daemon mới đang chạy.
Chỉ huy: jps
Mở trình duyệt và truy cập http: // localhost: 8081 để xem giao diện người dùng web Apache Flink.
Hãy để chúng tôi chạy một ví dụ đơn giản về số lượng từ sử dụng Apache Flink.
Trước khi chạy ví dụ cài đặt netcat trên hệ thống của bạn (sudo yum install nc).
Bây giờ trong một thiết bị đầu cuối mới, hãy chạy lệnh dưới đây.
Chỉ huy: nc -lk 9000
mô tả công việc của nhà phát triển dữ liệu lớn
Chạy lệnh dưới đây trong thiết bị đầu cuối liên kết. Lệnh này chạy một chương trình lấy dữ liệu được truyền trực tuyến làm đầu vào và thực hiện thao tác đếm từ trên dữ liệu được truyền trực tuyến đó.
Chỉ huy: ví dụ chạy bin / flink / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000
Trong ui web, bạn sẽ có thể thấy một công việc ở trạng thái đang chạy.
Chạy lệnh dưới đây trong một thiết bị đầu cuối mới, điều này sẽ in dữ liệu được truyền và xử lý.
Chỉ huy: tail -f log / flink - * - jobmanager - *. out
Bây giờ, hãy chuyển đến terminal nơi bạn đã bắt đầu sử dụng netcat và nhập nội dung nào đó.
Thời điểm bạn nhấn nút enter trên từ khóa của mình sau khi bạn nhập một số dữ liệu trên thiết bị đầu cuối netcat, thao tác đếm từ sẽ được áp dụng trên dữ liệu đó và đầu ra sẽ được in ở đây (nhật ký công việc của flink) trong vòng mili giây!
Trong một khoảng thời gian rất ngắn, dữ liệu sẽ được truyền trực tuyến, xử lý và in.
Còn nhiều điều cần tìm hiểu về Apache Flink. Chúng tôi sẽ đề cập đến các chủ đề Flink khác trong blog sắp tới của chúng tôi.
gõ đúc trong java với ví dụ
Có một câu hỏi cho chúng tôi? Đề cập đến họ trong phần bình luận và chúng tôi sẽ liên hệ lại với bạn.
Bài viết liên quan:
Apache Falcon: Nền tảng quản lý dữ liệu mới cho Hệ sinh thái Hadoop