APACHE FLINK: KHUNG PHÂN TÍCH DỮ LIỆU LỚN THẾ HỆ TIẾP THEO

Apache Flink là một nền tảng mã nguồn mở để xử lý dữ liệu hàng loạt và luồng phân tán. Nó có thể chạy trên Windows, Mac OS và Linux OS. Trong bài đăng blog này, hãy thảo luận cách thiết lập cụm Flink cục bộ. Nó giống với Spark theo nhiều cách - nó có các API để xử lý Đồ thị và Máy học như Apache Spark - nhưng Apache Flink và Apache Spark không hoàn toàn giống nhau.

Để thiết lập cụm Flink, bạn phải cài đặt java 7.x trở lên trên hệ thống của mình. Vì tôi đã cài đặt Hadoop-2.2.0 ở cuối trên CentOS (Linux), tôi đã tải xuống gói Flink tương thích với Hadoop 2.x. Chạy lệnh dưới đây để tải xuống gói Flink.

Chỉ huy: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz

Command-Apache-Flink

Mở tệp để lấy thư mục liên kết.

trực quan hóa dữ liệu trong hoạt cảnh là gì

Chỉ huy: Tải xuống tar -xvf / flink-1.0.0-bin-hadoop2-scala_2.10.tgz

Chỉ huy: ls

Thêm các biến môi trường Flink trong tệp .bashrc.

Chỉ huy: sudo gedit .bashrc

Bạn cần chạy lệnh dưới đây để các thay đổi trong tệp .bashrc được kích hoạt

Chỉ huy: nguồn .bashrc

Bây giờ vào thư mục flink và khởi động cụm cục bộ.

Chỉ huy: cd hefty-1.0.0

Chỉ huy: bin / start-local.sh

Khi bạn đã khởi động cụm, bạn sẽ có thể thấy JobManager daemon mới đang chạy.

Chỉ huy: jps

Mở trình duyệt và truy cập http: // localhost: 8081 để xem giao diện người dùng web Apache Flink.

Hãy để chúng tôi chạy một ví dụ đơn giản về số lượng từ sử dụng Apache Flink.

Trước khi chạy ví dụ cài đặt netcat trên hệ thống của bạn (sudo yum install nc).

Bây giờ trong một thiết bị đầu cuối mới, hãy chạy lệnh dưới đây.

Chỉ huy: nc -lk 9000

mô tả công việc của nhà phát triển dữ liệu lớn

Chạy lệnh dưới đây trong thiết bị đầu cuối liên kết. Lệnh này chạy một chương trình lấy dữ liệu được truyền trực tuyến làm đầu vào và thực hiện thao tác đếm từ trên dữ liệu được truyền trực tuyến đó.

Chỉ huy: ví dụ chạy bin / flink / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

Trong ui web, bạn sẽ có thể thấy một công việc ở trạng thái đang chạy.

Chạy lệnh dưới đây trong một thiết bị đầu cuối mới, điều này sẽ in dữ liệu được truyền và xử lý.

Chỉ huy: tail -f log / flink - * - jobmanager - *. out

Bây giờ, hãy chuyển đến terminal nơi bạn đã bắt đầu sử dụng netcat và nhập nội dung nào đó.

Thời điểm bạn nhấn nút enter trên từ khóa của mình sau khi bạn nhập một số dữ liệu trên thiết bị đầu cuối netcat, thao tác đếm từ sẽ được áp dụng trên dữ liệu đó và đầu ra sẽ được in ở đây (nhật ký công việc của flink) trong vòng mili giây!

Trong một khoảng thời gian rất ngắn, dữ liệu sẽ được truyền trực tuyến, xử lý và in.

Còn nhiều điều cần tìm hiểu về Apache Flink. Chúng tôi sẽ đề cập đến các chủ đề Flink khác trong blog sắp tới của chúng tôi.

gõ đúc trong java với ví dụ

Có một câu hỏi cho chúng tôi? Đề cập đến họ trong phần bình luận và chúng tôi sẽ liên hệ lại với bạn.

Bài viết liên quan:

Apache Falcon: Nền tảng quản lý dữ liệu mới cho Hệ sinh thái Hadoop

Apache Flink: Khung phân tích dữ liệu lớn thế hệ tiếp theo để xử lý dữ liệu hàng loạt và luồng

Tìm hiểu tất cả về Apache Flink và thiết lập một cụm Flink trong blog này. Flink hỗ trợ thời gian thực & xử lý hàng loạt và là công nghệ Dữ liệu lớn phải xem cho Phân tích dữ liệu lớn.

Thể LoạI

Popular Articles

Cách triển khai Dependency Injection trong AngularJs

INSERT Truy vấn SQL - Tất cả những gì bạn cần biết về câu lệnh INSERT

Hợp đồng thông minh Ethereum - Làm thế nào để thực hiện Hợp đồng thông minh?

Hiểu các công cụ DevOps - Các công nghệ phát triển, kiểm tra và triển khai liên quan đến DevOps

Làm thế nào để triển khai các phương thức ngày JavaScript?

Tất cả những gì bạn cần biết về Bộ hẹn giờ trong JavaScript

Làm thế nào để sử dụng tốt nhất các bảng lồng nhau trong HTML?

10 lý do hàng đầu tại sao bạn nên học Microservices

Trình lặp lại trong Python: Trình lặp lại trong Python là gì và cách sử dụng nó?

Tableau Server và các thành phần của nó là gì?

Chỉ mục trong SQL là gì?

Sự khác biệt giữa Dữ liệu lớn và Hadoop là gì?