4 cách để sử dụng R và Hadoop cùng nhau



R và Hadoop bổ sung cho nhau khá tốt về mặt trực quan và phân tích dữ liệu lớn. Bài đăng trên blog này nói về 4 cách sử dụng chúng cùng nhau.

Hadoop là một khung lập trình dựa trên Java đột phá, hỗ trợ xử lý các tập dữ liệu lớn trong môi trường máy tính phân tán, trong khi R là một ngôn ngữ lập trình và môi trường phần mềm cho tính toán thống kê và đồ họa. Ngôn ngữ R được sử dụng rộng rãi giữa các nhà thống kê và công cụ khai thác dữ liệu để phát triển phần mềm thống kê và thực hiện phân tích dữ liệu. Trong các lĩnh vực phân tích dữ liệu tương tác, thống kê mục đích chung và mô hình dự đoán, R đã trở nên phổ biến rộng rãi do khả năng phân loại, phân cụm và xếp hạng của nó.

KM





Hadoop và R bổ sung cho nhau khá tốt về mặt trực quan và phân tích dữ liệu lớn.

Sử dụng R và Hadoop

Có bốn cách khác nhau để sử dụng Hadoop và R cùng nhau:



1. RHadoop

RHadoop là tập hợp của ba gói R: rmr, rhdfs và rhbase. Gói rmr cung cấp chức năng Hadoop MapReduce trong R, rhdfs cung cấp quản lý tệp HDFS trong R và rhbase cung cấp quản lý cơ sở dữ liệu HBase từ bên trong R. Mỗi gói chính này có thể được sử dụng để phân tích và quản lý dữ liệu khung Hadoop tốt hơn.

2. ORCH



ORCH là viết tắt của Oracle R Connector cho Hadoop. Nó là một tập hợp các gói R cung cấp các giao diện liên quan để làm việc với các bảng Hive, cơ sở hạ tầng tính toán Apache Hadoop, môi trường R cục bộ và các bảng cơ sở dữ liệu Oracle. Ngoài ra, ORCH cũng cung cấp các kỹ thuật phân tích dự đoán có thể được áp dụng cho dữ liệu trong các tệp HDFS.

3. RHIPE

RHIPE là một gói R cung cấp một API để sử dụng Hadoop. RHIPE là viết tắt của R và Hadoop Integrated Programming Environment, về cơ bản là RHadoop với một API khác.

Bốn. Phát trực tuyến trên Hadoop

Hadoop Streaming là một tiện ích cho phép người dùng tạo và chạy các công việc với bất kỳ tệp thực thi nào dưới dạng trình ánh xạ và / hoặc trình rút gọn. Sử dụng hệ thống phát trực tuyến, người ta có thể phát triển các công việc Hadoop đang hoạt động với chỉ đủ kiến ​​thức về Java để viết hai tập lệnh shell hoạt động song song.

Sự kết hợp giữa R và Hadoop đang nổi lên như một bộ công cụ cần có cho những người làm việc với thống kê và tập dữ liệu lớn. Tuy nhiên, một số người đam mê Hadoop đã giương cờ đỏ khi xử lý các đoạn Dữ liệu lớn cực lớn. Họ cho rằng lợi thế của R không phải là cú pháp của nó mà là thư viện đầy đủ các nguyên bản để trực quan hóa và thống kê. Các thư viện này về cơ bản là không phân tán, khiến cho việc truy xuất dữ liệu trở nên mất thời gian. Đây là một lỗ hổng cố hữu của R, và nếu bạn chọn bỏ qua nó, R và Hadoop song song với nhau vẫn có thể làm nên điều kỳ diệu.

Bây giờ, hãy xem bản demo:

c ++ sử dụng không gian tên

Có một câu hỏi cho chúng tôi? Vui lòng đề cập đến chúng trong phần nhận xét và chúng tôi sẽ liên hệ lại với bạn.

Bài viết liên quan: