Thành thạo Hadoop? Đã đến lúc bắt đầu với Apache Spark



Bài đăng trên blog này giải thích tại sao bạn phải bắt đầu với Apache Spark sau khi sử dụng Hadoop và tại sao việc học Spark sau khi thành thạo hadoop có thể làm nên điều kỳ diệu cho sự nghiệp của bạn!

Hadoop, như chúng ta đều biết là chàng trai áp phích của dữ liệu lớn. Là một khung phần mềm có khả năng xử lý tỷ lệ dữ liệu lớn, Hadoop đã lọt vào top đầu danh sách từ thông dụng của CIO.





tìm số tối đa trong mảng java

Tuy nhiên, sự gia tăng chưa từng có của ngăn xếp trong bộ nhớ đã đưa hệ sinh thái dữ liệu lớn đến một giải pháp thay thế mới cho phân tích. Cách phân tích MapReduce đang được thay thế bằng một cách tiếp cận mới cho phép phân tích cả trong khuôn khổ Hadoop và bên ngoài nó. Apache Spark là bộ mặt mới của phân tích dữ liệu lớn.

Những người đam mê dữ liệu lớn đã chứng nhận Apache Spark là công cụ tính toán dữ liệu nóng nhất cho dữ liệu lớn trên thế giới. Việc loại MapReduce và Java ra khỏi vị trí của họ đang diễn ra nhanh chóng và xu hướng công việc đang phản ánh sự thay đổi này. Theo một cuộc khảo sát của TypeSafe, 71% các nhà phát triển Java toàn cầu hiện đang đánh giá hoặc nghiên cứu về Spark và 35% trong số họ đã bắt đầu sử dụng nó. Các chuyên gia về Spark hiện đang có nhu cầu, và trong những tuần tới, số lượng cơ hội việc làm liên quan đến Spark dự kiến ​​sẽ tăng nhanh.



Vậy, điều gì ở Apache Spark khiến nó xuất hiện trên đầu mọi danh sách việc cần làm của CIO?

Dưới đây là một số tính năng thú vị của Apache Spark:

ném so với ném vs ném được trong java
  • Tích hợp Hadoop - Spark có thể hoạt động với các tệp được lưu trữ trong HDFS.
  • Spark’s Interactive Shell - Spark được viết bằng Scala và có phiên bản thông dịch Scala riêng.
  • Bộ phân tích của Spark - Spark đi kèm với các công cụ để phân tích truy vấn tương tác, xử lý và phân tích đồ thị quy mô lớn và phân tích thời gian thực.
  • Tập dữ liệu phân tán có khả năng phục hồi (RDD) - RDD là các đối tượng phân tán có thể được lưu trữ trong bộ nhớ, trên một cụm các nút tính toán. Chúng là các đối tượng dữ liệu chính được sử dụng trong Spark.
  • Nhà điều hành phân tán - Bên cạnh MapReduce, có rất nhiều toán tử khác mà người ta có thể sử dụng trên RDD’s.

Các tổ chức như NASA, Yahoo và Adobe đã cam kết với Spark. Đây là những gì John Tripier, Trưởng nhóm Liên minh và Hệ sinh thái tại Databricks đã nói, “Việc các doanh nghiệp lớn và nhỏ áp dụng Apache Spark đang tăng lên với tốc độ đáng kinh ngạc trong nhiều ngành và nhu cầu về các nhà phát triển có chuyên môn được chứng nhận đang nhanh chóng theo sau ”. Chưa bao giờ là thời điểm tốt hơn để Học Spark nếu bạn có kiến ​​thức nền tảng về Hadoop.



Edureka đã đặc biệt tổ chức một khóa học về Apache Spark & ​​Scala, do các học viên trong ngành thực tế đồng sáng tạo. Để có trải nghiệm học tập điện tử trực tiếp khác biệt cùng với các dự án liên quan đến ngành, hãy xem khóa học của chúng tôi. Các lô mới sắp bắt đầu, vì vậy hãy xem khóa học tại đây: .

Có một câu hỏi cho chúng tôi? Vui lòng đề cập đến nó trong phần bình luận và chúng tôi sẽ liên hệ lại với bạn.

Bài viết liên quan:

khác nhau giữa cuối cùng cuối cùng và cuối cùng

Apache Spark Vs Hadoop MapReduce