Hadoop 2.0 - Câu hỏi thường gặp



Sự quan tâm đến Hadoop đã tăng lên gấp nhiều lần trong vài năm qua. Bài đăng này giải đáp các thắc mắc của bạn và xóa nhiều nghi ngờ về Hadoop 2.0 và cách sử dụng nó.

Đây là một bài đăng tiếp theo với câu trả lời cho câu hỏi thường gặp trong hội thảo trên web công khai của edureka! trên .

Câu hỏi thường gặp về Hadoop

Deepak:





Hadoop là gì?
Apache Hadoop là một khung phần mềm Nguồn mở để lưu trữ và xử lý quy mô lớn các tập dữ liệu trên một cụm phần cứng hàng hóa. Nó là một khung phần mềm Quản lý Dữ liệu Nguồn Mở với khả năng lưu trữ và xử lý phân tán theo quy mô lớn. Nó đang được xây dựng và sử dụng bởi một cộng đồng những người đóng góp và người dùng toàn cầu.

Đọc thêm tại bài đăng trên blog Hadoop của chúng tôi và .



Tìm kiếm:

Các trường hợp sử dụng dữ liệu lớn trong ngành du lịch, vận tải và hàng không là gì?

Nắng:



Bạn có thể chỉ cho chúng tôi một số mẫu Triển khai Hadoop thực tế mà chúng tôi có thể nghiên cứu không?
Chúng tôi là thíchcủatrong thời đại gia tăng tắc nghẽn vào giờ cao điểm. Các nhà khai thác vận tải không ngừng tìm kiếm những cách thức hiệu quả về chi phí để cung cấp dịch vụ của họ trong khi vẫn giữ cho đội tàu vận tải của họ trong điều kiện tốt. Việc sử dụng Big Data Analytics trong miền này có thể giúp tổ chức:

  • Tối ưu hóa tuyến đường
  • Phân tích không gian địa lý
  • Mô hình giao thông và tắc nghẽn
  • Bảo trì tài sản
  • Quản lý doanh thu (tức là hãng hàng không)
  • Quản lý hàng tồn kho
  • Bảo tồn nhiên liệu
  • Tiếp thị mục tiêu
  • Lòng trung thành của khách hàng
  • Dự báo năng lực
  • Hiệu suất và tối ưu hóa mạng

Một số trường hợp sử dụng trong thế giới thực là:
đến) Xác định chi phí chuyến bay
b) Lập mô hình dự đoán cho hậu cần hàng tồn kho
c) Orbitz Worldwide - Các mô hình mua của khách hàng
d) Sáu lần triển khai Hadoop siêu quy mô
Là) Hadoop - Nhiều hơn là Thêm
f) Hadoop trong doanh nghiệp

cách biên dịch mã java

Bạn có thể tìm hiểu thêm về các triển khai Hadoop trong Thế giới thực tại:

Hirdesh:

Hadoop có phải là tất cả về Xử lý và xử lý dữ liệu không? Chúng tôi thực hiện như thế nào đối với Báo cáo và Phân tích trực quan. Qlikview, Tableau có thể được sử dụng trên Hadoop không?
Các thành phần cốt lõi của Hadoop HDFS và MapReduce đều là về Lưu trữ và Xử lý Dữ liệu. HDFS để lưu trữ và MapReduce để xử lý. Nhưng các thành phần cốt lõi của Hadoop như Pig và Hive được sử dụng để phân tích. Đối với Tableau báo cáo trực quan, QlikView có thể được kết nối với Hadoop để báo cáo trực quan.

Amit:

Hadoop Vs. mongoDB
MongoDB được sử dụng làm kho lưu trữ dữ liệu thời gian thực 'Hoạt động' trong khi Hadoop được sử dụng để xử lý và phân tích dữ liệu hàng loạt ngoại tuyến.
mongoDB là một kho lưu trữ dữ liệu theo định hướng tài liệu, không có lược đồ mà bạn có thể sử dụng trong một ứng dụng web như một chương trình phụ trợ thay vì RDBMS như MySQL trong khi Hadoop chủ yếu được sử dụng làm bộ nhớ mở rộng và xử lý phân tán cho lượng lớn dữ liệu.

Đọc thêm tại của chúng tôi mongoDB và bài đăng trên blog Hadoop .

Đây:

Apache Spark có phải là một phần của Hadoop không ?
Apache Spark là một công cụ nhanh và chung để xử lý dữ liệu quy mô lớn. Spark nhanh hơn và hỗ trợ xử lý Trong bộ nhớ. Công cụ thực thi Spark mở rộng loại khối lượng công việc tính toán mà Hadoop có thể xử lý và có thể chạy trên cụm Hadoop 2.0 YARN. Nó là một hệ thống khung xử lý cho phép lưu trữ các đối tượng Trong bộ nhớ (RDD) cùng với khả năng xử lý các đối tượng này bằng cách sử dụng các bao đóng Scala. Nó hỗ trợ xử lý Đồ thị, Kho dữ liệu, Máy học và Luồng.

Nếu bạn có một cụm Hadoop 2, bạn có thể chạy Spark mà không cần bất kỳ cài đặt nào. Nếu không, Spark rất dễ chạy độc lập hoặc trên EC2 hoặc Mesos. Nó có thể đọc từ HDFS, HBase, Cassandra và bất kỳ nguồn dữ liệu Hadoop nào.

Đọc thêm trên Spark đây .

Prasad:

Apache Flume là gì?
Apache Flume là một hệ thống phân tán, đáng tin cậy và sẵn có để thu thập, tổng hợp và chuyển một lượng lớn dữ liệu nhật ký từ nhiều nguồn khác nhau đến một nguồn dữ liệu tập trung một cách hiệu quả.

Amit:

Cơ sở dữ liệu SQL so với NO-SQL
Cơ sở dữ liệu NoSQL là Cơ sở dữ liệu thế hệ tiếp theo và chủ yếu giải quyết một số điểm

  • không quan hệ
  • phân phối
  • mã nguồn mở
  • có thể mở rộng theo chiều ngang

Thường áp dụng nhiều đặc điểm hơn như không có giản đồ, hỗ trợ sao chép dễ dàng, API đơn giản, cuối cùng nhất quán / BASE (không phải ACID), một lượng lớn dữ liệu và hơn thế nữa. Ví dụ, một số yếu tố khác biệt là:

  • Cơ sở dữ liệu NoSQL mở rộng quy mô theo chiều ngang, thêm nhiều máy chủ hơn để đối phó với tải lớn hơn. Mặt khác, cơ sở dữ liệu SQL thường mở rộng quy mô theo chiều dọc, thêm ngày càng nhiều tài nguyên vào một máy chủ khi lưu lượng truy cập tăng lên.
  • Cơ sở dữ liệu SQL yêu cầu bạn xác định lược đồ của mình trước khi thêm bất kỳ thông tin và dữ liệu nào nhưng cơ sở dữ liệu NoSQL không có lược đồ thì không yêu cầu định nghĩa trước lược đồ.
  • Cơ sở dữ liệu SQL dựa trên bảng với các hàng và cột tuân theo các nguyên tắc RDBMS trong khi cơ sở dữ liệu NoSQL là tài liệu, cặp khóa-giá trị, biểu đồ hoặc các cửa hàng cột rộng.
  • Cơ sở dữ liệu SQL sử dụng SQL (ngôn ngữ truy vấn có cấu trúc) để xác định và thao tác dữ liệu. Trong cơ sở dữ liệu NoSQL, các truy vấn thay đổi từ cơ sở dữ liệu này sang cơ sở dữ liệu khác.

Cơ sở dữ liệu SQL phổ biến: MySQL, Oracle, Postgres và MS-SQL
Phổ biến Cơ sở dữ liệu NoSQL: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j và CouchDB

Xem lại các blog của chúng tôi trên Hadoop và NoSQL cơ sở dữ liệu và Ưu điểm của một cơ sở dữ liệu như vậy:

Koteswararao:

Hadoop có Công nghệ cụm tích hợp không?
Một Cụm Hadoop sử dụng kiến ​​trúc Master-Slave. Nó bao gồm một Master duy nhất (NameNode) và một Cluster of Slaves (DataNodes) để lưu trữ và xử lý dữ liệu. Hadoop được thiết kế để chạy trên một số lượng lớn các máy không chia sẻ bất kỳ bộ nhớ hoặc ổ đĩa nào. Các DataNode này được định cấu hình thành Cluster bằng cách sử dụng . Hadoop sử dụng khái niệm sao chép để đảm bảo rằng ít nhất một bản sao dữ liệu luôn có sẵn trong cụm. Vì có nhiều bản sao dữ liệu, dữ liệu được lưu trữ trên máy chủ ngoại tuyến hoặc chết có thể được tự động sao chép từ một bản sao tốt đã biết.

Dinesh:

Công việc trong Hadoop là gì? Tất cả những gì có thể đạt được thông qua một Công việc?
Trong Hadoop, Job là một chương trình MapReduce để xử lý / phân tích dữ liệu. Thuật ngữ MapReduce thực sự đề cập đến hai nhiệm vụ riêng biệt và khác biệt mà các chương trình Hadoop thực hiện. Đầu tiên là tác vụ Bản đồ, lấy một tập dữ liệu và chuyển nó thành một tập dữ liệu trung gian khác, trong đó các phần tử riêng lẻ được chia nhỏ thành các cặp khóa-giá trị. Phần thứ hai của Công việc MapReduce, tác vụ Giảm, lấy đầu ra từ bản đồ làm đầu vào và kết hợp các cặp khóa-giá trị thành một tập hợp nhỏ hơn của cặp khóa-giá trị tổng hợp. Như trình tự của tên MapReduce ngụ ý, tác vụ Reduce luôn được thực hiện sau khi hoàn thành các tác vụ Map. Đọc thêm về MapReduce Job .

Sukruth:

Điều đặc biệt về NameNode ?
NameNode là trung tâm của hệ thống tệp HDFS. Nó giữ siêu dữ liệu chẳng hạn như cây thư mục của tất cả các tệp trong hệ thống tệp và theo dõi nơi dữ liệu tệp được lưu trên toàn bộ cụm. Dữ liệu thực tế được lưu trữ trên DataNodes dưới dạng khối HDFS.
Các ứng dụng khách nói chuyện với NameNode bất cứ khi nào họ muốn định vị tệp hoặc bất kỳ khi nào họ muốn thêm / sao chép / di chuyển / xóa tệp. NameNode phản hồi các yêu cầu thành công bằng cách trả về danh sách các máy chủ DataNodes có liên quan nơi dữ liệu tồn tại. Đọc thêm về Kiến trúc HDFS .

Dinesh:

Hadoop 2.0 được giới thiệu ra thị trường khi nào?
Apache Software Foundation (ASF), nhóm nguồn mở quản lý Phát triển Hadoop đã thông báo trên blog của mình vào ngày 15 tháng 10 năm 2013 rằng Hadoop 2.0 hiện đã có sẵn (GA). Thông báo này có nghĩa là sau một thời gian dài chờ đợi, Apache Hadoop 2.0 và YARN hiện đã sẵn sàng để triển khai Sản xuất. Thêm trên Blog.

Dinesh:

Một vài ví dụ về ứng dụng Dữ liệu lớn không thuộc MapReduce là gì?
MapReduce là lựa chọn tuyệt vời cho nhiều ứng dụng để giải quyết các vấn đề về Dữ liệu lớn nhưng không phù hợp với mọi thứ mà các mô hình lập trình khác phục vụ tốt hơn các yêu cầu như xử lý đồ thị (ví dụ: Google Pregel / Apache Giraph) và lập mô hình lặp lại với Giao diện truyền thông báo (MPI).

Marish:

Dữ liệu được sắp xếp và lập chỉ mục trong HDFS như thế nào?
Dữ liệu được chia thành các khối 64 MB (có thể định cấu hình bằng một tham số) và được lưu trữ trong HDFS. NameNode lưu trữ thông tin lưu trữ của các khối này dưới dạng Block ID trong RAM của nó (Siêu dữ liệu NameNode). Các công việc MapReduce có thể truy cập các khối này bằng cách sử dụng siêu dữ liệu được lưu trữ trong RAM NameNode.

Shashwat:

Chúng ta có thể sử dụng cả MapReduce (MRv1) và MRv2 (với YARN) trên cùng một cụm không?
Hadoop 2.0 đã giới thiệu một khuôn khổ mới YARN để viết và thực thi các ứng dụng khác nhau trên Hadoop. Vì vậy, YARN và MapReduce là hai khái niệm khác nhau trong Hadoop 2.0 và không nên trộn lẫn và sử dụng lẫn nhau. Câu hỏi đúng là “Có thể chạy cả MRv1 và MRv2 trên Cụm Hadoop 2.0 được kích hoạt YARN không?” Câu trả lời cho câu hỏi này là một 'Không' vì mặc dù một Cụm Hadoop có thể được định cấu hình để chạy cả MRv1 và MRv2 nhưng chỉ có thể chạy một tập hợp các daemon bất kỳ lúc nào. Cả hai khuôn khổ này cuối cùng sử dụng các tệp cấu hình giống nhau ( fiber-site.xmlmapred-site.xml ) để chạy các daemon, do đó, chỉ một trong hai cấu hình có thể được bật trên Hadoop Cluster.

Búp bê:

Sự khác biệt giữa MapReduce Thế hệ Tiếp theo (MRv2) và YARN là gì?
YARN và MapReduce thế hệ tiếp theo (MRv2) là hai khái niệm và công nghệ khác nhau trong Hadoop 2.0. YARN là một khung phần mềm có thể được sử dụng để chạy không chỉ MRv2 mà còn các ứng dụng khác. MRv2 là một khung ứng dụng được viết bằng YARN API và nó chạy trong YARN.

Bharat:

Hadoop 2.0 có cung cấp khả năng tương thích ngược cho các ứng dụng Hadoop 1.x không?
Neha:

Quá trình di chuyển Hadoop 1.0 sang 2.0 có yêu cầu mã ứng dụng nặng không sự di cư?
Không, Hầu hết ứng dụng được phát triển bằng API “org.apache.hadoop.mapred”, có thể chạy trên YARN mà không cần biên dịch lại. YARN tương thích nhị phân với các ứng dụng MRv1 và “bin / hadoop” có thể được sử dụng để gửi các ứng dụng này trên YARN. Đọc thêm về điều này đây .

Sherin:

Điều gì xảy ra nếu nút Trình quản lý tài nguyên bị lỗi trong Hadoop 2.0?
Bắt đầu từ Bản phát hành Hadoop 2.4.0, hỗ trợ Tính sẵn sàng cao cho Trình quản lý tài nguyên cũng có sẵn. ResourceManager sử dụng Apache ZooKeeper để xử lý lỗi. Khi nút Trình quản lý tài nguyên bị lỗi, một nút phụ có thể nhanh chóng khôi phục thông qua trạng thái cụm được lưu trong ZooKeeper. ResourceManager, khi bị lỗi, khởi động lại tất cả các ứng dụng đã xếp hàng và đang chạy.

Sabbirali:

Khung Apache’s Hadoop có hoạt động trên Cloudera Hadoop không?
Apache Hadoop được giới thiệu vào năm 2005 với công cụ xử lý MapReduce cốt lõi để hỗ trợ việc xử lý phân tán khối lượng công việc dữ liệu quy mô lớn được lưu trữ trong HDFS. Nó là một Dự án mã nguồn mở và có nhiều bản phân phối (tương tự như Linux). Cloudera Hadoop (CDH) là một trong những phân phối như vậy từ Cloudera. Các bản phân phối Tương tự khác là HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights, v.v.

Arulvadivel:

Có cách nào dễ dàng để cài đặt Hadoop trên Máy tính xách tay của tôi và thử di chuyển cơ sở dữ liệu Oracle sang Hadoop không?
Bạn có thể khởi đầu với một HortonWorks Sandbox hoặc Cloudera Quick VM trên máy tính xách tay của bạn (với RAM ít nhất 4 GB và bộ xử lý i3 trở lên). Sử dụng SQOOP để di chuyển dữ liệu từ Oracle sang Hadoop như đã giải thích đây .

Bhabani:

Những cuốn sách tốt nhất hiện có để học Hadoop là gì?
Bắt đầu với Hadoop: Hướng dẫn cuối cùng bởi Tom White và Hoạt động Hadoop của Eric Sammer.

Mahendra:

Có cách đọc nào dành cho Hadoop 2.0 giống như Hadoop hướng dẫn cuối cùng không?
Xem lại đến muộn nhất trên giá sách được viết bởi một vài người trong số những người sáng tạo ra Hadoop 2.0.

Hãy theo dõi để biết thêm câu hỏi trong loạt bài này.