Informatica ETL: Hướng dẫn cho người mới bắt đầu để hiểu ETL bằng cách sử dụng Informatica PowerCenter



Hiểu các khái niệm về Informatica ETL và các giai đoạn khác nhau của quy trình ETL và thực hành một ca sử dụng liên quan đến cơ sở dữ liệu Nhân viên.

Mục đích của Informatica ETL là cung cấp cho người dùng, không chỉ quy trình trích xuất dữ liệu từ hệ thống nguồn và đưa nó vào kho dữ liệu, mà còn cung cấp cho người dùng một nền tảng chung để tích hợp dữ liệu của họ từ các nền tảng và ứng dụng khác nhau.Điều này đã làm tăng nhu cầu về .Trước khi nói về Informatica ETL, trước tiên chúng ta hãy hiểu tại sao chúng ta cần ETL.

Tại sao chúng ta cần ETL?

Mọi công tynhững ngày này phải xử lý các bộ dữ liệu lớn từ nhiều nguồn khác nhau. Dữ liệu này cần được xử lý để cung cấp thông tin sâu sắc cho việc đưa ra các quyết định kinh doanh. Tuy nhiên, thông thường những dữ liệu như vậy có những thách thức sau:





  • Các công ty lớn tạo ra rất nhiều dữ liệu và lượng dữ liệu khổng lồ như vậy có thể ở bất kỳ định dạng nào. Chúng sẽ có sẵn trong nhiều cơ sở dữ liệu và nhiều tệp không có cấu trúc.
  • Dữ liệu này phải được đối chiếu, kết hợp, so sánh và thực hiện để hoạt động như một tổng thể liền mạch. Nhưng các cơ sở dữ liệu khác nhau không giao tiếp tốt!
  • Nhiều tổ chức đã triển khai giao diện giữa các cơ sở dữ liệu này, nhưng họ phải đối mặt với những thách thức sau:
    • Mỗi cặp cơ sở dữ liệu yêu cầu một giao diện duy nhất.
    • Nếu bạn thay đổi một cơ sở dữ liệu, nhiều giao diện có thể phải được nâng cấp.

Dưới đây, bạn có thể thấy các cơ sở dữ liệu khác nhau của một tổ chức và các tương tác của chúng:

Tập dữ liệu khác nhau của một tổ chức - Informatica - ETL - Edureka

Các cơ sở dữ liệu khác nhau được sử dụng bởi các bộ phận khác nhau của một tổ chức



Tương tác khác nhau của các cơ sở dữ liệu trong một tổ chức

Như đã thấy ở trên, một tổ chức có thể có nhiều cơ sở dữ liệu khác nhau trong các bộ phận khác nhau và sự tương tác giữa chúng trở nên khó thực hiện vì phải tạo ra nhiều giao diện tương tác khác nhau cho chúng. Để vượt qua những thách thức này, giải pháp tốt nhất có thể là sử dụng các khái niệm về Tích hợp dữ liệu điều này sẽ cho phép dữ liệu từ các cơ sở dữ liệu và định dạng khác nhau giao tiếp với nhau. Hình dưới đây giúp chúng ta hiểu cách công cụ Tích hợp dữ liệu trở thành một giao diện chung để giao tiếp giữa các cơ sở dữ liệu khác nhau.

Nhiều cơ sở dữ liệu khác nhau được kết nối thông qua Tích hợp dữ liệu



Nhưng có các quy trình khác nhau có sẵn để thực hiện Tích hợp dữ liệu. Trong số các quy trình này, ETL là quy trình tối ưu, hiệu quả và đáng tin cậy nhất. Thông qua ETL, người dùng không chỉ có thể đưa dữ liệu từ nhiều nguồn khác nhau mà còn có thể thực hiện các thao tác khác nhau trên dữ liệu trước khi lưu trữ dữ liệu này vào mục tiêu cuối cùng.

Trong số các công cụ ETL hiện có trên thị trường, Informatica PowerCenter là nền tảng tích hợp dữ liệu hàng đầu trên thị trường. Đã thử nghiệm trên gần 500.000 tổ hợp nền tảng và ứng dụng, Informatica PowerCenter inter hoạt động với phạm vi rộng nhất có thể của các tiêu chuẩn, hệ thống và ứng dụng khác nhau. Bây giờ chúng ta hãy hiểu các bước liên quan đến quy trình Informatica ETL.

ETL tin học | Kiến trúc Informatica | Hướng dẫn Informatica PowerCenter | Edureka

Hướng dẫn Edureka Informatica này giúp bạn hiểu chi tiết các nguyên tắc cơ bản của ETL bằng cách sử dụng Informatica Powercenter.

Các bước trong Quy trình ETL Informatica:

Trước khi chúng ta chuyển sang các bước khác nhau liên quan đến Informatica ETL, Hãy để chúng ta có một cái nhìn tổng quan về ETL. Trong ETL, Trích xuất là nơi dữ liệu được trích xuất từ ​​các nguồn dữ liệu đồng nhất hoặc không đồng nhất, Chuyển đổi nơi dữ liệu được chuyển đổi để lưu trữ ở định dạng hoặc cấu trúc thích hợp cho các mục đích truy vấn và phân tích và Tải ở nơi dữ liệu được tải vào cơ sở dữ liệu đích cuối cùng, kho dữ liệu hoạt động, trung tâm dữ liệu hoặc kho dữ liệu. Hình ảnh dưới đây sẽ giúp bạn hiểu quá trình Informatica ETL diễn ra như thế nào.

Tổng quan về quy trình ETL

Như đã thấy ở trên, Informatica PowerCenter có thể tải dữ liệu từ nhiều nguồn khác nhau và lưu trữ chúng vào một kho dữ liệu duy nhất. Bây giờ, chúng ta hãy xem xét các bước liên quan đến quy trình Informatica ETL.

Chủ yếu có 4 bước trong quy trình Informatica ETL, bây giờ chúng ta hãy hiểu sâu về chúng:

  1. Trích xuất hoặc chụp
  2. Chà hoặc làm sạch
  3. Biến đổi
  4. Tải và Chỉ mục

1. Trích xuất hoặc Chụp: Như hình bên dưới, Capture hoặc Extract là bước đầu tiên của quy trình Informatica ETL.Đây là quá trình lấy một ảnh chụp nhanh của tập hợp con dữ liệu đã chọn từ nguồn, tập dữ liệu này phải được tải vào kho dữ liệu. Ảnh chụp nhanh là dạng xem tĩnh chỉ đọc của dữ liệu trong cơ sở dữ liệu. Quá trình trích xuất có thể có hai loại:

  • Trích xuất đầy đủ: Dữ liệu được trích xuất hoàn toàn từ hệ thống nguồn và không cần theo dõi các thay đổi đối với nguồn dữ liệu kể từ lần trích xuất thành công cuối cùng.
  • Chiết xuất tăng dần: Điều này sẽ chỉ nắm bắt các thay đổi đã xảy ra kể từ lần trích xuất đầy đủ cuối cùng.

Giai đoạn 1: Trích xuất hoặc Chụp

2. Chà hoặc làm sạch: Đây là quá trình làm sạch dữ liệu đến từ nguồn bằng cách sử dụng các kỹ thuật nhận dạng mẫu và AI khác nhau để nâng cấp chất lượng dữ liệu sau này. Thông thường, các lỗi như lỗi chính tả, ngày sai, sử dụng trường không chính xác, địa chỉ không khớp, thiếu dữ liệu, dữ liệu trùng lặp, không nhất quán làđánh dấu và sau đó sửa hoặc loại bỏtrong bước này. Ngoài ra, các hoạt động như giải mã, định dạng lại, đóng dấu thời gian, chuyển đổi, tạo khóa, hợp nhất, phát hiện lỗi / ghi nhật ký, định vị dữ liệu bị thiếu được thực hiện trong bước này. Như đã thấy trong hình dưới đây, đây là bước thứ hai của quy trình Informatica ETL.

Giai đoạn 2: Chà rửa hoặc làm sạch dữ liệu

3. Biến đổi: Như hình bên dưới, đây là bước thứ ba và thiết yếu nhất của quy trình Informatica ETL. Transformations là hoạt động chuyển đổi dữ liệu từ định dạng của hệ thống nguồn sang khung của Data Warehouse. Chuyển đổi về cơ bản được sử dụng để đại diện cho một tập hợp các quy tắc, xác định luồng dữ liệu và cách dữ liệu được tải vào các mục tiêu. Để biết thêm về Chuyển đổi, hãy xem Sự biến đổi trong Informatica Blog.

Giai đoạn 3: Chuyển đổi

4. Tải và Chỉ số: Đây là bước cuối cùng của quy trình Informatica ETL như được thấy trong hình dưới đây. Trong giai đoạn này, chúng tôi đặt dữ liệu đã chuyển đổi vào kho và tạo chỉ mục cho dữ liệu. Có hai loại tải dữ liệu chính có sẵn dựa trên quá trình tải:

  • Tải đầy đủ hoặc tải hàng loạt :Quá trình tải dữ liệu khi chúng tôi thực hiện lần đầu tiên. Công việc trích xuất toàn bộ khối lượng dữ liệu từ bảng nguồn và tải vào kho dữ liệu đích sau khi áp dụng các chuyển đổi cần thiết. Nó sẽ là một công việc chạy một lần sau đó chỉ những thay đổi sẽ được ghi lại như một phần của trích xuất gia tăng.
  • Tải gia tăng hoặc tải làm mới : Dữ liệu được sửa đổi một mình sẽ được cập nhật trong target sau khi tải đầy đủ. Các thay đổi sẽ được ghi lại bằng cách so sánh ngày được tạo hoặc sửa đổi với ngày chạy cuối cùng của công việc.Dữ liệu đã sửa đổi chỉ được trích xuất từ ​​nguồn và sẽ được cập nhật trong mục tiêu mà không ảnh hưởng đến dữ liệu hiện có.

Giai đoạn 4: Tải và Chỉ số

Nếu bạn đã hiểu quy trình Informatica ETL, thì giờ đây chúng tôi có thể hiểu rõ hơn lý do tại sao Informatica là giải pháp tốt nhất trong những trường hợp như vậy.

Các tính năng của Informatica ETL:

Đối với tất cả các hoạt động Tích hợp dữ liệu và ETL, Informatica đã cung cấp cho chúng tôi Informatica PowerCenter . Bây giờ chúng ta hãy xem một số tính năng chính của Informatica ETL:

  • Cung cấp cơ sở để chỉ định một số lượng lớn các quy tắc chuyển đổi với GUI.
  • Tạo chương trình để biến đổi dữ liệu.
  • Xử lý nhiều nguồn dữ liệu.
  • Hỗ trợ các hoạt động khai thác, làm sạch, tổng hợp, tổ chức lại, chuyển đổi và tải dữ liệu.
  • Tự động tạo các chương trình để trích xuất dữ liệu.
  • Tốc độ tải cao của kho dữ liệu mục tiêu.

Dưới đây là một số trường hợp điển hình mà Informatica PowerCenter đang được sử dụng:

  1. Di chuyển dữ liệu:

Một công ty đã mua Ứng dụng phải trả tài khoản mới cho bộ phận tài khoản của mình. PowerCenter có thể di chuyển dữ liệu tài khoản hiện có sang ứng dụng mới. Hình dưới đây sẽ giúp bạn hiểu cách bạn có thể sử dụng Informatica PowerCenter để di chuyển dữ liệu. Informatica PowerCenter có thể dễ dàng lưu giữ dòng dữ liệu cho thuế, kế toán và các mục đích được ủy quyền hợp pháp khác trong quá trình di chuyển dữ liệu.

chương trình vòng tròn trong c

Di chuyển dữ liệu từ ứng dụng Kế toán cũ hơn sang ứng dụng mới

  1. Tích hợp ứng dụng:

Giả sử Công ty A mua Công ty B. Vì vậy, để đạt được lợi ích của việc hợp nhất, hệ thống thanh toán của Công ty B phải được tích hợp vào hệ thống thanh toán của Công ty-A có thể dễ dàng thực hiện bằng cách sử dụng Informatica PowerCenter. Hình dưới đây sẽ giúp bạn hiểu cách bạn có thể sử dụng Informatica PowerCenter để tích hợp các ứng dụng giữa các công ty.

Tích hợp ứng dụng giữa các công ty

  1. Kho dữ liệu

Các hành động điển hình được yêu cầu trong kho dữ liệu là:

  • Tổng hợp thông tin từ nhiều nguồn với nhau để phân tích.
  • Di chuyển dữ liệu từ nhiều cơ sở dữ liệu sang Kho dữ liệu.

Tất cả các trường hợp điển hình trên đều có thể dễ dàng thực hiện bằng Informatica PowerCenter. Dưới đây, bạn có thể thấy Informatica PowerCenter đang được sử dụng để kết hợp dữ liệu từ nhiều loại cơ sở dữ liệu khác nhau như Oracle, SalesForce, v.v. và đưa nó vào một kho dữ liệu chung do Informatica PowerCenter tạo ra.

Dữ liệu Từ các cơ sở dữ liệu khác nhau được tích hợp vào một kho Dữ liệu chung

  1. Phần mềm trung gian

Giả sử một tổ chức bán lẻ đang sử dụng SAP R3 cho các ứng dụng Bán lẻ và SAP BW làm kho dữ liệu. Không thể giao tiếp trực tiếp giữa hai ứng dụng này do thiếu giao diện giao tiếp. Tuy nhiên, Informatica PowerCenter có thể được sử dụng làm Middleware giữa hai ứng dụng này. Trong hình ảnh bên dưới, bạn có thể thấy kiến ​​trúc về cách Informatica PowerCenter đang được sử dụng làm phần mềm trung gian giữa SAP R / 3 và SAP BW. Các Ứng dụng từ SAP R / 3 chuyển dữ liệu của họ sang khung ABAP, sau đó chuyển dữ liệu đó đếnĐiểm bán hàng SAP (POS) và SAPHóa đơn dịch vụ (BOS). Informatica PowerCenter giúp truyền dữ liệu từ các dịch vụ này đến Kho Kinh doanh SAP (BW).

Informatica PowerCenter làm phần mềm trung gian trong kiến ​​trúc bán lẻ SAP

Trong khi bạn đã xem một vài tính năng chính và các kịch bản điển hình của Informatica ETL, tôi hy vọng bạn hiểu tại sao Informatica PowerCenter là công cụ tốt nhất cho quy trình ETL. Bây giờ chúng ta hãy xem một trường hợp sử dụng của Informatica ETL.

Trường hợp sử dụng: Kết hợp hai bảng để có được một bảng chi tiết

Giả sử bạn muốn cung cấp dịch vụ đưa đón các bộ phận một cách khôn ngoan cho nhân viên của mình vì các bộ phận nằm ở nhiều địa điểm khác nhau. Để làm được điều này, trước tiên bạn cần biết mỗi nhân viên thuộc Bộ phận nào và vị trí của bộ phận. Tuy nhiên, thông tin chi tiết của các nhân viên được lưu trữ trong các bảng khác nhau và bạn cần phải kết hợp các chi tiết của Bộ phận với cơ sở dữ liệu hiện có với các chi tiết của tất cả các Nhân viên. Để làm điều này, trước tiên chúng tôi sẽ tải cả hai bảng vào Informatica PowerCenter, thực hiện Chuyển đổi Bộ định nguồn trên dữ liệu và cuối cùng tải chi tiết vào Cơ sở dữ liệu đích.Chúng ta hãy bắt đầu:

Bước 1 : Mở PowerCenter Designer.

Dưới đây là Trang chủ của Informatica PowerCenter Designer.

Bây giờ hãy để chúng tôi kết nối với kho lưu trữ. Trong trường hợp bạn chưa định cấu hình kho lưu trữ của mình hoặc đang gặp bất kỳ vấn đề nào, bạn có thể kiểm tra Blog.

Bước 2: Nhấp chuột phải vào kho lưu trữ của bạn và chọn tùy chọn kết nối.

Khi nhấp vào tùy chọn kết nối, bạn sẽ được nhắc ở màn hình bên dưới, yêu cầu nhập tên người dùng và mật khẩu kho lưu trữ của bạn.

Khi bạn đã kết nối với kho lưu trữ của mình, bạn phải mở thư mục làm việc của mình như hình dưới đây:

Bạn sẽ được nhắc hỏi tên của ánh xạ của bạn. Chỉ định tên ánh xạ của bạn và nhấp vào OK (Tôi đã đặt tên cho nó là m-NHÂN VIÊN ).

Bước 3: Bây giờ chúng ta hãy tải các Bảng từ Cơ sở dữ liệu, Bắt đầu bằng cách kết nối với Cơ sở dữ liệu. Để thực hiện việc này, hãy chọn tab Nguồn và tùy chọn Nhập từ Cơ sở dữ liệu như bên dưới:

Khi nhấp vào Nhập từ Cơ sở dữ liệu, bạn sẽ được nhắc trên màn hình như bên dưới hỏi chi tiết về Cơ sở dữ liệu của bạn và Tên người dùng và Mật khẩu của nó để kết nối (Tôi đang sử dụng cơ sở dữ liệu oracle và người dùng HR).

Nhấp vào Kết nối để kết nối với cơ sở dữ liệu của bạn.

Bước 4: Như tôi muốn tham gia NHÂN VIÊNPHÒNG BAN bảng, tôi sẽ chọn chúng và nhấp vào OK.
Các nguồn sẽ được hiển thị trên không gian làm việc của nhà thiết kế ánh xạ của bạn như được thấy bên dưới.

Bước 5: Tương tự như vậy Tải Bảng Mục tiêu vào Bản đồ.

Bước 6: Bây giờ chúng ta hãy liên kết bộ định lượng Nguồn và bảng mục tiêu. Nhấp chuột phải vào bất kỳ chỗ trống nào của không gian làm việc và chọn Tự động liên kết như hình dưới đây:

Dưới đây là ánh xạ được liên kết bởi Autolink.

Bước 7: Vì chúng ta cần liên kết cả hai bảng với Bộ định lượng nguồn, hãy chọn các cột của bảng Bộ và thả nó vào Bộ định mức nguồn như được thấy bên dưới:

Thả các giá trị cột vào Bộ định lượng nguồn SQ_EMPLOYEES .

Dưới đây là Bộ định mức nguồn được cập nhật.

Bước 8: Nhấp đúp vào Bộ định nguồn để chỉnh sửa chuyển đổi.

Bạn sẽ nhận được cửa sổ Chỉnh sửa Chuyển đổi bật lên như bên dưới. Nhấp vào tab Thuộc tính.

Bước 9: Trong tab Thuộc tính, bấm vào trường Giá trị của hàng Tham gia do Người dùng Xác định.

Bạn sẽ nhận được SQL Editor sau:

Bước 10: Đi vào EMPLOYEES.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID làm điều kiện để nối cả hai bảng trong trường SQL và bấm vào OK.

Bước 11: Bây giờ hãy nhấp vào hàng Truy vấn SQL để tạo SQL để tham gia như hình bên dưới:

Bạn sẽ nhận được SQL Editor sau, Nhấp vào tùy chọn Tạo SQL.

SQL sau sẽ được tạo cho điều kiện mà chúng tôi đã chỉ định trong bước trước. Nhấp vào OK.

Bước 12: Nhấp vào Áp dụng và OK.

Dưới đây là bản đồ đã hoàn thành.

Chúng tôi đã hoàn thành việc thiết kế cách chuyển dữ liệu từ nguồn sang đích. Tuy nhiên, việc truyền dữ liệu thực tế vẫn chưa xảy ra và để làm được điều đó, chúng tôi cần sử dụng Thiết kế quy trình làm việc PowerCenter. Việc thực hiện quy trình làm việc sẽ dẫn đến việc chuyển dữ liệu từ nguồn đến đích. Để biết thêm về quy trình làm việc, hãy xem Hướng dẫn Informatica: Quy trình làm việc Blog

Bước 13: Let chúng tôi bây giờ khởi chạy Trình quản lý quy trình làm việc bằng cách nhấp vào biểu tượng W như bên dưới:

Dưới đây là trang chủ của trình thiết kế quy trình làm việc.

Bước 14: Bây giờ chúng ta hãy tạo một Quy trình làm việc mới để lập bản đồ. Nhấp vào tab Dòng công việc và chọn Tạo tùy chọn.

Bạn sẽ nhận được cửa sổ bật lên bên dưới. Chỉ định tên quy trình làm việc của bạn và nhấp vào OK.

Bước 15 : Sau khi dòng công việc được tạo, chúng tôi nhận được Biểu tượng Bắt đầu trong không gian làm việc của Trình quản lý Dòng công việc.

Bây giờ chúng ta hãy thêm một Phiên mới vào không gian làm việc như bên dưới bằng cách nhấp vào biểu tượng phiên và nhấp vào không gian làm việc:

cấp phát bộ nhớ động trong c ++

Nhấp vào không gian làm việc để đặt biểu tượng Phiên.

Bước 16: Trong khi thêm phiên, bạn phải chọn Ánh xạ bạn đã tạo và lưu ở các bước trên. (Tôi đã lưu nó với tên m-EMPLOYEE).

Dưới đây là không gian làm việc sau khi thêm biểu tượng phiên.

Bước 17 : Bây giờ bạn đã tạo một Phiên mới, chúng ta cần liên kết nó với tác vụ bắt đầu. Chúng ta có thể làm điều đó bằng cách nhấp vào biểu tượng Tác vụ Liên kết như bên dưới:

Nhấp vào biểu tượng Bắt đầu trước rồi nhấp vào biểu tượng Phiên để thiết lập liên kết.

Dưới đây là quy trình làm việc được kết nối.

Bước 18: Bây giờ chúng ta đã hoàn thành thiết kế, chúng ta hãy bắt đầu quy trình làm việc. Bấm vào tab Dòng công việc và chọn tùy chọn Bắt đầu Dòng công việc.

Trình quản lý quy trình làm việc bắt đầu Giám sát quy trình làm việc.

Bước 19 : Khi chúng tôi bắt đầu quy trình làm việc, Trình quản lý quy trình làm việc sẽ tự động khởi chạycho phép bạn giám sát việc thực hiện quy trình làm việc của mình. Dưới đây, bạn có thể thấy Màn hình Dòng công việc hiển thị trạng thái dòng công việc của bạn.

Bước 20: Để kiểm tra trạng thái của dòng công việc, hãy nhấp chuột phải vào dòng công việc và chọn Get Run Properties như hình dưới đây:

Chọn tab Thống kê Nguồn / Mục tiêu.

Dưới đây, bạn có thể thấy số hàng đã được chuyển giữa nguồn và đích sau khi chuyển đổi.

Bạn cũng có thể xác minh kết quả của mình bằng cách kiểm tra bảng mục tiêu của bạn như được thấy bên dưới.

Tôi hy vọng blog Informatica ETL này hữu ích để xây dựng hiểu biết của bạn về các khái niệm ETL bằng cách sử dụng Informatica và đã tạo đủ hứng thú cho bạn để tìm hiểu thêm về Informatica.

Nếu bạn thấy blog này hữu ích, bạn cũng có thể xem loạt blog Hướng dẫn về Informatica của chúng tôi , Hướng dẫn về Informatica: Hiểu về Informatica 'Inside Out'Informatica Transformations: Trái tim và linh hồn của Informatica PowerCenter . Trong trường hợp nếu bạn đang tìm kiếm thông tin chi tiết về Chứng nhận Informatica, bạn có thể kiểm tra blog của chúng tôi Chứng nhận Informatica: Tất cả những gì cần biết .

Nếu bạn đã quyết định chọn Informatica như một sự nghiệp, tôi khuyên bạn nên xem qua trang khóa học. Khóa đào tạo Chứng nhận Informatica tại Edureka sẽ giúp bạn trở thành chuyên gia về Informatica thông qua các buổi học trực tiếp do người hướng dẫn và đào tạo thực hành sử dụng các trường hợp sử dụng thực tế.