Data Warehouse là gì?
Nói một cách đơn giản, Data Warehouse là hệ thống cơ sở dữ liệu (kho dữ liệu) máy tính được thiết kế, sắp xếp có mục đích và định hướng rõ ràng của một tổ chức nhằm mục đích quản lý, cung cấp thông tin một cách kịp thời, chính xác, đồng thời là nền tảng cho việc xây dựng các ứng dụng phân tích dữ liệu, hỗ trợ ra quyết định.
Theo John Ladley [9], Công nghệ kho dữ liệu (Data Warehouse Technology) là tập các phương pháp, kỹ thuật và các công cụ có thể kết hợp, hỗ trợ nhau để cung cấp thông tin cho người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau.
Kho dữ liệu thường rất lớn tới hàng trăm GB hay thậm chí hàng Terabyte. Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước.
Đặc tính của kho dữ liệu
Trước hết ta tìm hiểu khái niệm về vùng chủ đề (Subject Area – SA): một SA là một chủ đề được tách ra từ tập hợp lớn các chủ đề mà người sử dụng cuối quan tâm trong một lĩnh vực tác nghiệp cụ thể nào đó.
Những đặc điểm cơ bản của DWH:
• Tính tích hợp:
Khái niệm tích hợp có nghĩa là kho dữ liệu có khả năng thu thập dữ liệu từ nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất.
Một kho dữ liệu là một khung nhìn tổng thể thống nhất các khung nhìn khác nhau. Ví dụ: một hệ thống tác nghiệp như bán hàng hoặc tiếp thị có thể có chung một dạng thông tin về khách hàng, nhưng các vấn đề về tài chính cần một khung nhìn khác cho thông tin về khách hàng. Một kho sẽ có một khung nhìn toàn thể về một khách hàng. Khung nhìn đó bao gồm các phần dữ liệu khác nhau từ các hệ thống tác nghiệp khác nhau.
• Gắn thời gian:
Mỗi bản ghi của kho dữ liệu chứa một yếu tố thời gian như một phần của khóa chính để bảo đảm tính duy nhất của mỗi bản ghi và cung cấp một đặc trưng về thời gian cho dữ liệu. Toàn bộ dữ liệu trong kho được tạo ra và gắn liền với một giá trị thời gian nhất định.
• Có tính lịch sử:
Các thông tin trong kho dữ liệu được tập trung theo thời gian và thể hiện một khung nhìn của một chủ đề trong một giai đoạn.
• Chỉ đọc:
Dữ liệu trong kho là dữ liệu chỉ đọc và chỉ có thể tra cứu, không được sửa đổi bởi người sử dụng cuối.
• Không biến động:
Tính không biến động của kho dữ liệu được hiểu theo nghĩa: dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xóa, điều đó cho phép cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích, dự báo.
• Dữ liệu tổng hợp và chi tiết:
Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu. Dữ liệu tác nghiệp chính là thông tin mức thấp nhất. Dữ liệu tổng hợp được tích hợp lại qua nhiều giai đoạn khác nhau.
Kho dữ liệu và các cơ sở dữ liệu
DWH về bản chất cũng là một database bình thường, các hệ quản trị cơ sở dữ liệu quản lý và lưu trữ nó như các database thông thường (tuy nhiên có hỗ trợ thêm về quản lý dữ liệu lớn và truy vấn). Thực ra nét khác biệt của DWH so với database là ở quan niệm, cách nhìn vấn đề:
– Trước tiên DWH là database rất lớn (very large database-VLDB).
– Database hướng về xử lý thời gian thực, DWH hướng về tính ổn định.
– phục vụ xử lý transaction, cập nhật. Datawarehouse thường chỉ đọc, phục vụ cho những nhu cầu báo cáo. VD: Chúng ta sẽ yêu cầu hãy cho biết trong 5 năm, bộ phận phần mềm đã làm được những dự án nào từ đó chúng ta sẽ có quyết định về hiệu năng của nhóm này.
– DWH sẽ lấy thông tin có thể từ nhiều nguồn khác nhau: DB2, Oracle, SQLserver thậm chí cả File thông thưởng rồi làm sạch chúng và đưa vào cấu trúc của nó-đó là VLDB(very large database). DWH rất lớn nên muốn cho từng bộ phận chuyên biệt người sử dụng cuối cùng có thể khai thác thông dễ dàng thì bản thân DWH phải được chuyên hoá, phân ra thành những chủ đề, do đó những chủ đề chuyên môn hóa đó tạo thành một Database chuyên biệt-đó là Data mart. VD: DWH của Microsoft là rất lớn, trong một núi thông tin đó làm sao khai thác? Vì thế có rất nhiều Data mart về kinh doanh, tiếp thị, kỹ thuật, testing,…. Có một điểm lưu ý ở đây là có một công cụ hay đúng hơn là một chuẩn công cụ mà mọi hệ quản trị Database hỗ trợ cho việc truy vấn thông tin trong Datamart rồi đưa ra những quyết định, nhận dịnh những thông tin trong Datamart – Đó là OLAP, bộ phân tích trực tuyến.
– Một điểm quan trọng là Database thường được chuẩn hóa (Dạng chuẩn 1, 2, 3, BCK) để khai thác. DWH phải phi chuẩn hoá rồi sau đó có thể chuẩn hoá theo start chema trong Data mart, điều này đồng nghĩa với việc DWH sẽ trùng lắp thông tin. Thật ra điều này là hiển nhiên vì việc chuẩn hoá nhằm tránh sự trùng lắp thông tin, do đó sẽ nhất quán trong việc cập nhật, thêm, xoá, sửa, tuy nhiên DWH là Database rất lớn phục vụ cho báo cáo, truy vấn chỉ đọc nên việc trùng lắp thông tin sẽ giúp thao tác tìm kiếm sẽ nhanh hơn. Đây cũng là một quy luật: Càng trùng lắp thông tin thì tìm kiếm càng dễ dàng và ngược lại.
Lợi ích của kho dữ liệu
Tạo ra những quyết định có ảnh hưởng lớn: Một DWH cho phép trích rút tài nguyên nhân lực và máy tính theo yêu cầu để cung cấp các câu truy vấn và các báo cáo dựa vào cơ sở dữ liệu hoạt động và sản xuất. Điều này tạo ra sự tiết kiệm đáng kể. Có kho dữ liệu cũng trích rút tài nguyên khan hiếm của hệ thống sản xuất khi thực thi một chương trình quá lâu hoặc các báo cáo và các câu truy vấn phức hợp.
Công việc kinh doanh trở nên thông minh hơn: Tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh doanh do phát sinh từ cấu trúc dữ liệu đa tầng của kho dữ liệu, đó là nơi cung cấp dữ liệu được sắp xếp từ mức độ chi tiết của công việc kinh doanh cho đến mức độ cao hơn – mức độ tổng quát. Đảm bảo được dữ liệu chính xác và đáng tin cậy do đảm bảo được là trong kho dữ liệu chỉ chứa duy nhất dữ liệu có chất lượng cao và ổn định (trusted data).
Dịch vụ khách hàng được nâng cao: Một doanh nghiệp có thể giữ gìn mối quan hệ với khách hàng tốt hơn do có mối tương quan với dữ liệu của tất cả khách hàng qua một kho dữ liệu riêng.
Tái sáng tạo những tiến trình kinh doanh: Sự cho phép phân tích không ngừng thông tin kinh doanh thường cung cấp sự hiểu biết mọi mặt của phương thức kinh doanh do đó có thể làm nảy sinh ra những ý kiến cho sự sáng tạo ra những tiến trình này lại. Chỉ khi xác định chính xác các nhu cầu từ kho dữ liệu thì mới giúp ta đánh giá được những hạn chế và mục tiêu kinh doanh một cách chính xác hơn.
Tái sáng tạo hệ thống thông tin: Một DWH là nền tảng cho các yêu cầu dữ liệu trong mọi lĩnh vực kinh doanh, nó cung cấp một chi phí ảnh hưởng nghĩa là đưa ra thói quen cho cho cả hai sự chuẩn hóa dữ liệu và sự chuẩn hóa hoạt động của hệ điều hành theo chuẩn quốc tế.
Kho dữ liệu hiện nay
Ngày nay, hầu hết các kho dữ liệu đang được dùng cho quản trị doanh nghiệp thông minh làm tăng mối quan hệ khách hàng (CRM – Customer Relationship Management) và khai thác dữ liệu. Một số được sử dụng để báo cáo tổng hợp, một số được sử dụng để tích hợp dữ liệu. Các cách sử dụng này đều tương quan với nhau; ví dụ, quản trị doanh nghiệp thông minh (Business Intelligence – BI) và CRM sử dụng khai thác dữ liệu, kinh doanh thông minh sử dụng báo cáo, còn BI và CRM còn sử dụng tích hợp dữ liệu. Trong các phần sau sẽ mô tả cách sử dụng chính, bao gồm quản trị doanh nghiệp thông minh, CRM và khai thác dữ liệu.
• Quản trị doanh nghiệp thông minh:
Dường như nhiều nhà cung cấp thích dùng quản trị doanh nghiệp thông minh hơn là DWH. Nói cách khác, họ tập trung hơn vào việc xem DWH có thể làm gì cho doanh nghiệp. Nhiều DWH hiện nay được dùng cho BI: giúp nhà kinh doanh hiểu công việc kinh doanh của họ hơn; giúp họ đưa ra các quyết định hành động, chiến lược, và mục tiêu kinh doanh tốt hơn; giúp họ cải tiến hoạt động kinh doanh.
Một số các nhà lãnh đạo doanh nghiệp ngày nay ra quyết định dựa trên dữ liệu. Và 1 công cụ quản trị doanh nghiệp thông minh chạy và vận hành trên của kho dữ liệu có thể là một công cụ hỗ trợ tốt cho mục đích đó. Điều này có được là do sử dụng báo cáo và OLAP. Báo cáo DWH được sử dụng để đưa ra số liệu kinh doanh đã tổng hợp trong DWH tới những người kinh doanh. OLAP cho phép doanh nghiệp phân tích sự ảnh hưởng lẫn nhau của dữ liệu giao dịch kinh doanh được lưu trữ trong DWH đa chiều.
• Quản lý mối quan hệ khách hàng:
Một hệ thống quản lý mối quan hệ khách hàng (CRM – Customer Relationship Management) gồm có những ứng dụng mà hỗ trợ quản lý mối quan hệ khách hàng. Trong một hệ thống CRM, chức năng lý tưởng sau đây được xây dựng trong một DWH đa chiều:
- Đồng nhất khách hàng.
- Quản lý cho phép.
- Phân đoạn chiến dịch.
- Dịch vụ/hỗ trợ khách hàng.
- Phân tích khách hàng.
- Cá nhân hóa,…
• Khai phá dữ liệu:
Data Mining là quá trình tìm kiếm các mẫu mới, những thông tin tiềm ẩn mang tính dự đoán trong các khối dữ liệu lớn. Những công cụ data mining có thể phát hiện những xu hướng trong tương lai, các tri thức mà data mining mang lại cho các doanh nghiệp có thể ra các quyết định kịp thời và trả lời những câu hỏi trong lĩnh vực kinh doanh mà trước đây tốn nhiều thời gian để xử lý. Với ưu điểm trên, Data mining đã chứng tỏ được tính hữu dụng của nó trong môi trường kinh doanh đầy tính cạnh tranh ngày nay và được ứng dụng rộng rãi trong các lĩnh vực thương mại, tài chính, điều trị y học, giáo dục, viễn thông,…
• Quản lý dữ liệu chủ:
Trong hệ thống OLTP, có hai loại dữ liệu: dữ liệu giao dịch và dữ liệu chủ. Dữ liệu giao dịch ghi các sự kiện kinh doanh. Dữ liệu chủ bao gồm các thực thể mô tả các sự kiện kinh doanh. Dữ liệu chủ bao gồm những câu trả lời của những câu hỏi của ai, cái gì, và ở đâu về một giao dịch kinh doanh.
Ví dụ: Trong cửa hàng âm nhạc trực tuyến, sự kiện kinh doanh là một khách hàng mua một bài hát đây là dữ liệu giao dịch. Dữ liệu chủ là khách hàng, sản phẩm, nhãn hiệu.
MDM là quá trình chiết, làm sạch, lưu trữ, cập nhật, và phân phối dữ liệu chủ. Một hệ thống MDM khôi phục dữ liệu chủ từ hệ thống OLTP. Hệ thống MDM cũng cố dữ liệu chủ và xử lý dữ liệu thông qua việc định nghĩa trước các quy tắc về chất lượng dữ liệu. Dữ liệu chủ sau đó được nạp tới DWH chủ. Bất kỳ sự thay đổi nào trên dữ liệu chủ trong hệ thống OLTP được gửi tới hệ thống MDM, và DWH chủ được cập nhật để phản ánh những thay đổi đó. Hệ thống MDM sau đó chuyển dữ liệu chính tới những hệ thống khác.
• Tích hợp dữ liệu khách hàng:
Tích hợp dữ liệu khách hàng (CDI- Customer Data Integration) là MDM cho dữ liệu khách hàng. CDI là một quá trình chiết, làm sạch, lưu trữ, duy trì, và phân phối dữ liệu của khách hàng. CDI hệ thống chiết dữ liệu khách hàng từ hệ thống OLTP, làm sạch nó, lưu trữ trong một kho dữ liệu khách hàng chính, duy trì dữ liệu khách hàng, lưu giữ và phân phối các dữ liệu khách hàng cho các hệ thống khác.
Hệ thống CDI cho phép chúng ta có một phiên bản dữ liệu khách hàng sạch hơn, duy nhất, đáng tin cậy mà các ứng dụng khác trong các doanh nghiệp có thể sử dụng. Điều này cũng có thể gia tăng lợi ích kinh doanh chẳng hạn như tăng sự hài lòng của khách hàng và phân tích kinh doanh tốt hơn, và nó làm giảm sự phức tạp của các quá trình sử dụng dữ liệu khách hàng. Tất cả các loại khác nhau của quản lý dữ liệu chính, CDI là sử dụng rộng rãi nhất bởi vì mỗi tổ chức có khách hàng. CDI cung cấp dữ liệu tích hợp sạch cho quản lý mối quan hệ khách hàng.