Tìm kiếm toàn văn bản XML trong DB2
Số trang: 42
Loại file: pdf
Dung lượng: 375.93 KB
Lượt xem: 9
Lượt tải: 0
Xem trước 5 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Holger Seubert, Kỹ sư phần mềm, IBM Sabine Perathoner-Tschaffler, Kỹ sư phần mềm, IBM Tóm tắt: Với sự hỗ trợ của các tài liệu XML lưu trữ tự nhiên, DB2® 9 của IBM® có một bước tiến hóa theo hướng hệ thống cơ sở dữ liệu lai. XQuery, một ngôn ngữ chính mới trong DB2, cho phép làm việc theo cách tối ưu với XML. Tuy nhiên, XML cũng thường chứa các phần văn bản lớn không dễ tìm kiếm được bằng XQuery. Để tìm kiếm có hiệu quả các phần tài liệu không có cấu trúc này, DB2...
Nội dung trích xuất từ tài liệu:
Tìm kiếm toàn văn bản XML trong DB2 Tìm kiếm toàn văn bản XML trong DB2Holger Seubert, Kỹ sư phần mềm, IBMSabine Perathoner-Tschaffler, Kỹ sư phần mềm, IBMTóm tắt: Với sự hỗ trợ của các tài liệu XML lưu trữ tự nhiên, DB2® 9 củaIBM® có một bước tiến hóa theo hướng hệ thống cơ sở dữ liệu lai. XQuery, mộtngôn ngữ chính mới trong DB2, cho phép làm việc theo cách tối ưu với XML. Tuynhiên, XML cũng thường chứa các phần văn bản lớn không dễ tìm kiếm đượcbằng XQuery. Để tìm kiếm có hiệu quả các phần tài liệu không có cấu trúc này,DB2 cung cấp một giải pháp tìm kiếm toàn văn bản. Bài viết này tập trung vào cácvấn đề cơ bản về tìm kiếm văn bản của DB2, bao gồm cả việc tạo và quản trị chỉmục văn bản. Bài viết này cùng tìm hiểu sâu về các tính năng cụ thể của việc tìmkiếm toàn văn bản của DB2, chẳng hạn như tìm kiếm các từ khóa hoặc các cụm từtrong cấu trúc tài liệu XML với tìm kiếm mờ, tìm kiếm gần đúng và tìm gốc củatừ.XQuery, tiêu chuẩn W3C để truy cập dữ liệu XML, cung cấp nhiều biểu thức khácnhau để tìm vị trí và truy vấn các tài liệu XML. Hơn nữa bạn có thể sử dụng sứcmạnh của ngôn ngữ này để tìm ra các tài liệu XML dựa vào tiêu chuẩn tìm kiếmtoàn văn bản được không? Câu trả lời vẫn ch ưa có. Hiện nay vẫn không có sự hỗtrợ nào cho các tính năng tìm kiếm toàn văn bản trong XQuery. Lý do của điềunày nằm trong Mô hình dữ liệu XQuery (XQuery Data Model), dùng làm cơ sởcho mọi biểu thức XQuery. Để có thể tìm kiếm có hiệu quả dữ liệu toàn văn bản,cần có thông tin về các từ riêng lẻ tạo thành nội dung văn bản của dữ liệu đó và vịtrí của chúng. Tuy nhiên, trong Mô hình dữ liệu XQuery, văn bản chỉ đơn giản làmột hộp đen. Mô hình dữ liệu không có khái niệm nào về các từ hoặc các thẻ ởbên trong một nút văn bản; nó chỉ biểu diễn nội dung văn bản của một phần tửhoặc thuộc tính như là một nút kề nhau.Vì vậy, XQuery có thể không cung cấp thứ gì tốt hơn so với việc phối hợp chuỗiký tự-con. Chức năng này được triển khai thực hiện với hàm contains() có sẵn,hàm này lấy một ngữ cảnh và một thời hạn tìm kiếm làm các tham số.Do DB2 9 hỗ trợ XQuery như là ngôn ngữ chính, nên có thể thực hiện biểu thứcXQuery sau đây trong một cửa sổ lệnh của DB2:db2 => XQuery contains(The power of XML, owe)Như đã đề cập ở trên, hàm contains() triển khai thực hiện phối hợp chuỗi ký tự-con và do đó trả về giá trị true (đúng) cho truy vấn ở trên. Mặc dù người sử dụngtìm kiếm thuật ngữ owe, kết quả lại là power và v.v.. cũng do hàm contains()trả về, hàm này có thể dẫn đến các kết quả tìm kiếm mà bạn thực sự không muốntìm kiếm. Vẫn chưa có tiêu chuẩn nào bao gồm chức năng tìm kiếm văn bản trongngôn ngữ XQuery. Rõ ràng, đây là một nhiệm vụ của Phiên bản 1 của XQuery sau,đã bắt đầu trong một nhóm làm việc riêng biệt: toàn văn bản XQuery 1.0 và XPath2.0.Trong khi chờ đợi tiêu chuẩn mới này, hiện nay bạn có thể làm gì để tìm ra các tàiliệu XML có liên quan dựa vào các từ khoá và cụm từ? Phần dưới đây đưa ra mộttổng quan ngắn gọn về chức năng tìm kiếm toàn văn bản của DB2, giúp cho cókhả năng tìm kiếm văn bản nhận biết-cấu trúc trên XML.Trình mở rộng tìm kiếm Net của DB2 rút gọn lạiKhi nói đến các tài liệu XML tìm kiếm văn bản, hãy xem xét cả hai cấu trúc nộidung và cấu trúc tài liệu thực tế. Một kịch bản điển hình là giới hạn việc tìm kiếmvăn bản theo một phần tử cụ thể hoặc cây con của cấu trúc toàn bộ tài liệu XML,giống như:Hãy tìm tất cả các tài liệu có từ XML và database trong phần tử abstract (trừutượng), cụm từ text search (tìm kiếm văn bản) và Viper Release (Phiên bảnViper) trong phần tử title (tiêu đề) và cả hai từ phải ở trong cùng một câu.Việc tìm kiếm toàn văn bản nhận biết-cấu trúc như vậy trên tài liệu XML trongDB2 được triển khai thực hiện với Trình mở rộng tìm kiếm Net (Net SearchExtender - NSE) của DB2, một tính năng được cài đặt riêng rẽ đi kèm với DB2.Việc tìm kiếm văn bản được tích hợp trong SQL và được tối ưu hóa bằng trình tốiưu hóa của DB2 trong thời gian chạy. Các nhiệm vụ quản trị, chẳng hạn nh ư việctạo và bảo trì chỉ mục, có thể được thực hiện bằng cách sử dụng Trung tâm Kiểmsoát DB2.Khi sử dụng SQL, Net Search Extender tìm kiếm dữ liệu văn bản đã được lưu giữtrong cột của một bảng cơ sở dữ liệu. Thay vì tìm kiếm liên tục thông qua dữ liệuvăn bản bằng cách sử dụng phối hợp chuỗi ký tự, như đã thực hiện bằng hàmXQuery contains(), Net Search Extender sử dụng một chỉ mục văn bản. Việc sửdụng một chỉ mục văn bản làm cho việc tìm kiếm tài liệu hiệu quả hơn nhiều, dokhông cần kiểm tra dữ liệu văn bản lúc truy vấn giống như khi thực hiện nó bằngphối hợp chuỗi ký tự-con. Một chỉ mục văn bản thường bao gồm thông tin về cácsố hạng liên quan được trích xuất từ các tài liệu văn bản. Trong các trường hợpXML, không chỉ các số hạng quan trọng, mà còn cả vị trí của chúng trong cấu trúctài liệu XML được duy trì trong chỉ mục văn bản.Bây giờ bạn đã quen thuộc với các nguyên tắc cơ bản của Net Sea ...
Nội dung trích xuất từ tài liệu:
Tìm kiếm toàn văn bản XML trong DB2 Tìm kiếm toàn văn bản XML trong DB2Holger Seubert, Kỹ sư phần mềm, IBMSabine Perathoner-Tschaffler, Kỹ sư phần mềm, IBMTóm tắt: Với sự hỗ trợ của các tài liệu XML lưu trữ tự nhiên, DB2® 9 củaIBM® có một bước tiến hóa theo hướng hệ thống cơ sở dữ liệu lai. XQuery, mộtngôn ngữ chính mới trong DB2, cho phép làm việc theo cách tối ưu với XML. Tuynhiên, XML cũng thường chứa các phần văn bản lớn không dễ tìm kiếm đượcbằng XQuery. Để tìm kiếm có hiệu quả các phần tài liệu không có cấu trúc này,DB2 cung cấp một giải pháp tìm kiếm toàn văn bản. Bài viết này tập trung vào cácvấn đề cơ bản về tìm kiếm văn bản của DB2, bao gồm cả việc tạo và quản trị chỉmục văn bản. Bài viết này cùng tìm hiểu sâu về các tính năng cụ thể của việc tìmkiếm toàn văn bản của DB2, chẳng hạn như tìm kiếm các từ khóa hoặc các cụm từtrong cấu trúc tài liệu XML với tìm kiếm mờ, tìm kiếm gần đúng và tìm gốc củatừ.XQuery, tiêu chuẩn W3C để truy cập dữ liệu XML, cung cấp nhiều biểu thức khácnhau để tìm vị trí và truy vấn các tài liệu XML. Hơn nữa bạn có thể sử dụng sứcmạnh của ngôn ngữ này để tìm ra các tài liệu XML dựa vào tiêu chuẩn tìm kiếmtoàn văn bản được không? Câu trả lời vẫn ch ưa có. Hiện nay vẫn không có sự hỗtrợ nào cho các tính năng tìm kiếm toàn văn bản trong XQuery. Lý do của điềunày nằm trong Mô hình dữ liệu XQuery (XQuery Data Model), dùng làm cơ sởcho mọi biểu thức XQuery. Để có thể tìm kiếm có hiệu quả dữ liệu toàn văn bản,cần có thông tin về các từ riêng lẻ tạo thành nội dung văn bản của dữ liệu đó và vịtrí của chúng. Tuy nhiên, trong Mô hình dữ liệu XQuery, văn bản chỉ đơn giản làmột hộp đen. Mô hình dữ liệu không có khái niệm nào về các từ hoặc các thẻ ởbên trong một nút văn bản; nó chỉ biểu diễn nội dung văn bản của một phần tửhoặc thuộc tính như là một nút kề nhau.Vì vậy, XQuery có thể không cung cấp thứ gì tốt hơn so với việc phối hợp chuỗiký tự-con. Chức năng này được triển khai thực hiện với hàm contains() có sẵn,hàm này lấy một ngữ cảnh và một thời hạn tìm kiếm làm các tham số.Do DB2 9 hỗ trợ XQuery như là ngôn ngữ chính, nên có thể thực hiện biểu thứcXQuery sau đây trong một cửa sổ lệnh của DB2:db2 => XQuery contains(The power of XML, owe)Như đã đề cập ở trên, hàm contains() triển khai thực hiện phối hợp chuỗi ký tự-con và do đó trả về giá trị true (đúng) cho truy vấn ở trên. Mặc dù người sử dụngtìm kiếm thuật ngữ owe, kết quả lại là power và v.v.. cũng do hàm contains()trả về, hàm này có thể dẫn đến các kết quả tìm kiếm mà bạn thực sự không muốntìm kiếm. Vẫn chưa có tiêu chuẩn nào bao gồm chức năng tìm kiếm văn bản trongngôn ngữ XQuery. Rõ ràng, đây là một nhiệm vụ của Phiên bản 1 của XQuery sau,đã bắt đầu trong một nhóm làm việc riêng biệt: toàn văn bản XQuery 1.0 và XPath2.0.Trong khi chờ đợi tiêu chuẩn mới này, hiện nay bạn có thể làm gì để tìm ra các tàiliệu XML có liên quan dựa vào các từ khoá và cụm từ? Phần dưới đây đưa ra mộttổng quan ngắn gọn về chức năng tìm kiếm toàn văn bản của DB2, giúp cho cókhả năng tìm kiếm văn bản nhận biết-cấu trúc trên XML.Trình mở rộng tìm kiếm Net của DB2 rút gọn lạiKhi nói đến các tài liệu XML tìm kiếm văn bản, hãy xem xét cả hai cấu trúc nộidung và cấu trúc tài liệu thực tế. Một kịch bản điển hình là giới hạn việc tìm kiếmvăn bản theo một phần tử cụ thể hoặc cây con của cấu trúc toàn bộ tài liệu XML,giống như:Hãy tìm tất cả các tài liệu có từ XML và database trong phần tử abstract (trừutượng), cụm từ text search (tìm kiếm văn bản) và Viper Release (Phiên bảnViper) trong phần tử title (tiêu đề) và cả hai từ phải ở trong cùng một câu.Việc tìm kiếm toàn văn bản nhận biết-cấu trúc như vậy trên tài liệu XML trongDB2 được triển khai thực hiện với Trình mở rộng tìm kiếm Net (Net SearchExtender - NSE) của DB2, một tính năng được cài đặt riêng rẽ đi kèm với DB2.Việc tìm kiếm văn bản được tích hợp trong SQL và được tối ưu hóa bằng trình tốiưu hóa của DB2 trong thời gian chạy. Các nhiệm vụ quản trị, chẳng hạn nh ư việctạo và bảo trì chỉ mục, có thể được thực hiện bằng cách sử dụng Trung tâm Kiểmsoát DB2.Khi sử dụng SQL, Net Search Extender tìm kiếm dữ liệu văn bản đã được lưu giữtrong cột của một bảng cơ sở dữ liệu. Thay vì tìm kiếm liên tục thông qua dữ liệuvăn bản bằng cách sử dụng phối hợp chuỗi ký tự, như đã thực hiện bằng hàmXQuery contains(), Net Search Extender sử dụng một chỉ mục văn bản. Việc sửdụng một chỉ mục văn bản làm cho việc tìm kiếm tài liệu hiệu quả hơn nhiều, dokhông cần kiểm tra dữ liệu văn bản lúc truy vấn giống như khi thực hiện nó bằngphối hợp chuỗi ký tự-con. Một chỉ mục văn bản thường bao gồm thông tin về cácsố hạng liên quan được trích xuất từ các tài liệu văn bản. Trong các trường hợpXML, không chỉ các số hạng quan trọng, mà còn cả vị trí của chúng trong cấu trúctài liệu XML được duy trì trong chỉ mục văn bản.Bây giờ bạn đã quen thuộc với các nguyên tắc cơ bản của Net Sea ...
Tìm kiếm theo từ khóa liên quan:
quản trị dữ liệu lập trình XML ngôn ngữ SQL data base hệ quản trị lưu trữ dữ liệu bộ nhớGợi ý tài liệu liên quan:
-
Đáp án đề thi học kỳ 2 môn cơ sở dữ liệu
3 trang 314 1 0 -
PHÂN TÍCH THIẾT KẾ HỆ THỐNG XÂY DỰNG HỆ THỐNG ĐẶT VÉ TÀU ONLINE
43 trang 281 2 0 -
8 trang 268 0 0
-
6 trang 174 0 0
-
Hướng dẫn tạo file ghost và bung ghost
12 trang 155 0 0 -
Hướng dẫn sử dụng Mapinfo Professional-Phần cơ bản
57 trang 86 0 0 -
Phát triển Java 2.0: Phân tích dữ liệu lớn bằng MapReduce của Hadoop
12 trang 73 0 0 -
Giáo trình Nhập môn cơ sở dữ liệu: Phần 2 - Trần Thành Trai
145 trang 69 0 0 -
150 trang 68 0 0
-
Đồ án tốt nghiệp ngành Công nghệ thông tin: Áp dụng các kỹ thuật trong big data vào lưu trữ dữ liệu
96 trang 67 1 0