Thiết kế hệ thống công cụ tìm kiếm SEO hỗ trợ di động (Nguyễn Thanh Phong vs Nguyễn Ngọc Phượng) - 3
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Thiết kế hệ thống công cụ tìm kiếm SEO hỗ trợ di động (Nguyễn Thanh Phong vs Nguyễn Ngọc Phượng) - 3 - Xóa một tài liệu - Tìm kiếm tài liệu dựa trên DOCID. Tác vụ tìm kiếm được thực hiện thường xuyên, nên cài index cho trường DOCID để tăng tốc độ tìm kiếm.5.6.2.1.2. Cấu trúc từ điển chỉ mục Từ điển chỉ mục chứa danh sách các mục từ, hệ thống thực hiện yêu cầu tìmkiếm dựa trên các mục từ này. Số lượng từ trong tự điển rất lớn và tự điển thườngxuyên được truy xuất nên cần phải có một cấu trúc hợp lý sao cho việc tìm kiếmmột mục từ là nhanh nhất. Tự điển có thể tổ chức theo danh sách tuyến tính được sắp xếp của các mụctừ và thực hiện tìm kiếm nhị phân. Tuy nhiên, khi muốn thêm một mục từ vào cầnphải sắp xếp lại tự điển, điều này rất khó cho việc quản lý tự điển và chi phí tốnkém. Giải pháp là xây dựng tự điển thành cây n phân biến thể thành cây nhị phân đểdễ dàng cho cài đặt và xử lý. Mỗi mục từ trong tự điển có một cấu trúc dữ liệu Info kèm theo, được gắnvào ký tự cuối cùng của mục từ. Cấu trúc Info gồm các trườngsau: struct Info { int n; int nDoc; int signal; int startPage; int endPage; } Trong đó: - n: số lần xuất hiện của mục từ này trong danh sách các trang web mà hệ thống đã lập chỉ mục - nDoc: số tài liệu có chứa mục từ này - signal: xác định thuộc tính của mục từ này, có giá trị 0: mục từ là từ tiếng Anh hoặc từ tiếng Việt; giá trị 2: mục từ là từ stopword - 92 - - startPage: trang bắt đầu trong chuỗi các trang trong file chỉ mục nghịch đảo thuộc về mục từ này - endPage: trang cuối cùng trong danh sách các trang trong file chỉ mục nghịch đảo của mục từ này. Giá trị này sử dụng nhằm tăng tốc độ lập chỉ mục vì từ nó ta có thể truy xuất được đến trang cuối cùng nhanh nhất khi cần thêm tài liệu vào file nghịch đảo, chứ không cần phải duyệt tuần tự danh sách các trang từ trang bắt đầu. Các thao tác chính trên tự điển gồm có - Thêm một mục từ - Xóa một mục từ - Tìm kiếm một mục từ - Cập nhật thông tin một mục từ Tự điển được nạp hoàn toàn vào hệ thống.5.6.2.1.3. Cấu trúc tập tin chỉ mục nghịch đảo Tập tin nghịch đảo lưu trữ danh sách các tài liệu ứng với mục từ để cho hệthống nhanh chóng tìm được danh sách các tài liệu có chứa một mục từ nào đó, tổchức dưới dạng sau: Mục từ Tài liệu, trọng số T1 (2,w1), (3,w2), (4,w3) T2 (3,w4), (4,w5), (5,w6) T3 (2,w7) T4 (1,w9) Bảng 5.6-2: Bảng mục từ Bảng trên có nghĩa là mục từ T1 xuất hiện trong các tài liệu 2, 3, 4 với cáctrọng số tương ứng là w1, w2, w3 - 93 - Tập tin nghịch đảo được tổ chức bằng cách sử dụng một tập tin, trong đódung lượng dành cho mỗi mục từ được cấp phát theo từng trang có kích thước cốđịnh là 1024byte. Như vậy một trang có thể chứa 1024/8 - 1= 127 tài liệu (4 bytechứa DOCID, 4 byte chứa trọng số) Cấu trúc một trang cấp cho từng mục từ trong file chỉ mục nghịch đảo nhưsau: CHIỀU DÀI TÊN TRƯỜNG 4 NextPage 4 NextPos 4 docId1 4 weighT1 4 docId2 4 weighT2 4 docId3 4 weighT3 ……. …… 4 docIdn 4 weighTn Bảng 5.6-3: Cấu trúc trang cho từng mục từ trong tập tin chỉ mục nghịch đảo - NextPos: chỉ đến vị trí trống tiếp theo chưa được sử dụng trên trang này, chỉ có ý nghĩa khi đây là trang cuối. - docIdi (i=1…n): định danh tài liệu có chứa mục từ sở hữu trang này, dựa vào định danh này có thể truy xuất thông tin liên quan đến tài liệu từ bảng định danh tài liệu. - 94 - - weighTi (i=1…n): trọng số của mục từ trong từng tài liệu tương ứng docIdi Như vậy có thể đọc toàn bộ danh sách các tài liệu có chứa một mục từ bằngcách đọc toàn bộ các trang được liên kết theo con trỏ nextPage. Vấn đề còn lại làxác định trang đầu tiên trong chuỗi danh sách này. Giá trị trang đầu tiên được lưutrữ ...
Tìm kiếm theo từ khóa liên quan:
Luận văn CNTT mẫu luận văn giáo trình IT luận văn kinh tế đồ án IT mẫuGợi ý tài liệu liên quan:
-
Đề tài Thực trạng và nhưng giải pháp cho công tác quy hoạch sử dụng đất'
35 trang 216 0 0 -
Bàn về nghiệp vụ bảo hiểm nhân thọ thế giới và các loại hình hiện nay ở Việt Nam -4
8 trang 202 0 0 -
Luận văn tốt nghiệp: Thương mại điện tử trong hoạt động ngoại thương VN-thực trạng và giải pháp
37 trang 197 0 0 -
Giáo trình Phân tích thiết kế hệ thống thông tin (chương 2-bài 2)
14 trang 183 0 0 -
Khóa luận tốt nghiệp: Môi trường đầu tư bất động sản Việt Nam: thực trạng và giải pháp
83 trang 175 0 0 -
Đề tài: Tìm hiểu về thủ tục hải quan điện tử ở Việt Nam
47 trang 173 0 0 -
LUẬN VĂN: Thực trạng và nhưng giải pháp cho công tác quy hoạch sử dụng đất
29 trang 165 0 0 -
Đề tài: Thực trạng và giải pháp nhằm giảm thiểu tình trạng tranh chấp lao động ở Việt Nam
23 trang 154 0 0 -
Luận văn: Nâng cao năng lực cạnh tranh trong dài hạn bằng việc củng cố thị phần trong phân phối
61 trang 150 0 0 -
83 trang 142 0 0
-
Đề tài: Nâng cao chất lượng dịch vụ cho thuê tài chính tại Công ty cho thuê tài chính II
75 trang 141 0 0 -
Giải pháp vè kiến nghị nhằm mở rộng tín dụng xuất khẩu tại Vietcombank Hà nội - 1
10 trang 139 0 0 -
Bài thuyết trình Chính sách tài khóa kinh tế vĩ mô
14 trang 132 0 0 -
108 trang 131 0 0
-
Khóa luận tốt nghiệp: Thực trạng vấn đề bảo vệ quyền lợi người tiêu dùng ở Việt Nam
100 trang 124 0 0 -
95 trang 119 0 0
-
102 trang 119 0 0
-
Đề tài: 'Nâng cao năng lực hoạt động của bộ máy quản lý ở công ty bảo hiểm nhân thọ Thanh Hoá'
84 trang 113 0 0 -
Luận văn: Cơ cầu lao động và các giải pháp kích cầu lao động
31 trang 106 0 0 -
Đề tài: Tìm hiểu môi trường đầu tư Việt Nam - ĐH Ngoại thương
23 trang 105 0 0