Danh mục

Thiết kế hệ thống công cụ tìm kiếm SEO hỗ trợ di động (Nguyễn Thanh Phong vs Nguyễn Ngọc Phượng) - 3

Số trang: 46      Loại file: pdf      Dung lượng: 1.15 MB      Lượt xem: 9      Lượt tải: 0    
Hoai.2512

Phí tải xuống: 23,000 VND Tải xuống file đầy đủ (46 trang) 0
Xem trước 5 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Xóa một tài liệu Tìm kiếm tài liệu dựa trên DOCID. Tác vụ tìm kiếm được thực hiện thường xuyên, nên cài index cho trường DOCID để tăng tốc độ tìm kiếm.5.6.2.1.2. Cấu trúc từ điển chỉ mục Từ điển chỉ mục chứa danh sách các mục từ, hệ thống thực hiện yêu cầu tìm kiếm dựa trên các mục từ này. Số lượng từ trong tự điển rất lớn và tự điển thường xuyên được truy xuất nên cần phải có một cấu trúc hợp lý sao cho việc tìm kiếm một mục từ là nhanh nhất. Tự điển...
Nội dung trích xuất từ tài liệu:
Thiết kế hệ thống công cụ tìm kiếm SEO hỗ trợ di động (Nguyễn Thanh Phong vs Nguyễn Ngọc Phượng) - 3 - Xóa một tài liệu - Tìm kiếm tài liệu dựa trên DOCID. Tác vụ tìm kiếm được thực hiện thường xuyên, nên cài index cho trường DOCID để tăng tốc độ tìm kiếm.5.6.2.1.2. Cấu trúc từ điển chỉ mục Từ điển chỉ mục chứa danh sách các mục từ, hệ thống thực hiện yêu cầu tìmkiếm dựa trên các mục từ này. Số lượng từ trong tự điển rất lớn và tự điển thườngxuyên được truy xuất nên cần phải có một cấu trúc hợp lý sao cho việc tìm kiếmmột mục từ là nhanh nhất. Tự điển có thể tổ chức theo danh sách tuyến tính được sắp xếp của các mụctừ và thực hiện tìm kiếm nhị phân. Tuy nhiên, khi muốn thêm một mục từ vào cầnphải sắp xếp lại tự điển, điều này rất khó cho việc quản lý tự điển và chi phí tốnkém. Giải pháp là xây dựng tự điển thành cây n phân biến thể thành cây nhị phân đểdễ dàng cho cài đặt và xử lý. Mỗi mục từ trong tự điển có một cấu trúc dữ liệu Info kèm theo, được gắnvào ký tự cuối cùng của mục từ. Cấu trúc Info gồm các trườngsau: struct Info { int n; int nDoc; int signal; int startPage; int endPage; } Trong đó: - n: số lần xuất hiện của mục từ này trong danh sách các trang web mà hệ thống đã lập chỉ mục - nDoc: số tài liệu có chứa mục từ này - signal: xác định thuộc tính của mục từ này, có giá trị 0: mục từ là từ tiếng Anh hoặc từ tiếng Việt; giá trị 2: mục từ là từ stopword - 92 - - startPage: trang bắt đầu trong chuỗi các trang trong file chỉ mục nghịch đảo thuộc về mục từ này - endPage: trang cuối cùng trong danh sách các trang trong file chỉ mục nghịch đảo của mục từ này. Giá trị này sử dụng nhằm tăng tốc độ lập chỉ mục vì từ nó ta có thể truy xuất được đến trang cuối cùng nhanh nhất khi cần thêm tài liệu vào file nghịch đảo, chứ không cần phải duyệt tuần tự danh sách các trang từ trang bắt đầu. Các thao tác chính trên tự điển gồm có - Thêm một mục từ - Xóa một mục từ - Tìm kiếm một mục từ - Cập nhật thông tin một mục từ Tự điển được nạp hoàn toàn vào hệ thống.5.6.2.1.3. Cấu trúc tập tin chỉ mục nghịch đảo Tập tin nghịch đảo lưu trữ danh sách các tài liệu ứng với mục từ để cho hệthống nhanh chóng tìm được danh sách các tài liệu có chứa một mục từ nào đó, tổchức dưới dạng sau: Mục từ Tài liệu, trọng số T1 (2,w1), (3,w2), (4,w3) T2 (3,w4), (4,w5), (5,w6) T3 (2,w7) T4 (1,w9) Bảng 5.6-2: Bảng mục từ Bảng trên có nghĩa là mục từ T1 xuất hiện trong các tài liệu 2, 3, 4 với cáctrọng số tương ứng là w1, w2, w3 - 93 - Tập tin nghịch đảo được tổ chức bằng cách sử dụng một tập tin, trong đódung lượng dành cho mỗi mục từ được cấp phát theo từng trang có kích thước cốđịnh là 1024byte. Như vậy một trang có thể chứa 1024/8 - 1= 127 tài liệu (4 bytechứa DOCID, 4 byte chứa trọng số) Cấu trúc một trang cấp cho từng mục từ trong file chỉ mục nghịch đảo nhưsau: CHIỀU DÀI TÊN TRƯỜNG 4 NextPage 4 NextPos 4 docId1 4 weighT1 4 docId2 4 weighT2 4 docId3 4 weighT3 ……. …… 4 docIdn 4 weighTn Bảng 5.6-3: Cấu trúc trang cho từng mục từ trong tập tin chỉ mục nghịch đảo - NextPos: chỉ đến vị trí trống tiếp theo chưa được sử dụng trên trang này, chỉ có ý nghĩa khi đây là trang cuối. - docIdi (i=1…n): định danh tài liệu có chứa mục từ sở hữu trang này, dựa vào định danh này có thể truy xuất thông tin liên quan đến tài liệu từ bảng định danh tài liệu. - 94 - - weighTi (i=1…n): trọng số của mục từ trong từng tài liệu tương ứng docIdi Như vậy có thể đọc toàn bộ danh sách các tài liệu có chứa một mục từ bằngcách đọc toàn bộ các trang được liên kết theo con trỏ nextPage. Vấn đề còn lại làxác định trang đầu tiên trong chuỗi danh sách này. Giá trị trang đầu tiên được lưutrữ ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: