Danh mục

multibooks - tổng hợp it - pc part 22

Số trang: 6      Loại file: pdf      Dung lượng: 200.19 KB      Lượt xem: 12      Lượt tải: 0    
tailieu_vip

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

giáo trình multibooks - tổng hợp it. bài giảng multimedia, cẩm nang microsoft office word 2007, ubuntu, kĩ nghệ đóng gói sotfs, python, the openbsd 4.0 crash course (2007), w7, wvista. bao gồm hệ thống các bài giảng, tips - sẽ hướng dẫn các bạn cụ thể, hiệu quả về các vấn đề trong chương trình mà cập nhật tới. Đây sẽ là 1 quyển sách cần thiết đối với các bạn mún theo môn học này.
Nội dung trích xuất từ tài liệu:
multibooks - tổng hợp it - pc part 22 Giả sử di và dj là hai tài liệu. Tính tương tự của hai tài liệu theo biểu diễn SVD TS* x D*T của bảng tần số được cho bởi giá trị tích vô hướng hai cột trong ma trận D*T kết hợp với hai tài liệu đó: Ở đây ma trận đơn sau khi rút gọn sẽ có kích thước (R x R). Chú ý rằng thay vì so sánh toàn bộ M khái niệm cho hai tài liệu này, ta chỉ so sánh R khái niệm, nó là số nhỏ hơn M rất nhiều (thông thường là 200). Tìm kiếm phù hợp p đầu tiên cho truy vấn Q Giả sử Q là truy vấn. Ta coi Q như tài liệu và tạo lập véctơ vecQ cho nó như trên đây. Tuy nhiên, có một điểm khác là: Chỉ R khái niệm quan trọng là được xem xét chứ không phải xem xét tất cả N. Khi được hỏi để tìm ra p khái niệm phù hợp nhất với Q, ta sẽ phải tìm p tài liệu da(1), ...,da(p) như sau: 1. Với mọi 1 £ i £ j £ p, tính tương tự giữa vecQ và da(i) lớn hơn hay bằng tính tương tự giữa vecQ và da(j) , và 2. không có tài liệu dz nào mà tính tương tự giữa dz và vecQ vượt quá tính tương tự của da(p) Điều này có thể thực hiện bằng sử dụng bất kỳ cấu trúc chỉ số hoá nào cho không gian R-d. Cấu trúc chỉ số hoá như vậy bao gồm cây R, cây k-d như đã nghiên cứu trước đây. Tuy nhiên, tổng quát thì cấu trúc chỉ số hóa như cây R và k-d không làm việc tốt với dữ liệu có số chiều ³ 20. Do vậy cần phải có kỹ thuật nào đó tốt hơn. Cây TV (TV-tree) được mô tả sau đây là cấu trúc chỉ số hoá phù hợp hơn cho loại dữ liệu nhiều chiều này. 4.4 Cây TV (TV-tree) Mục tiêu cơ bản của cây véctơ thu gọn (TV-Telescopic Vector Tree) là xâm nhập điểm dữ liệu trong không gian có số chiều rất lớn sao cho hiệu quả cao. Trên đây ta thấy, tài liệu d được xem như véctơ d có độ dài k, trong khi ma trận giá trị đơn, sau khi phân chia, có kích thước (k x k). Do vậy, mỗi tài liệu được xem như điểm trong không gian k chiều. Một CSDL tài liệu như mô tả trên đây được xem như tập hợp của các điểm như vậy và được chỉ số hoá phù hợp. Khi người sử dụng biểu diễn truy vấn Q, thực tế là họ xác định véctơ vec(Q) có độ dài k. Ta phải tìm p tài liệu trong CSDL mà nó phù hợp nhất với Q. Có nghĩa rằng ta phải tìm ra k láng giềng gần nhất với truy vấn Q có mặt trong CSDL tài liệu. Cây TV là cấu trúc dữ liệu mượn từ cây R. Cây TV cố gắng quyết định một cách mềm dẻo và động việc rẽ nhánh như thế nào, trên cơ sở dữ liệu đang xem xét. Ý tưởng là nếu nhiều véctơ phù hợp với một số thuộc tính (nếu nhiều tài liệu đều có các khái niệm chung), thì ta phải tổ chức chỉ số bằng rẽ nhánh đến các khái niệm đó (trường các véctơ) mà nó phân biệt giữa các véctơ/tài liệu này. Thí dụ, trong CSDL tài liệu chứa tập các báo cáo của Trường đại học Maryland, từ như database có thể xuất hiện trong hàng nghìn tài liệu. Để phân biệt tiếp theo giữa các bài báo có từ database, ta phải tổ chức chỉ số theo cách mà có thể rẽ nhánh theo sự hiện diện hay vắng mặt của vài từ khác mà nó có khả năng phân biệt hơn. 4.4.1 Tổ chức cây TV Trước khi định nghĩa cây TV để lưu trữ các điểm k chiều (k-d) thì ta phải chỉ ra hai tham số sau: 1. NumChild: số nút con cực đại mà 1 nút bất kỳ trong cây TV có thể có. 2. µ: là số lớn hơn 0 và nhỏ hơn hay bằng k, gọi nó là số chiều tích cực (number of active dimensions). Sử dụng ký pháp TV(k, NumChild, µ) để gọi cây TV, nó được sử dụng vào việc lưu trữ dữ liệu k-d, với NumChild là số nút con cực đại, µ số chiều tích cực. Như cây R, mỗi nút trong cây TV biểu diễn một vùng. Với mục đích sử dụng này, mỗi nút N trong cây TV chứa ba trường sau: 1. N.Center: Biểu diễn điểm trong không gian k-d. 2. N.Radius: Là số thực lớn hơn 0. 3. N.ActiveDims: Là danh sách của nhiều nhất µ chiều. Mỗi chiều là một số giữa 1 và k. Do vậy, N.ActiveDims là tập con của {1,...,k} của số µ hay nhỏ hơn. Giả sử x và y là những điểm trong không gian k-d, và ActiveDims là tập các chiều tích cực. Khoảng cách tích cực giữa x và y, được gọi là act_dist(x, y), cho bởi: Error! trong đó, xi, yi là giá trị của chiều thứ i của lần lượt x và y. Thí dụ, giả sử k=200, µ=5 và AvtiveDims={1,2,3,4,5} và giả sử rằng: x=(10,5,11,13,7, x6, x7,...,x200) y=(2,4,14,8,6,y6,y7,...,y200) Error! Sau đó khoảng cách tích cực giữa x và y được cho bởi: Chú ý rằng khoảng cách tích cực giữa hai véctơ bỏ qua mọi trường mà nó không tích cực. Cho trước nút N trong cây TV là nút biểu diễn vùng chứa mọi điểm x, trong đó khoảng cách tích cực giữa x và N.Center nhỏ hơn hay bằng N.Radius. Thí dụ, nếu chúng ta có nút N với tâm ở tại N.Center=(10, 5, 11, 13, 7, 0, 0, 0, 0,..., 0) và N.ActiveDims={1,2,3,4,5}, thì nút này biểu diễn vùng chứa mọi điểm x mà nó thỏa mãn: Error! Ta sử dụng ký pháp Region(N) để gọi vùng biểu diễn bởi nút N trong cây TV. Ngoài các trường Center, Radius, ActiveDims, nút N trong cây TV còn chứa trường Child của các con trỏ NumChild đến nút khác của cùng loại. Như trong trường hợp cây R, cây TV có các đặc tính sau: 1. Mọi dữ liệu được lưu trên các nút lá. 2. Mỗi nút trong cây TV (trừ gốc và các lá), trong đó ít nhất một nửa chúng phải có giá trị, do vậy, ít nhất nửa số con trỏ Child phải khác NIL. 3. Error! Nếu N là nút và N1,...,Nr là con của nó, thì 4.4.2 Chèn vào cây TV Hãy xem xét trường hợp có không gian 5-d (khi ta chỉ có 5 khái niệm rút ra từ tập hợp tài liệu), và ta muốn chèn vài véctơ vào cây TV với tên TV(5, 3, 2). Giả sử rằng toàn bộ không gian là siêu hình cầu (hyper-spher) có tâm tại (0,0,0,0,0) và bán kính 50. Khởi đầu cây TV là rỗng. 1. Giả sử véctơ thứ nhất sẽ chèn là (5,3,20,1,5). Nó được sử dụng để tạo ra nút gốc với các tính chất sau: Root.Center=(0,0,0,0,0). Root.Radius=50. Trong trường hợp này, gốc cũng là lá, có con trỏ đến thông tin phù hợp với điểm v1=(5,3,20,1,5). Giả sử Root.ActiveDims={2,3}. Error! Hình 4.5a chỉ ra tình huống này. 2. Error! Giả sử véctơ tiếp theo được chèn vào là v2=(0, 0, 18, 42, 4). Trong trường hợp này ta cũng tạo thêm lá mới như trên đây ...

Tài liệu được xem nhiều: