Danh mục

TIỂU LUẬN: Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp

Số trang: 61      Loại file: pdf      Dung lượng: 548.84 KB      Lượt xem: 15      Lượt tải: 0    
Jamona

Phí tải xuống: 30,500 VND Tải xuống file đầy đủ (61 trang) 0
Xem trước 7 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Ngày nay, cơ sở dữ liệu đã trở thành một phần không thể thiếu của xã hội loài người. Trong kỉ nguyên thông tin này, các thông tin được lưu trữ và xử lý hiệu quả hầu hết là thông qua cơ sở dữ liệu. Sau gần 50 năm phát triển, cơ sở dữ liệu đã có những bước tiến vô cùng quan trọng trong lịch sử Công nghệ thông tin. Từ mô hình Cơ sở dữ liệu quan hệ do E.Codd đề xuất từ những năm 60, các ứng dụng công nghệ thông tin đã thực sự biến...
Nội dung trích xuất từ tài liệu:
TIỂU LUẬN: Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp TIỂU LUẬN:Phân loại văn bản tiếng Việt bằngphương pháp phân tích cú pháp LỜI GIỚI THIỆUNgày nay, cơ sở dữ liệu đã trở thành một phần không thể thiếu của xã hội loài người.Trong kỉ nguyên thông tin này, các thông tin được lưu trữ và x ử lý hiệu quả hầu hếtlà thông qua cơ sở dữ liệu. Sau gần 5 0 năm phát triển, cơ sở dữ liệu đã có nhữngbước tiến vô cùng quan trọng trong lịch sử Công nghệ thông tin . Từ mô hình Cơ sởdữ liệu quan hệ do E.Codd đề xuất từ những năm 60 , các ứng dụng công nghệ thôngtin đã thực sự biến việc lưu trữ dữ liệu trở thành lưu trữ thông tin thông qua các côngcụ quản lý và xử lý cơ sở dữ liệu . Ngày nay, nhu cầu lưu trữ và xử lý thông tin cómặt ở khắp mọi nơi. Ở bất cứ một tổ chức nào, với bất kỳ một mô hình hay quy mônào cũng đều có những nhu cầu về lưu trữ và khai thác thông tin. Khái niệm thông tinở đây bao gồm cả thông tin về nội tại của tổ chức và thông tin về môi trường và tổchức hoạt động.Việc nghiên cứu lý thuyết về cơ sở dữ liêu đã trở thành một ngành khoa học ứngdụng. Do những tiến bộ vượt bậc trong nghiên cứu lý thuyết cũng như cài đặt thực tế,các hệ quản trị cơ sở dữ liệu đã trở thành nền tảng , là phần cốt yếu trong hoạt độngcủa các tổ chức. Nhờ chúng mà các tổ chức hoạt động hiệu quả hơn. Việc ứng dụngcơ sở dữ liệu đã giúp làm giảm rất nhiều công sức lao động của con người và nhờ đóhiệu suất lao động của họ cao hơn. Hệ quản trị cơ sở dữ liệu ngày nay không còn đơnthuần chỉ là một cơ cấu cho phép lưu trữ số liệu mà còn kèm theo đó là các công cụ ,tiện ích hay các phương pháp luận để chuyển đổi số liệu thành thông tin . Tập tất cảcác công cụ do người dùng phát triển hoặc do các nhà cung cấp phần mềm tung ra đểphục vụ cho mục đích hoạt động của tổ chức , được tối ưu theo những yêu cầu nghiệpvụ của tổ chức được gọi là các ứng dụng hỗ trợ xử lý tác nghiệp. Cao h ơn nữa , khicác nhu cầu sử dụng thông tin ở mức cao cấp hơn để hỗ trợ các nhu cầu phân tích củacác nhà lãnh đạo, c ác nhà lập chiến lược trong một tổ chức, một loại ứng dụng mới rađời phục vụ cho các mục đích này với tên gọi “hệ phân tích và xử lý trực tuyến”. Ởcác ứng dụng này, thông tin được lưu trữ, xử lý và kết xuất theo các mục đích cụ thểdưới dạng hướng chủ đề. Nhờ các thông tin ở dạng này mà các phân tích, các nhàlãnh có thể đưa ra các quyết định hoạt động một cách hiệu quả nhất.Khi các mô hình dữ liệu phát triển ở mức độ cao hơn, các thông tin lưu trữ dưới dạngdữ liệu phong phú đa dạng hơn, người ta nhận ra còn rất nhiều tri thức còn tiềm ẩntrong dữ liệu mà các mức phân tích trước đó không phát hiện ra. Lý do của vấn đềnày là các phân tích trước đó chỉ mới hướng mục đích cụ thể của con người. Các mụcđích này là cố định và các phân tích này hoàn toàn do con người đưa ra trong hoàncảnh cụ thể. Khi các thông tin phản ánh môi trường thay đổi thì con người khôngnhận ra để điều chỉnh các phân tích và đưa ra các phân tích mới. Các tri thức đó cóthể là hướng kinh doanh, các dự báo thị trường, c ũng có thể là mối quan hệ giữa cáctrường hay nội dung dữ liệu... mà con người không hình dung ra được khi tiến hànhmô hình hoá các hệ thống. Vì thế, n gành nghiên cứu về Phát hiện tri thức trong cơ sởdữ liệu (Knowledge Discovery in Database) ra đời với bài toán Khai phá dữ liệu(DataMining) làm trung tâm nghiên cứu. Các tư tư ởng nghiên cứu và các thuật toánvề Trí tuệ nhân tạo và Hệ chuyên gia đã được áp dụng và thu được những kết quả rấtquan trọng như: cây quyết định, mạng nơ-ron...Hầu hết các thuật toán nghiên cứu cho DataMining là tập trung trên các nguồn số liệucó cấu trúc (structured data). Nhưng phần lớn thông tin mà chúng ta lưu trữ và traođổi hằng ngày lại được lưu trữ dưới các dạng dữ liệu bán cấu trúc (semi-structureddata) hoặc phi cấu trúc (non-structured data ). Ví dụ như trong các nhà xuất bản, hệthống các trang web trên một website , tập các công văn, giấy tờ, báo cáo, thư tín điệntử trong một công ty. Thậm chí ta có thể nhận thấy rằng trong một hệ quản trị cơ sởdữ liệu (nơi mà dữ liệ u được lưu trữ có cấu trúc) thì dữ liệu kiểu text vẫn chiếm mộttỷ lệ cao . Do đó một vấn đề đặt ra là làm thế nào để có thể tìm kiếm và khai thác trithức từ nguồn dữ liệu như vậy. Các kỹ thuật để giải quyết vấn đề này được gọi là kỹthuật TextMining hay Khai phá dữ liệu văn bản. Bài toán Khai phá dữ liệu văn bảnkhông chỉ tập trung vào một hay một nhóm các thông tin được lưu trữ d ưới dạng vănbản, vấn đề đặt ra là làm thế nào có thể Khai phá được các thông tin theo lịch sử, từquá kh ứ hướng dự đoán tương lai. Những tri thức tưởng trừng như vô ích trong quákhứ nhưng có thể được phát hiện để sử dụng cho các mục đích sau này.Một số bài toán quan trọng trong Khai phá dữ liệu văn bản hay được x ét đến như làcác bài toán “Text Classification”, “Text Sumarization”, và “Text Categorization”.Trên thế giới đã có rất nhiều th ...

Tài liệu được xem nhiều: