Danh mục

Tiểu luận: PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT

Số trang: 26      Loại file: pdf      Dung lượng: 1.67 MB      Lượt xem: 15      Lượt tải: 0    
Jamona

Hỗ trợ phí lưu trữ khi tải xuống: 13,000 VND Tải xuống file đầy đủ (26 trang) 0

Báo xấu

Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Nghiên cứu về hệ thống hỏi đáp tự động (Q&A) đã được quan tâm từ rất lâu trên thế giới. Ngay từ những năm 1960, các hệ thống hỏi đáp đầu tiên sử dụng cơ sở dữ liệu đã được ra đời. Đến những năm 1970-1980, rất nhiều dự án lớn hướng đến việc “understanding text” và xây dựng hệ thống hỏi đáp dựa trên các mô hình ngôn ngữ thống kê. Cuối những năm 1990, World Wide Web ra đời và phát triển nhanh chóng trở thành một kho ngữ liệu khổng lồ....
Nội dung trích xuất từ tài liệu:
Tiểu luận: PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ   Nguyễn Duy Long BÁO CÁO THỰC TẬP TỐT NGHIỆP PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆTNgành: Công nghệ thông tinCán bộ hướng dẫn: TS. Trương Anh HoàngNơi thực tập: Công ty Nhất Thái Dương iSolar Hà Nội, tháng 9/2012 Lời cảm ơn Lời đầu tiên em xin chân thành cảm ơn đến quý Thầy, Cô trường ĐH Công Nghệ -ĐH Quốc Gia Hà Nội, những người đã trực tiếp giảng dạy, truyền đạt những kiễn thức bổích cho em, đó chính là những nền tảng cơ bản, là những hành trang vô cùng quý giá, làbuốc đầu tiên cho em bước vào sự nghiệp sau này trong tương lai. Đặc biệt là Tiến sĩTrương Anh Hoàng người đã tận tình, quan tâm giúp đỡ em trong suốt quá trình em thamgia thực tập. Thầy đã giải đáp những thắc mắc khó khăn mà em đã gặp phải. Nhờ đó, emmới có thể hoàn thành được báo cáo thực tập chuyên ngành này. Bên cạnh đó, em cũng xin được gởi lời cảm ơn chân thành tới Giám đốc, các anhchị trong Công ty Nhất Thái Dương iSolar đã tạo cơ hội giúp em có thể tìm hiểu rõ vềmôi trường làm việc thực thế của một doanh nghiệp mà ngồi trên ghế nhà trường emchưa được biết. Em xin chân thành cảm ơn anh Vũ Tất Thắng giám đốc của công ty, mặcdù rất bận rộn với công việc nhưng vẫn dành thời gian chỉ bảo, hướng dẫn, tạo mọi điềukiện thuận lợi nhất để em có thể tìm hiểu và thu thập thông tin phục vụ cho báo cáo này. Trong quá trình thực tập và làm báo cáo, vì kinh nghiệm thực tế chưa có, chỉ dựavào lý thuyết cùng với thời gian hạn hẹp nên báo cáo này không thể tránh những sai sót.Kính mong nhận được sự góp ý, nhận xét từ phía quý Thầy, Cô cũng như các anh chịtrong Công ty để kiến thức của em càng hoàn thiện hơn và rút ra được những kinhnghiệm bổ ích để có thể áp dụng vào thực tiễn một cách hiệu quả nhất trong tương lai. Em xin chân thành cảm ơn! Sinh viên Nguyễn Duy Long Lời mở đầu Nghiên cứu về hệ thống hỏi đáp tự động (Q&A) đã được quan tâm từ rất lâu trênthế giới. Ngay từ những năm 1960, các hệ thống hỏi đáp đầu tiên sử dụng cơ sở dữliệu đã được ra đời. Đến những năm 1970-1980, rất nhiều dự án lớn hướng đến việc“understanding text” và xây dựng hệ thống hỏi đáp dựa trên các mô hình ngôn ngữthống kê. Cuối những năm 1990, World Wide Web ra đời và phát triển nhanh chóng trởthành một kho ngữ liệu khổng lồ. Các nhà nghiên cứu về hệ thống hỏi đáp cũng bắt đầukhai thác web như là một nguồn dữ liệu cho việc tìm kiếm câu trả lời. Các kĩ thuật mớiđòi hỏi tốc độ cao, khả năng xử lý lượng dữ liệu web lớn đang rất được quan tâm. Tuynhiên các nghiên cứu về xây dựng hệ thống hỏi đáp cho tiếng Việt vẫn còn rất nhiềuhạn chế. Một trong những lý do chính là chúng ta còn thiếu các công cụ xử lý tiếngViệt, các tài nguyên ngôn ngữ học (Wordnet [28], ontology [30]…). Phân tích câu hỏi là pha đầu tiên trong kiến trúc chung của một hệ thống hỏi đáp,có nhiệm vụ tìm ra các thông tin cần thiết làm đầu vào cho quá trình xử lý của cácpha sau (trích chọn tài liệu, trích xuất câu trả lời, …). Vì vậy phân tích câu hỏi có vaitrò hết sức quan trọng, ảnh hưởng trực tiếp đến hoạt động của toàn bộ hệ thống. Nếuphân tích câu hỏi không tốt thì sẽ không thể tìm ra được câu trả lời. Trong bài viết báo cáo thực tập em đã thực hiện nghiên cứu các phương pháp xâydựng hệ thống hỏi đáp và phân tích câu hỏi đang được quan tâm hiện nay, từ đó đưa raphương pháp phân tích câu hỏi phù hợp nhất (trên cơ sở các nguồn tài nguyên ngônngữ sẵn có) cho hệ thống hỏi đáp tiếng Việt. Những nghiên cứu này có thể coi là tiềnđề cho các nghiên cứu tiếp theo để xây dựng một hệ thống hỏi đáp hoàn thiện cho tiến gViệt.CHƯƠNG 1: TỔNG QUAN VỀ QUÁ TRÌNH THỰC TẬP1 Giới thiệu. Thực tập tốt nghiệp là một giai đoạn quan trọng đối viên sinh viên năm cuối, đặcbiệt là sinh viên công nghệ thông tin. Thực tế công việc, cùng với những kinh nghiệm vàkỹ năng học tập được trong giai đoạn này, sẽ giúp cho sinh viên vững vàng hơn khi đivào công việc thực tế đầy áp lực. Với ý nghĩa thực tiễn đó, được sự cho phép của nhàtrường, tôi đã may mắn được là sinh viên thực tập tại Công ty Nhất Thái Dương iSolar,một công ty chuyên gia công phần mềm cho ngành giáo dục. Với thời gian thự c tậpkhoảng 2 tháng, nhưng nó đã đem lại cho tôi nhiều kinh nghiệm và kỹ năng trong côngviệc, cũng như nghiên cứu. Tôi được tham gia làm nghiên cứu về vấn đề xử lý ngôn ngữtự nhiên Natural Language Processing. Cùng với những sinh viên thực tập khác và với sựhướng dẫn tận tình của TS. Vũ Tất Thắng, phần nghiên cứu NLP hiện nay đã khá hoànchỉnh như những mục tiêu đề ra. ...

Tài liệu được xem nhiều:

Tài liệu liên quan: