Danh mục

CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT

Số trang: 104      Loại file: doc      Dung lượng: 1.73 MB      Lượt xem: 15      Lượt tải: 0    
tailieu_vip

Hỗ trợ phí lưu trữ khi tải xuống: 52,000 VND Tải xuống file đầy đủ (104 trang) 0

Báo xấu

Xem trước 10 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Văn bản song ngữ (parallel text) là một văn bản được thể hiện ở một ngônngữ và bản dịch (translation) của nó ở một ngôn ngữ khác. Để khai thác được tínhhữu dụng của nguồn dữ liệu này, việc đầu tiên là tiến hành canh lề (hay đối sánh)văn bản để tìm được bản dịch tương ứng của một đoạn, một câu, một từ trong haingôn ngữ.
Nội dung trích xuất từ tài liệu:
CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA ------oOo------ LÊ NGỌC SƠN CANH LỀ VĂN BẢN SONG NGỮVÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT Chuyên ngành : Công Nghệ Thông Tin Mã số ngành : 01.02.10 LUẬN VĂN TỐT NGHIỆP TP. HỒ CHÍ MINH, THÁNG 12 NĂM 2006 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINHCán bộ hướng dẫn khoa học: Phó Giáo sư, Tiến sĩ PHAN THỊ TƯƠICán bộ chấm nhận xét 1:Cán bộ chấm nhận xét 2: Luận văn thạc sĩ được bảo vệ tại: HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA Ngày . . . . . tháng . . . . . năm 2006 ĐẠI HỌC QUỐC GIA TP. HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc ------oOo------ ------oOo------ Tp. Hồ Chí Minh, ngày ….. tháng ….. năm 2006 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ và tên học viên : Lê Ngọc Sơn Phái : Nam Nơi sinh : Tiền Giang Ngày sinh : 28/05/1981 : Công Nghệ Thông Tin Chuyên ngành MSHV : 00704179 TÊN ĐỀ TÀI: Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợpI. đặc thù của ngôn ngữ Anh - Việt. NHIỆM VỤ VÀ NỘI DUNG:II. Tìm hiểu các công trình nghiên cứu trước đây về canh lề văn bản song ngữ.  Nghiên cứu giải thuật phân đoạn từ, phân đoạn câu, canh lề theo chiều dài câu và  LSSA. Ứng dụng các giải thuật này để giải quyết những trường hợp đặc thù trong canh lề  văn bản song ngữ Anh - Việt. Xây dựng một kho ngữ liệu (corpus) chứa các cặp câu song ngữ Anh - Việt phân loại  theo lĩnh vực.III. NGÀY GIAO NHIỆM VỤ : / / 2006IV. NGÀY HOÀN THÀNH NHIỆM VỤ : / / 2006 HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS., TS. Phan Thị TươiV. CÁN BỘ HƯỚNG DẪN PGS., TS. Phan Thị TươiNội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua. Ngày ….. tháng ….. năm 2006PHÒNG ĐÀO TẠO SAU ĐẠI HỌC KHOA QUẢN LÝ NGÀNH LỜI CẢM ƠN Tôi xin được gửi lời cảm ơn chân thành đến: PGS., TS. Phan Thị Tươi đã tận tình chỉ bảo, h ướng d ẫn tôi nghiên c ứu vàthực hiện luận văn này. Cám ơn Cô đã theo dõi, hỗ trợ và động viên tôi trong nhữnglúc khó khăn nhất. Các thầy cô của Khoa Công Nghệ Thông Tin trường đại học Bách khoa TP.Hồ Chí Minh đã tận tâm giảng dạy trong suốt quá trình học, trang bị cho tôi nhữngkiến thức nền tảng và khả năng nghiên cứu. Thầy TS. Võ Văn Huy, cô ThS. Huỳnh Ngọc Li ễu, KS. Nguyễn HoàngThanh Nhàn, KS. Nguyễn Ngọc Bình Phương, CN. Thái Kim Phụng, các anh chị emtrong Trung tâm nghiên cứu và hỗ trợ đào tạo Quản trị doanh nghi ệp (BR&T) đã h ỗtrợ tôi trong suốt thời gian thực hiện luận văn. Gia đình và những bạn bè thân thiết đã luôn động viên khuyến khích tôi h ọctập và phấn đấu. TÓM TẮT Văn bản song ngữ (parallel text) là một văn bản được thể hi ện ở m ột ngônngữ và bản dịch (translation) của nó ở một ngôn ngữ khác. Đ ể khai thác đ ược tínhhữu dụng của nguồn dữ liệu này, việc đầu tiên là tiến hành canh lề (hay đ ối sánh)văn bản để tìm được bản dịch tương ứng của một đo ạn, m ột câu, một t ừ trong haingôn ngữ. Gần đây, canh lề văn bản đã và đang được quan tâm rất nhiều. Nhiềuphương pháp và giải thuật được đưa ra, áp dụng, và cũng đạt được những k ết qu ảtương đối chính xác. Tuy nhiên, mỗi cặp ngôn ngữ có những đặc điểm riêng. Vi ệcáp dụng vào canh lề văn bản song ngữ Anh – Vi ệt c ần đ ược đi ều ch ỉnh cho phùhợp với đặc điểm của ngôn ngữ tiếng Việt. Trong đề tài này, tôi xây dựng một qui trình canh l ề m ới, áp d ụng gi ải thu ậtcanh lề theo chiều dài câu, giải thuật canh lề từ dựa vào từ đi ển và gi ải thuậtLongest Sorted Sequence (LSSA). Điểm mới trong luận văn là xử lý m ột tr ườnghợp đặc biệt trong dịch thuật cũng rất thường xảy ra là dịch chéo. Khi đó, ch ươngtrình phải xử lý trường hợp canh lề chéo, mà hầu hết các gi ải thuật trư ...

Tài liệu được xem nhiều:

Tài liệu liên quan: