Danh mục

Xây dựng chương trình bắt lỗi tiếng Việt nhằm phát hiện và đề nghị từ thay thế cho các lỗi thường gặp (nhóm VCL) - 3

Số trang: 43      Loại file: pdf      Dung lượng: 337.08 KB      Lượt xem: 12      Lượt tải: 0    
10.10.2023

Xem trước 5 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Lời cảm ơnChúng em xin chân thành cảm ơn Ban giám hiệu, quý Thầy Cô của trường Đại học Khoa Học Tự Nhiên Tp.Hồ Chí Minh, đặc biệt là các Thầy Cô trong khoa Công Nghệ Thông Tin đã tận tình giảng dạy, trang bị cho chúng em những kiến thức cần thiết trong suốt những năm học tập tại trường.
Nội dung trích xuất từ tài liệu:
Xây dựng chương trình bắt lỗi tiếng Việt nhằm phát hiện và đề nghị từ thay thế cho các lỗi thường gặp (nhóm VCL) - 3 CHƯƠNG 4. MÔ HÌNH 4.2. TI N X LÝ • Thanh h i đư c bi u di n b ng ký t ‘3’. • Thanh ngã đư c bi u di n b ng ký t ‘4’. • Thanh n ng đư c bi u di n b ng ký t ‘5’. TN Theo quy t c trên, “hoà” s đư c bi n đ i thành “2hoa”; “hòa” s đư c bi n đ i thành “2hoa”. Như v y ta có th coi “hòa” và “hoà” là tương đương H nhau khi so sánh d ng bi n đ i “2hoa” c a chúng. M t s ví d khác: “h ng” đư c bi n đ i thành “2hông”, “hoa” đư c bi n đ i thành “0hoa”. K Các ti ng nư c ngoài, các ký hi u . . . không có d u, s đư c xem như có thanh ngang. Như v y, “USA” s đư c bi n đ i thành “0USA”. H Do vi c bi n đ i làm m t thông tin v cách b d u. Ta c n ph i gi l i Đ ch g c bên c nh ch bi n đ i (“ch chu n hoá”) đ có th dùng l i sau này. Ta cũng có th ph c h i ch t ch chu n hoá b ng cách phân tích c u trúc – âm ti t và b d u thích h p theo quy t c b d u cho trư c. Vi c này s giúp TT chu n hoá cách b d u cho toàn văn b n. Chu n hoá ‘y’ và ‘i’ N Ngoài vi c chu n hoá cách b d u, m t s ch trong ti ng Vi t k t thúc b ng C ‘y’ có th đư c đ i thành ‘i’. Ví d , “quý” và “quí” đ u h p l . Tuy nhiên, A không ph i ch nào k t thúc b ng ‘y’ cũng có th chuy n thành ‘i’, ví d “thuý” và “thúi”. Nguyên nhân là do khi chuy n thành ‘i’, ch cái này k t O h p v i ‘u’ t o ra âm chính ‘ui’ thay vì âm chính ‘i’. M t s ch k t thúc H b ng ‘i’ cũng không th chuy n sang ‘y’, ví d “bí”, “chí” . . . Vi c cho phép vi t m t t hai cách s làm gi m hi u su t c a chương trình do chươngK trình coi “quý” và “quí” là hai ch hoàn toàn khác nhau. Gi i pháp là l p danh sách nh ng t có âm chính là y/i và là âm ti t m , sau đó chuy n t t c nh ng t k t thúc b ng ‘i’ có trong danh sách trên sang ‘y’. Trong quá trình 86 CHƯƠNG 4. MÔ HÌNH 4.2. TI N X LÝ b t l i chính t , n u ngư i dùng yêu c u chu n hoá thì ta có th xem vi c vi t ‘y’ ho c ‘i’ như là sai chính t . N u không, ta s b qua khác bi t ‘y’ và ‘i’ bư c báo l i chính t . G m các ch sau (không xét thanh đi u): “mi”, “ti”, “thi”, “qui”, “ki”, “hi”, “li” “si”, “vi”. TN 4.2.4 Ch vi t hoa H Ch vi t hoa dùng đ bi u di n tên riêng, t vi t t t ho c dùng cho ch đ ng đ u câu. Do đó c n phân bi t ch đ u câu có ph i là ch b t đ u tên riêng K hay không. Ngoài ra, c n xác đ nh tên riêng khi tìm đư c ch vi t hoa b t H đ u tên riêng. Các văn b n ti ng Vi t chưa hoàn toàn th ng nh t v quy t c vi t hoa. Ví d , có tài li u dùng “C ng hoà Xã h i Ch nghĩa Vi t Nam”, Đ nhưng có tài li u l i dùng “C ng Hoà Xã H i Ch Nghĩa Vi t Nam”. Do văn b n đ u vào có kh năng b sai chính t , kèm theo s không th ng – nh t trong quy cách vi t tên riêng, nên khó có th xác đ nh tên riêng ngay TT bư c ti n x lý. Vì v y ph n này s đư c th c hi n trong ph n tách t thay vì trong ph n ti n x lý. N 4.2.5 T nư c ngoài, t vi t t t, các ký hi u . . . C X lý ti ng nư c ngoài, các ký hi u chuyên ngành, các t vi t t t. Do trình A b t l i không có ki n th c v các lĩnh v c chuyên ngành, cũng như các th O ti ng trên th gi i, nên vi c áp d ng tri th c đ phân lo i là đi u h t s c khó khăn. Gi i pháp đư c dùng đây là xem các t nư c ngoài, t vi t t t, các H ký hi u . . . như là nh ng ch bình thư ng (và s đư c xem như là l i chínhK t trong ph n b t l i chính t ). Ph n này s c g ng phân lo i m t s lo i thư ng g p như s , ngày tháng . . . nh m gi m b t các l i sai chính t không đáng có. Các con s 87 CHƯƠNG 4. MÔ HÌNH 4.3. B T L I NON-WORD đư c đánh d u riêng b ng mã N U M . “S ” đây đư c coi là b t c ch nào b t đ u b ng s . Ví d , “0lit”, “0.2”, “0-4” . . . đ u đư c coi là s . Ngày tháng đư c nh n d ng theo m u “ngày-tháng-năm” ho c “ngày/tháng/năm”. Nói cách khác, ngày tháng là các s liên ti p, cách nhau b ng d u ‘/’ ho c TN ‘–’. Ngày tháng cũng đư c đánh nhãn N U M . 4.3 B t l i non-word H K 4.3.1 Tì ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: