Xây dựng chương trình bắt lỗi tiếng Việt nhằm phát hiện và đề nghị từ thay thế cho các lỗi thường gặp (nhóm VCL) - 3
Số trang: 43
Loại file: pdf
Dung lượng: 337.08 KB
Lượt xem: 12
Lượt tải: 0
Xem trước 5 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Lời cảm ơnChúng em xin chân thành cảm ơn Ban giám hiệu, quý Thầy Cô của trường Đại học Khoa Học Tự Nhiên Tp.Hồ Chí Minh, đặc biệt là các Thầy Cô trong khoa Công Nghệ Thông Tin đã tận tình giảng dạy, trang bị cho chúng em những kiến thức cần thiết trong suốt những năm học tập tại trường.
Nội dung trích xuất từ tài liệu:
Xây dựng chương trình bắt lỗi tiếng Việt nhằm phát hiện và đề nghị từ thay thế cho các lỗi thường gặp (nhóm VCL) - 3 CHƯƠNG 4. MÔ HÌNH 4.2. TI N X LÝ • Thanh h i đư c bi u di n b ng ký t ‘3’. • Thanh ngã đư c bi u di n b ng ký t ‘4’. • Thanh n ng đư c bi u di n b ng ký t ‘5’. TN Theo quy t c trên, “hoà” s đư c bi n đ i thành “2hoa”; “hòa” s đư c bi n đ i thành “2hoa”. Như v y ta có th coi “hòa” và “hoà” là tương đương H nhau khi so sánh d ng bi n đ i “2hoa” c a chúng. M t s ví d khác: “h ng” đư c bi n đ i thành “2hông”, “hoa” đư c bi n đ i thành “0hoa”. K Các ti ng nư c ngoài, các ký hi u . . . không có d u, s đư c xem như có thanh ngang. Như v y, “USA” s đư c bi n đ i thành “0USA”. H Do vi c bi n đ i làm m t thông tin v cách b d u. Ta c n ph i gi l i Đ ch g c bên c nh ch bi n đ i (“ch chu n hoá”) đ có th dùng l i sau này. Ta cũng có th ph c h i ch t ch chu n hoá b ng cách phân tích c u trúc – âm ti t và b d u thích h p theo quy t c b d u cho trư c. Vi c này s giúp TT chu n hoá cách b d u cho toàn văn b n. Chu n hoá ‘y’ và ‘i’ N Ngoài vi c chu n hoá cách b d u, m t s ch trong ti ng Vi t k t thúc b ng C ‘y’ có th đư c đ i thành ‘i’. Ví d , “quý” và “quí” đ u h p l . Tuy nhiên, A không ph i ch nào k t thúc b ng ‘y’ cũng có th chuy n thành ‘i’, ví d “thuý” và “thúi”. Nguyên nhân là do khi chuy n thành ‘i’, ch cái này k t O h p v i ‘u’ t o ra âm chính ‘ui’ thay vì âm chính ‘i’. M t s ch k t thúc H b ng ‘i’ cũng không th chuy n sang ‘y’, ví d “bí”, “chí” . . . Vi c cho phép vi t m t t hai cách s làm gi m hi u su t c a chương trình do chươngK trình coi “quý” và “quí” là hai ch hoàn toàn khác nhau. Gi i pháp là l p danh sách nh ng t có âm chính là y/i và là âm ti t m , sau đó chuy n t t c nh ng t k t thúc b ng ‘i’ có trong danh sách trên sang ‘y’. Trong quá trình 86 CHƯƠNG 4. MÔ HÌNH 4.2. TI N X LÝ b t l i chính t , n u ngư i dùng yêu c u chu n hoá thì ta có th xem vi c vi t ‘y’ ho c ‘i’ như là sai chính t . N u không, ta s b qua khác bi t ‘y’ và ‘i’ bư c báo l i chính t . G m các ch sau (không xét thanh đi u): “mi”, “ti”, “thi”, “qui”, “ki”, “hi”, “li” “si”, “vi”. TN 4.2.4 Ch vi t hoa H Ch vi t hoa dùng đ bi u di n tên riêng, t vi t t t ho c dùng cho ch đ ng đ u câu. Do đó c n phân bi t ch đ u câu có ph i là ch b t đ u tên riêng K hay không. Ngoài ra, c n xác đ nh tên riêng khi tìm đư c ch vi t hoa b t H đ u tên riêng. Các văn b n ti ng Vi t chưa hoàn toàn th ng nh t v quy t c vi t hoa. Ví d , có tài li u dùng “C ng hoà Xã h i Ch nghĩa Vi t Nam”, Đ nhưng có tài li u l i dùng “C ng Hoà Xã H i Ch Nghĩa Vi t Nam”. Do văn b n đ u vào có kh năng b sai chính t , kèm theo s không th ng – nh t trong quy cách vi t tên riêng, nên khó có th xác đ nh tên riêng ngay TT bư c ti n x lý. Vì v y ph n này s đư c th c hi n trong ph n tách t thay vì trong ph n ti n x lý. N 4.2.5 T nư c ngoài, t vi t t t, các ký hi u . . . C X lý ti ng nư c ngoài, các ký hi u chuyên ngành, các t vi t t t. Do trình A b t l i không có ki n th c v các lĩnh v c chuyên ngành, cũng như các th O ti ng trên th gi i, nên vi c áp d ng tri th c đ phân lo i là đi u h t s c khó khăn. Gi i pháp đư c dùng đây là xem các t nư c ngoài, t vi t t t, các H ký hi u . . . như là nh ng ch bình thư ng (và s đư c xem như là l i chínhK t trong ph n b t l i chính t ). Ph n này s c g ng phân lo i m t s lo i thư ng g p như s , ngày tháng . . . nh m gi m b t các l i sai chính t không đáng có. Các con s 87 CHƯƠNG 4. MÔ HÌNH 4.3. B T L I NON-WORD đư c đánh d u riêng b ng mã N U M . “S ” đây đư c coi là b t c ch nào b t đ u b ng s . Ví d , “0lit”, “0.2”, “0-4” . . . đ u đư c coi là s . Ngày tháng đư c nh n d ng theo m u “ngày-tháng-năm” ho c “ngày/tháng/năm”. Nói cách khác, ngày tháng là các s liên ti p, cách nhau b ng d u ‘/’ ho c TN ‘–’. Ngày tháng cũng đư c đánh nhãn N U M . 4.3 B t l i non-word H K 4.3.1 Tì ...
Nội dung trích xuất từ tài liệu:
Xây dựng chương trình bắt lỗi tiếng Việt nhằm phát hiện và đề nghị từ thay thế cho các lỗi thường gặp (nhóm VCL) - 3 CHƯƠNG 4. MÔ HÌNH 4.2. TI N X LÝ • Thanh h i đư c bi u di n b ng ký t ‘3’. • Thanh ngã đư c bi u di n b ng ký t ‘4’. • Thanh n ng đư c bi u di n b ng ký t ‘5’. TN Theo quy t c trên, “hoà” s đư c bi n đ i thành “2hoa”; “hòa” s đư c bi n đ i thành “2hoa”. Như v y ta có th coi “hòa” và “hoà” là tương đương H nhau khi so sánh d ng bi n đ i “2hoa” c a chúng. M t s ví d khác: “h ng” đư c bi n đ i thành “2hông”, “hoa” đư c bi n đ i thành “0hoa”. K Các ti ng nư c ngoài, các ký hi u . . . không có d u, s đư c xem như có thanh ngang. Như v y, “USA” s đư c bi n đ i thành “0USA”. H Do vi c bi n đ i làm m t thông tin v cách b d u. Ta c n ph i gi l i Đ ch g c bên c nh ch bi n đ i (“ch chu n hoá”) đ có th dùng l i sau này. Ta cũng có th ph c h i ch t ch chu n hoá b ng cách phân tích c u trúc – âm ti t và b d u thích h p theo quy t c b d u cho trư c. Vi c này s giúp TT chu n hoá cách b d u cho toàn văn b n. Chu n hoá ‘y’ và ‘i’ N Ngoài vi c chu n hoá cách b d u, m t s ch trong ti ng Vi t k t thúc b ng C ‘y’ có th đư c đ i thành ‘i’. Ví d , “quý” và “quí” đ u h p l . Tuy nhiên, A không ph i ch nào k t thúc b ng ‘y’ cũng có th chuy n thành ‘i’, ví d “thuý” và “thúi”. Nguyên nhân là do khi chuy n thành ‘i’, ch cái này k t O h p v i ‘u’ t o ra âm chính ‘ui’ thay vì âm chính ‘i’. M t s ch k t thúc H b ng ‘i’ cũng không th chuy n sang ‘y’, ví d “bí”, “chí” . . . Vi c cho phép vi t m t t hai cách s làm gi m hi u su t c a chương trình do chươngK trình coi “quý” và “quí” là hai ch hoàn toàn khác nhau. Gi i pháp là l p danh sách nh ng t có âm chính là y/i và là âm ti t m , sau đó chuy n t t c nh ng t k t thúc b ng ‘i’ có trong danh sách trên sang ‘y’. Trong quá trình 86 CHƯƠNG 4. MÔ HÌNH 4.2. TI N X LÝ b t l i chính t , n u ngư i dùng yêu c u chu n hoá thì ta có th xem vi c vi t ‘y’ ho c ‘i’ như là sai chính t . N u không, ta s b qua khác bi t ‘y’ và ‘i’ bư c báo l i chính t . G m các ch sau (không xét thanh đi u): “mi”, “ti”, “thi”, “qui”, “ki”, “hi”, “li” “si”, “vi”. TN 4.2.4 Ch vi t hoa H Ch vi t hoa dùng đ bi u di n tên riêng, t vi t t t ho c dùng cho ch đ ng đ u câu. Do đó c n phân bi t ch đ u câu có ph i là ch b t đ u tên riêng K hay không. Ngoài ra, c n xác đ nh tên riêng khi tìm đư c ch vi t hoa b t H đ u tên riêng. Các văn b n ti ng Vi t chưa hoàn toàn th ng nh t v quy t c vi t hoa. Ví d , có tài li u dùng “C ng hoà Xã h i Ch nghĩa Vi t Nam”, Đ nhưng có tài li u l i dùng “C ng Hoà Xã H i Ch Nghĩa Vi t Nam”. Do văn b n đ u vào có kh năng b sai chính t , kèm theo s không th ng – nh t trong quy cách vi t tên riêng, nên khó có th xác đ nh tên riêng ngay TT bư c ti n x lý. Vì v y ph n này s đư c th c hi n trong ph n tách t thay vì trong ph n ti n x lý. N 4.2.5 T nư c ngoài, t vi t t t, các ký hi u . . . C X lý ti ng nư c ngoài, các ký hi u chuyên ngành, các t vi t t t. Do trình A b t l i không có ki n th c v các lĩnh v c chuyên ngành, cũng như các th O ti ng trên th gi i, nên vi c áp d ng tri th c đ phân lo i là đi u h t s c khó khăn. Gi i pháp đư c dùng đây là xem các t nư c ngoài, t vi t t t, các H ký hi u . . . như là nh ng ch bình thư ng (và s đư c xem như là l i chínhK t trong ph n b t l i chính t ). Ph n này s c g ng phân lo i m t s lo i thư ng g p như s , ngày tháng . . . nh m gi m b t các l i sai chính t không đáng có. Các con s 87 CHƯƠNG 4. MÔ HÌNH 4.3. B T L I NON-WORD đư c đánh d u riêng b ng mã N U M . “S ” đây đư c coi là b t c ch nào b t đ u b ng s . Ví d , “0lit”, “0.2”, “0-4” . . . đ u đư c coi là s . Ngày tháng đư c nh n d ng theo m u “ngày-tháng-năm” ho c “ngày/tháng/năm”. Nói cách khác, ngày tháng là các s liên ti p, cách nhau b ng d u ‘/’ ho c TN ‘–’. Ngày tháng cũng đư c đánh nhãn N U M . 4.3 B t l i non-word H K 4.3.1 Tì ...
Tìm kiếm theo từ khóa liên quan:
Luận văn kinh tế mẫu luận văn giáo trình kinh tế trình bày báo cáo tốt nghiệp kế toán tài chínhGợi ý tài liệu liên quan:
-
72 trang 371 1 0
-
Hành vi tổ chức - Bài 1: Tổng quan về hành vi tổ chức
16 trang 275 0 0 -
3 trang 238 8 0
-
Đề tài Thực trạng và nhưng giải pháp cho công tác quy hoạch sử dụng đất'
35 trang 212 0 0 -
Hành vi tổ chức - Bài 5: Cơ sở của hành vi nhóm
18 trang 212 0 0 -
Bàn về nghiệp vụ bảo hiểm nhân thọ thế giới và các loại hình hiện nay ở Việt Nam -4
8 trang 200 0 0 -
Luận văn tốt nghiệp: Thương mại điện tử trong hoạt động ngoại thương VN-thực trạng và giải pháp
37 trang 194 0 0 -
100 trang 187 1 0
-
104 trang 185 0 0
-
NHỮNG VẤN ĐỀ CƠ BẢN VỀ TIỀN TỆ, TÍN DỤNG
68 trang 174 0 0