LUẬN VĂN: Xây dựng chương trình thống kê kí tự đơn và kí tự đôi trong file văn bản tiếng Việt mã ABC
Số trang: 34
Loại file: pdf
Dung lượng: 358.19 KB
Lượt xem: 8
Lượt tải: 0
Xem trước 4 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Từ khi máy vi tính trở nên phổ biến và rộng rãi trong nước, nhu cầu sử dụng chữ Việt trên máy vi tính đã trở thành nhu cầu cấp thiết đối với người sử dụng. Việc đưa tiếng Việt vào máy tính là một vấn đề có tầm quan trọng trong việc tin học hóa, phổ cập tin học và phát triển công nghệ phần mềm trong nước. Do vậy đã có nhiều cá nhân, tập thể trong và ngoài nước đã tập trung nhiều công sức trong việc đưa tiếng Việt vào các máy tính nói chung...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN: Xây dựng chương trình thống kê kí tự đơn và kí tự đôi trong file văn bản tiếng Việt mã ABC LUẬN VĂN:Xây dựng chương trình thống kê kítự đơn và kí tự đôi trong file văn bản tiếng Việt mã ABC I. Đặt vấn đề *Mục đích của đề tài Từ khi máy vi tính trở nên phổ biến và rộng rãi trong nước, nhu cầu sử dụng chữ Việttrên máy vi tính đã trở thành nhu cầu cấp thiết đối với người sử dụng. Việc đưa tiếng Việtvào máy tính là một vấn đề có tầm quan trọng trong việc tin học hóa, phổ cập tin học vàphát triển công nghệ phần mềm trong nước. Do vậy đã có nhiều cá nhân, tập thể trong vàngoài nước đã tập trung nhiều công sức trong việc đưa tiếng Việt vào các máy tính nóichung và máy vi tính nói riêng. Hiện nay có rất nhiều phần mềm đưa tiếng Việt vào máy tính, số lượng các phầnmềm này lớn cho ta thấy được ý nghĩa của việc đưa tiếng Việt vào máy tính. Tuy nhiênmỗi phần mềm này lại có một cách thức thể hiện khác nhau (cách mã hóa ký tự tiếng Việtkhác nhau). Có rất nhiều cách mã hóa ký tự Tiếng Việt. Mặc dù khác nhau, không thốngnhất theo những quy tắc chung, các giải pháp tiếng Việt đã phần nào đáp ứng đ ược nhucầu thực tiễn, ít nhất cũng trong phạm vi của một tổ chức, cơ quan...và góp phần vào việc“Việt hóa” các ứng dụng cho máy tính. ở cấp độ các cơ quan nhà nước, một b ộ mã tiếng Việt duy nhất được thống nhất sửdụng, đó là bộ mã TCVN3 hay còn gọi là mã ABC. Mặc dù vẫn còn nhiều khiếm khuyếtnhưng trên thực tế, bộ mã tiếng Việt 8 bit này đã được chấp nhận và lưu hành rộng rãi tạiHà Nội và các tỉnh phía Bắc sau một số năm áp dụng. Việc xử lý các văn bản sử dụngbảng mã ABC vẫn có ý nghĩa quan trọng trong thời điểm hiện tại. *Giói thiệu bài toán cụ thể của đề tài Chuyên đề thực tập này có nội dung như sau:“Xây dựng chương trình thống kê kí tự đơn và kí tự đôi trong file văn bản tiếng Việtmã ABC”. Đề tài gồm hai phần: Phần thứ nhất thống kê tất cả các kí tự đơn của file văn bản Phần thứ hai liệt kê số lần xuất hiện của một kí tự đơn sau một kí tự đơn khác làbao nhiêu lần trong toàn bộ file văn bản (ví dụ ta có kí tự đôi “ca”, vậy kí tự “a” sẽ đứngsau kí tự “c” là bao nhiêu lần trong văn bản), sau đó tính tần suất xuất hiện kí tự đôi. II. Cơ sở lý thuyết của đề tài thực tập Trình bầy tổng quan các nghiên cứu trong lý thuyết 1) File văn bản Để giải bài toán đặt ra, trước hết ta phải xác định kiểu file đầu vào cho chương trình.Trong Turbo Pascal, file văn bản được hiểu theo nghĩa chuẩn, các dữ liệu được lưu trữdưới dạng các ký tự trong bảng mã ASCII. Các ký tự đ ược liên kết thành từng dòng, dấuhết dòng được ghi nhận bởi cặp ký tự điều khiển có mã 13 (ký tự trở về đầu dòng - CR)và ký tự có mã 10 (ký tự xuống dòng - Lf). Không có quy định về chiều dài dòng cho filevăn bản. Turbo Pascal dùng tên chuẩn Text để đặt cho file văn bản. Vì thế lời khai báo biếnfile văn bản sẽ là: Var f: text;File văn bản chỉ có thể truy cập tuần tự chứ không thể truy cập trực tiếp như file địnhkiểu. Và cũng không thể vừa đọc vừa ghi trên file văn bản như file định kiểu. Tuy nhiên vì file văn bản không phụ thuộc vào định nghĩa kiểu thành phần nên nó làcông cụ giao tiếp chung giữa các chương trình. Bất cứ chương trình nào cũng có thể đọcdữ liệu từ file văn bản và kết xuất dữ liệu dưới dạng văn bản. Việc soạn thảo file văn bảncó thể dùng bất cứ một hệ soạn thảo nào (là những chương trình tiện ích vốn rất phongphú hiện nay). Chẳng hạn, có thể dùng ngay hệ soạn thảo của chính Turbo Pascal để xâydựng và hiệu chỉnh file văn bản. Các bước thao tác trên file văn bản tuân theo quy trình như sau: đầu tiên cần đăng kýbiến file văn bản (f) với tên file trên đĩa (name) bằng thủ tục Assign (f, name). Sau đó mởfile bằng thủ tục Reset (f) nếu nó đã có để chuẩn bị đọc, hoặc mở bằng thủ tục Rewrite (f)nếu muốn tạo mới để chuẩn bị ghi. Sau Reset chỉ có thể đọc và sau Rewrite chỉ có th ểghi. Mỗi lần đọc ghi xong con trỏ lại định vị đến vị trí kế tiếp. Việc đọc dữ liệu từ filevăn bản tương tự như đọc từ bàn phím, cũng dùng các thủ tục Read (f, var1, var2, ...),Readln nếu muốn đọc từng dòng. Các biến ký tự đ ược đọc theo từng đơn vị ký tự, cácbiến xâu ký tự được đọc đúng độ dài của nó hoặc cho đến khi gặp dấu xuống dòng. Việcghi ra file văn bản cũng tương tự như ghi ra màn hình (cũng dùng các thủ tục write vàwriteln). Sau khi thao tác xong cần đóng file nhờ thủ tục Close (f) để đảm bảo an toàn dữliệu. Ngoài ra còn có thủ tục Append (f) để mở một văn bản có sẵn để ghi kế tiếp, hàm Eof(f) để kiểm tra đã định vị đến cuối file chưa... 2) Kiểu con trỏ Trong Pascal, kiểu con trỏ là một kiểu dữ liệu đặc biệt, dùng để biểu diễn những giátrị địa chỉ. Nh ư thế kiểu con trỏ là những biến dùng để lưu những giá trị đ ịa chỉ của bộnhớ. Nhờ các biến con trỏ, ta có thể thao tác t ...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN: Xây dựng chương trình thống kê kí tự đơn và kí tự đôi trong file văn bản tiếng Việt mã ABC LUẬN VĂN:Xây dựng chương trình thống kê kítự đơn và kí tự đôi trong file văn bản tiếng Việt mã ABC I. Đặt vấn đề *Mục đích của đề tài Từ khi máy vi tính trở nên phổ biến và rộng rãi trong nước, nhu cầu sử dụng chữ Việttrên máy vi tính đã trở thành nhu cầu cấp thiết đối với người sử dụng. Việc đưa tiếng Việtvào máy tính là một vấn đề có tầm quan trọng trong việc tin học hóa, phổ cập tin học vàphát triển công nghệ phần mềm trong nước. Do vậy đã có nhiều cá nhân, tập thể trong vàngoài nước đã tập trung nhiều công sức trong việc đưa tiếng Việt vào các máy tính nóichung và máy vi tính nói riêng. Hiện nay có rất nhiều phần mềm đưa tiếng Việt vào máy tính, số lượng các phầnmềm này lớn cho ta thấy được ý nghĩa của việc đưa tiếng Việt vào máy tính. Tuy nhiênmỗi phần mềm này lại có một cách thức thể hiện khác nhau (cách mã hóa ký tự tiếng Việtkhác nhau). Có rất nhiều cách mã hóa ký tự Tiếng Việt. Mặc dù khác nhau, không thốngnhất theo những quy tắc chung, các giải pháp tiếng Việt đã phần nào đáp ứng đ ược nhucầu thực tiễn, ít nhất cũng trong phạm vi của một tổ chức, cơ quan...và góp phần vào việc“Việt hóa” các ứng dụng cho máy tính. ở cấp độ các cơ quan nhà nước, một b ộ mã tiếng Việt duy nhất được thống nhất sửdụng, đó là bộ mã TCVN3 hay còn gọi là mã ABC. Mặc dù vẫn còn nhiều khiếm khuyếtnhưng trên thực tế, bộ mã tiếng Việt 8 bit này đã được chấp nhận và lưu hành rộng rãi tạiHà Nội và các tỉnh phía Bắc sau một số năm áp dụng. Việc xử lý các văn bản sử dụngbảng mã ABC vẫn có ý nghĩa quan trọng trong thời điểm hiện tại. *Giói thiệu bài toán cụ thể của đề tài Chuyên đề thực tập này có nội dung như sau:“Xây dựng chương trình thống kê kí tự đơn và kí tự đôi trong file văn bản tiếng Việtmã ABC”. Đề tài gồm hai phần: Phần thứ nhất thống kê tất cả các kí tự đơn của file văn bản Phần thứ hai liệt kê số lần xuất hiện của một kí tự đơn sau một kí tự đơn khác làbao nhiêu lần trong toàn bộ file văn bản (ví dụ ta có kí tự đôi “ca”, vậy kí tự “a” sẽ đứngsau kí tự “c” là bao nhiêu lần trong văn bản), sau đó tính tần suất xuất hiện kí tự đôi. II. Cơ sở lý thuyết của đề tài thực tập Trình bầy tổng quan các nghiên cứu trong lý thuyết 1) File văn bản Để giải bài toán đặt ra, trước hết ta phải xác định kiểu file đầu vào cho chương trình.Trong Turbo Pascal, file văn bản được hiểu theo nghĩa chuẩn, các dữ liệu được lưu trữdưới dạng các ký tự trong bảng mã ASCII. Các ký tự đ ược liên kết thành từng dòng, dấuhết dòng được ghi nhận bởi cặp ký tự điều khiển có mã 13 (ký tự trở về đầu dòng - CR)và ký tự có mã 10 (ký tự xuống dòng - Lf). Không có quy định về chiều dài dòng cho filevăn bản. Turbo Pascal dùng tên chuẩn Text để đặt cho file văn bản. Vì thế lời khai báo biếnfile văn bản sẽ là: Var f: text;File văn bản chỉ có thể truy cập tuần tự chứ không thể truy cập trực tiếp như file địnhkiểu. Và cũng không thể vừa đọc vừa ghi trên file văn bản như file định kiểu. Tuy nhiên vì file văn bản không phụ thuộc vào định nghĩa kiểu thành phần nên nó làcông cụ giao tiếp chung giữa các chương trình. Bất cứ chương trình nào cũng có thể đọcdữ liệu từ file văn bản và kết xuất dữ liệu dưới dạng văn bản. Việc soạn thảo file văn bảncó thể dùng bất cứ một hệ soạn thảo nào (là những chương trình tiện ích vốn rất phongphú hiện nay). Chẳng hạn, có thể dùng ngay hệ soạn thảo của chính Turbo Pascal để xâydựng và hiệu chỉnh file văn bản. Các bước thao tác trên file văn bản tuân theo quy trình như sau: đầu tiên cần đăng kýbiến file văn bản (f) với tên file trên đĩa (name) bằng thủ tục Assign (f, name). Sau đó mởfile bằng thủ tục Reset (f) nếu nó đã có để chuẩn bị đọc, hoặc mở bằng thủ tục Rewrite (f)nếu muốn tạo mới để chuẩn bị ghi. Sau Reset chỉ có thể đọc và sau Rewrite chỉ có th ểghi. Mỗi lần đọc ghi xong con trỏ lại định vị đến vị trí kế tiếp. Việc đọc dữ liệu từ filevăn bản tương tự như đọc từ bàn phím, cũng dùng các thủ tục Read (f, var1, var2, ...),Readln nếu muốn đọc từng dòng. Các biến ký tự đ ược đọc theo từng đơn vị ký tự, cácbiến xâu ký tự được đọc đúng độ dài của nó hoặc cho đến khi gặp dấu xuống dòng. Việcghi ra file văn bản cũng tương tự như ghi ra màn hình (cũng dùng các thủ tục write vàwriteln). Sau khi thao tác xong cần đóng file nhờ thủ tục Close (f) để đảm bảo an toàn dữliệu. Ngoài ra còn có thủ tục Append (f) để mở một văn bản có sẵn để ghi kế tiếp, hàm Eof(f) để kiểm tra đã định vị đến cuối file chưa... 2) Kiểu con trỏ Trong Pascal, kiểu con trỏ là một kiểu dữ liệu đặc biệt, dùng để biểu diễn những giátrị địa chỉ. Nh ư thế kiểu con trỏ là những biến dùng để lưu những giá trị đ ịa chỉ của bộnhớ. Nhờ các biến con trỏ, ta có thể thao tác t ...
Tìm kiếm theo từ khóa liên quan:
văn bản tiếng Việt chương trình thống kê cao học kế toán cao học kiểm toán luận văn cao học thạc sỹ kế toán luận vănGợi ý tài liệu liên quan:
-
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 308 0 0 -
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 274 0 0 -
Luận văn: Thiết kế xây dựng bộ đếm xung, ứng dụng đo tốc độ động cơ trong hệ thống truyền động điện
63 trang 237 0 0 -
79 trang 230 0 0
-
Đồ án: Kỹ thuật xử lý ảnh sử dụng biến đổi Wavelet
41 trang 219 0 0 -
Tiểu luận: Phân tích chiến lược của Công ty Sữa Vinamilk
25 trang 218 0 0 -
LUẬN VĂN: TÌM HIỂU PHƯƠNG PHÁP HỌC TÍCH CỰC VÀ ỨNG DỤNG CHO BÀI TOÁN LỌC THƯ RÁC
65 trang 215 0 0 -
Báo cáo thực tập nhà máy đường Bến Tre
68 trang 213 0 0 -
Báo cáo bài tập môn học : phân tích thiết kế hệ thống
27 trang 205 0 0 -
BÀI THUYẾT TRÌNH CÔNG TY CỔ PHẦN
11 trang 205 0 0