Lược sử quá trình hình thành và phát triển của Ngôn ngữ học khối liệu
Số trang: 4
Loại file: pdf
Dung lượng: 101.77 KB
Lượt xem: 11
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Xuất phát điểm của sự hình thành và ra đời Ngôn ngữ học khối liệu có thể tính vào thời điểm đầu những năm 60 thế kỉ XX, khi xuất hiện khối liệu văn bản ngôn ngữ đầu tiên tại Mĩ và bắt đầu phát triển trong vòng hai thập kỉ trở lại đây. Năm 1963, lần đầu tiên khối liệu văn bản điện tử - khối liệu Brown được xây dựng tại trường đại học Brown (Mĩ) do các tác giả là W. Francis và H. Kucera thiết kế và xây dựng bao gồm 1 triệu đơn vị từ...
Nội dung trích xuất từ tài liệu:
Lược sử quá trình hình thành và phát triển của Ngôn ngữ học khối liệu Lược sử quá trình hình thành và phát triển của Ngôn ngữ học khối liệuXuất phát điểm của sự hình thành và ra đời Ngôn ngữ học khối liệu có thể tính vàothời điểm đầu những năm 60 thế kỉ XX, khi xuất hiện khối liệu văn bản ngôn ngữđầu tiên tại Mĩ và bắt đầu phát triển trong vòng hai thập kỉ trở lại đây. Năm 1963,lần đầu tiên khối liệu văn bản điện tử - khối liệu Brown được xây dựng tại trườngđại học Brown (Mĩ) do các tác giả là W. Francis và H. Kucera thiết kế và xâydựng bao gồm 1 triệu đơn vị từ và cụm từ Anh - Mĩ từ các văn bản in ấn được lựachọn vào năm 1961. Sự xuất hiện của khối liệu Brown đã gây sự quan tâm lớnkhông những đối với các nhà ngôn ngữ học, trước hết, về các nguyên tắc lựa chọnvăn bản và các nhiệm vụ được giải quyết trong khối liệu.Tiếp theo khối liệu Brown là sự ra đời của hàng loạt các khối liệu. Các nghiên cứucho thấy rằng Ngôn ngữ học khối liệu được hình thành như một ngành khoa họcđộc lập về ngôn ngữ văn bản là vào những năm 90 thế kỉ XX. Ngôn ngữ học khốiliệu vẫn có các mối quan hệ mật thiết với Ngôn ngữ học máy tính qua việc sửdụng các thành tựu của Ngôn ngữ học máy tính và ngược lại, gây ảnh hưởng tíchcực lên Ngôn ngữ học máy tính trong quá trình phát triển.Trong thập kỉ vừa qua, tại nhiều quốc gia đã và đang tiến hành việc xây dựng cáckhối liệu trên cơ sở bản ngữ. Trong đó, mạnh mẽ hơn cả là công trình xây dựngkhối liệu tiếng Anh, xuất hiện lần đầu tiên vào những năm 60 thế kỉ XX, điển hìnhsau khối liệu Brown University là khối liệu Lancaster/Oslo-Bergen (LOB). Mỗikhối liệu chứa khoảng 1 triệu đơn vị từ và cụm từ sử dụng với sơ đồ hình thái học.Ngoài ra, khối liệu Lancaster/Oslo-Bergen còn chứa 2 khối liệu con là Leeds-Lancaster Treebank và Lancaster Parsed với sơ đồ cú pháp học. Khối liệu AnhQuốc (BNC) chứa đến 100 triệu đơn vị từ và cụm từ sử dụng cũng được coi là mộttrong số các khối liệu lớn nhất hiện nay. Khối liệu này được xây dựng vào nhữngnăm 90 thế kỉ XX trên cơ sở sơ đồ hình thái học, bao gồm khoảng 90% đơn vị từvà cụm từ sử dụng ở dạng viết, 10% số đơn vị còn lại ở dạng nói.Ngày nay, việc dạy và học tiếng Anh đạt hiệu quả, trong đó một phần đáng kể làcó sự trợ giúp của công nghệ máy tính với việc sử dụng khối liệu. Có thể kể đếncác khối liệu quan trọng như Bank of English 1997 với 320 triệu đơn vị từ và cụmtừ sử dụng hoặc ICLE 1997 với 200 triệu đơn vị từ và cụm từ sử dụng dưới dạngviết dành cho người nước ngoài . Ngoài các khối liệu kể trên, còn tồn tại hàng loạtkhối liệu tiếng Anh khác được sử dụng cho việc nghiên cứu bằng tiếng Anh, choviệc dạy và học tiếng Anh như một ngoại ngữ.Đối với các nước châu Âu khác, trong số các khối liệu, cần kể đến khối liệu tiếngĐức. Đây là tập hợp lớn nhất các văn bản và ngôn bản bằng tiếng Đức, bao gồmkhoảng 2 tỉ đơn vị từ và cụm từ sử dụng. Khối liệu này chứa sơ đồ hình thái - cúpháp học dựa trên cơ sở SGML (Standard Generalized Markup Language). Hệthống tự động hóa COSMAS II của khối liệu tiếng Đức cho phép người sử dụngdễ dàng tìm kiếm thống tin chứa trong khối liệu này theo các dấu hiệu tình tháihọc của dạng từ. Một hệ thống khác cũng cần kể đến là khối liệu tiếng Tiệp với100 triệu đơn vị từ và cụm từ sử dụng. Ở đây, chương trình ngôn ngữ hỗ trợ chokhối liệu là chương trình tạo lập danh mục từ và cụm từ trong khối liệu cho phépcập nhật toàn bộ các ví dụ sử dụng với đầy đủ trích dẫn, tần số xuất hiện, phân tíchngữ pháp từ hoặc cụm từ sử dụng trong khối liệu.Đối với các nước châu Á, Trung Quốc và Nhật Bản là những nước có các khối liệubản ngữ lớn nhất. Khối liệu tiếng Trung chứa khoảng 1 tỷ đơn vị từ và cụm từ,đang được sử dụng rất rộng rãi và hữu hiệu, phục vụ đắc lực cho nền kinh tế pháttriển của Trung Quốc.Tại Liên bang Nga, ngôn ngữ học khối liệu được bắt đầu nghiên cứu mới chỉ trongvòng hơn thập kỉ trở lại đây, nhưng với tốc độ rất nhanh về thực hành, chuẩn xácvề lí thuyết. Hiện nay, Ngôn ngữ học khối liệu đang được giảng dạy tại các trườngđại học lớn và nghiên cứu tích cực tại các viện nghiên cứu ngôn ngữ của Liênbang Nga nhằm phục vụ cho một nền kinh tế tăng trưởng. Trong vòng 5-6 năm trởlại đây, Ngôn ngữ học khối liệu ở LB Nga được đặc biệt quan tâm nghiên cứu vàphát triển. Các khối liệu tại LB Nga được sử dụng rộng rãi trong các lĩnh vực củangôn ngữ học ứng dụng, từ vựng học, dạy và học ngoại ngữ, ngôn ngữ học máytính và các lĩnh vực khoa học xã hội khác. Khối liệu tiếng Nga đến nay đã tăngđáng kể lượng các đơn vị từ và cụm từ sử dụng, mở rộng phạm vi sử dụng ngônngữ trong nhiều lĩnh vực khoa học khác nhau.Ở Việt Nam, việc xây dựng khối liệu tiếng Việt trong quá trình hội nhập quốc tếcủa Việt Nam là vấn đề cần thiết và cấp bách.Nhờ sự phát triển của khối liệu văn bản tương đương giữa các cặp ngôn ngữ, cuốithế kỉ XX đã xuất hiện hệ thống dịch theo phương pháp thống kê tự động đầu tiên,«…mặc dù vẫn còn những hạn chế, phươn ...
Nội dung trích xuất từ tài liệu:
Lược sử quá trình hình thành và phát triển của Ngôn ngữ học khối liệu Lược sử quá trình hình thành và phát triển của Ngôn ngữ học khối liệuXuất phát điểm của sự hình thành và ra đời Ngôn ngữ học khối liệu có thể tính vàothời điểm đầu những năm 60 thế kỉ XX, khi xuất hiện khối liệu văn bản ngôn ngữđầu tiên tại Mĩ và bắt đầu phát triển trong vòng hai thập kỉ trở lại đây. Năm 1963,lần đầu tiên khối liệu văn bản điện tử - khối liệu Brown được xây dựng tại trườngđại học Brown (Mĩ) do các tác giả là W. Francis và H. Kucera thiết kế và xâydựng bao gồm 1 triệu đơn vị từ và cụm từ Anh - Mĩ từ các văn bản in ấn được lựachọn vào năm 1961. Sự xuất hiện của khối liệu Brown đã gây sự quan tâm lớnkhông những đối với các nhà ngôn ngữ học, trước hết, về các nguyên tắc lựa chọnvăn bản và các nhiệm vụ được giải quyết trong khối liệu.Tiếp theo khối liệu Brown là sự ra đời của hàng loạt các khối liệu. Các nghiên cứucho thấy rằng Ngôn ngữ học khối liệu được hình thành như một ngành khoa họcđộc lập về ngôn ngữ văn bản là vào những năm 90 thế kỉ XX. Ngôn ngữ học khốiliệu vẫn có các mối quan hệ mật thiết với Ngôn ngữ học máy tính qua việc sửdụng các thành tựu của Ngôn ngữ học máy tính và ngược lại, gây ảnh hưởng tíchcực lên Ngôn ngữ học máy tính trong quá trình phát triển.Trong thập kỉ vừa qua, tại nhiều quốc gia đã và đang tiến hành việc xây dựng cáckhối liệu trên cơ sở bản ngữ. Trong đó, mạnh mẽ hơn cả là công trình xây dựngkhối liệu tiếng Anh, xuất hiện lần đầu tiên vào những năm 60 thế kỉ XX, điển hìnhsau khối liệu Brown University là khối liệu Lancaster/Oslo-Bergen (LOB). Mỗikhối liệu chứa khoảng 1 triệu đơn vị từ và cụm từ sử dụng với sơ đồ hình thái học.Ngoài ra, khối liệu Lancaster/Oslo-Bergen còn chứa 2 khối liệu con là Leeds-Lancaster Treebank và Lancaster Parsed với sơ đồ cú pháp học. Khối liệu AnhQuốc (BNC) chứa đến 100 triệu đơn vị từ và cụm từ sử dụng cũng được coi là mộttrong số các khối liệu lớn nhất hiện nay. Khối liệu này được xây dựng vào nhữngnăm 90 thế kỉ XX trên cơ sở sơ đồ hình thái học, bao gồm khoảng 90% đơn vị từvà cụm từ sử dụng ở dạng viết, 10% số đơn vị còn lại ở dạng nói.Ngày nay, việc dạy và học tiếng Anh đạt hiệu quả, trong đó một phần đáng kể làcó sự trợ giúp của công nghệ máy tính với việc sử dụng khối liệu. Có thể kể đếncác khối liệu quan trọng như Bank of English 1997 với 320 triệu đơn vị từ và cụmtừ sử dụng hoặc ICLE 1997 với 200 triệu đơn vị từ và cụm từ sử dụng dưới dạngviết dành cho người nước ngoài . Ngoài các khối liệu kể trên, còn tồn tại hàng loạtkhối liệu tiếng Anh khác được sử dụng cho việc nghiên cứu bằng tiếng Anh, choviệc dạy và học tiếng Anh như một ngoại ngữ.Đối với các nước châu Âu khác, trong số các khối liệu, cần kể đến khối liệu tiếngĐức. Đây là tập hợp lớn nhất các văn bản và ngôn bản bằng tiếng Đức, bao gồmkhoảng 2 tỉ đơn vị từ và cụm từ sử dụng. Khối liệu này chứa sơ đồ hình thái - cúpháp học dựa trên cơ sở SGML (Standard Generalized Markup Language). Hệthống tự động hóa COSMAS II của khối liệu tiếng Đức cho phép người sử dụngdễ dàng tìm kiếm thống tin chứa trong khối liệu này theo các dấu hiệu tình tháihọc của dạng từ. Một hệ thống khác cũng cần kể đến là khối liệu tiếng Tiệp với100 triệu đơn vị từ và cụm từ sử dụng. Ở đây, chương trình ngôn ngữ hỗ trợ chokhối liệu là chương trình tạo lập danh mục từ và cụm từ trong khối liệu cho phépcập nhật toàn bộ các ví dụ sử dụng với đầy đủ trích dẫn, tần số xuất hiện, phân tíchngữ pháp từ hoặc cụm từ sử dụng trong khối liệu.Đối với các nước châu Á, Trung Quốc và Nhật Bản là những nước có các khối liệubản ngữ lớn nhất. Khối liệu tiếng Trung chứa khoảng 1 tỷ đơn vị từ và cụm từ,đang được sử dụng rất rộng rãi và hữu hiệu, phục vụ đắc lực cho nền kinh tế pháttriển của Trung Quốc.Tại Liên bang Nga, ngôn ngữ học khối liệu được bắt đầu nghiên cứu mới chỉ trongvòng hơn thập kỉ trở lại đây, nhưng với tốc độ rất nhanh về thực hành, chuẩn xácvề lí thuyết. Hiện nay, Ngôn ngữ học khối liệu đang được giảng dạy tại các trườngđại học lớn và nghiên cứu tích cực tại các viện nghiên cứu ngôn ngữ của Liênbang Nga nhằm phục vụ cho một nền kinh tế tăng trưởng. Trong vòng 5-6 năm trởlại đây, Ngôn ngữ học khối liệu ở LB Nga được đặc biệt quan tâm nghiên cứu vàphát triển. Các khối liệu tại LB Nga được sử dụng rộng rãi trong các lĩnh vực củangôn ngữ học ứng dụng, từ vựng học, dạy và học ngoại ngữ, ngôn ngữ học máytính và các lĩnh vực khoa học xã hội khác. Khối liệu tiếng Nga đến nay đã tăngđáng kể lượng các đơn vị từ và cụm từ sử dụng, mở rộng phạm vi sử dụng ngônngữ trong nhiều lĩnh vực khoa học khác nhau.Ở Việt Nam, việc xây dựng khối liệu tiếng Việt trong quá trình hội nhập quốc tếcủa Việt Nam là vấn đề cần thiết và cấp bách.Nhờ sự phát triển của khối liệu văn bản tương đương giữa các cặp ngôn ngữ, cuốithế kỉ XX đã xuất hiện hệ thống dịch theo phương pháp thống kê tự động đầu tiên,«…mặc dù vẫn còn những hạn chế, phươn ...
Tìm kiếm theo từ khóa liên quan:
Ngôn ngữ học khối liệu mở rộng ngôn ngữ xuyên ngôn ngữ ngôn ngữ lập trình c++ phát triển ngôn ngữ quá trình hình thànhGợi ý tài liệu liên quan:
-
Giáo trình Cấu trúc dữ liệu và thuật toán trên C++
74 trang 347 0 0 -
Kế hoạch chủ đề: Bé đi du lịch vui ghê
97 trang 318 0 0 -
46 trang 239 0 0
-
Đề cương bài giảng học phần: Phát triển ngôn ngữ tuổi mầm non
69 trang 216 0 0 -
Tài liệu học tập môn Tin cơ sở: Phần 1 - Phùng Thị Thu Hiền
100 trang 182 1 0 -
Giới thiệu môn học Ngôn ngữ lập trình C++
5 trang 177 0 0 -
51 trang 132 0 0
-
Tác phẩm văn học với một số phương pháp cho trẻ làm quen (In lần thứ 4): Phần 2
18 trang 127 0 0 -
Lý thuyết ngôn ngữ lập trình C++ dành cho sinh viên: Phần 2
276 trang 110 0 0 -
Đề tài Phát triển ngôn ngữ thông qua một số trò chơi dân gian
75 trang 110 0 0