Danh mục

Lecture Natural language processing: Chapter 4 – Lê Ngọc Tấn

Số trang: 15      Loại file: pdf      Dung lượng: 119.99 KB      Lượt xem: 3      Lượt tải: 0    
Hoai.2512

Phí tải xuống: 1,000 VND Tải xuống file đầy đủ (15 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Lecture “Natural language processing – Chapter 4: Computational linguistics” has contents: What is computational linguistics, corpus definitions, corpus categories, parallel corpora application, alignment methods, normalization, lemmatization and tokenization.
Nội dung trích xuất từ tài liệu:
Lecture Natural language processing: Chapter 4 – Lê Ngọc TấnTrường Đại học Công nghiệp Tp. HCMKhoa Công nghệ thông tin(Faculty of Information Technology)N.L.P.NATURAL LANGUAGE PROCESSINGTeacher: Lê Ngọc Tấn Email: letan.dhcn@gmail.com Blog: http://lengoctan.wordpress.comChapter 4Computational LinguisticsNLP. p.2What is computational linguistics?It is an interdisciplinary field dealing with the statisticalor rule-based modeling of natural language from acomputational perspectiveCorpus, CorporaPre-processing : normalization, tokenization,…Alignment MethodsProgrammingNLP. p.3Corpus DefinitionsWhat is a corpus?– It contains an important number of texts– Corpora : a set of corpusGolden corpus– Brown Corpus– Susanne Corpus– EUROPARL CorpusCorpus can be annotated or POS taggedNLP. p.4Corpus Categories (1)Schema of corpus evolutionNLP. p.5

Tài liệu được xem nhiều: