Danh mục

Báo cáo khoa học: Faster and Smaller N -Gram Language Models

Số trang: 10      Loại file: pdf      Dung lượng: 273.57 KB      Lượt xem: 7      Lượt tải: 0    
Jamona

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

N -gram language models are a major resource bottleneck in machine translation. In this paper, we present several language model implementations that are both highly compact and fast to query. Our fastest implementation is as fast as the widely used SRILM while requiring only 25% of the storage. Our most compact representation can store all 4 billion n-grams and associated counts for the Google n-gram corpus in 23 bits per n-gram, the most compact lossless representation to date, and even more compact than recent lossy compression techniques. ...
Nội dung trích xuất từ tài liệu:
Báo cáo khoa học: "Faster and Smaller N -Gram Language Models"

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: