Điều phối tác vụ trong hệ thống MAP-REDUCE dựa trên tính địa phương của dữ liệu

Số trang: 6 Loại file: pdf Dung lượng: 1.65 MB Lượt xem: 12 Lượt tải: 0

tailieu_vip

Phí tải xuống: 1,000 VND

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết tập trung nghiên cứu và so sánh hiệu suất hệ thống trong các trường hợp độ sao lưu dữ liệu có giá trị khác nhau, từ đó giúp người vận hành hệ thống Map-Reduce có thêm một tiêu chí để chọn các thông số hệ thống phù hợp. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Điều phối tác vụ trong hệ thống MAP-REDUCE dựa trên tính địa phương của dữ liệu Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) iu Phi Tác V Trong H Thng MAP-REDUCE Da Trên Tính a Phưng Ca D Liu Hunh Tn t Bùi Xuân Lc Hc viên Khoa Công Ngh Thông Tin II Khoa K Thut Hc Vin Công Ngh Bưu Chính Vin Thông i Hc Tân To Email: dathuynhtan@gmail.com Email: locbui@ieee.org Abstract— Vn  d liu a phưng là mt vn  quan trng thêm  to ra kt qu cui cùng. Khi thc hin các tác v cn xem xét khi thit k thut toán iu phi công vic cho h “map”, mt trong nhng xem xét quan trng là vic phân b thng Map-Reduce. Gn ây, bài báo k thut [13] ã gii quyt tác v gn vi máy tính lưu tr khi d liu u vào cho tác v ưc vn  d liu a phưng bng vic  xut mt kin trúc ó; vn  này còn ưc gi là vn  d liu a phưng. hàng i mi và mt thut toán iu phi tác v ánh x (map task) da trên chính sách JSQ (Join the Shortest Queue) kt hp i vi mi tác v, chúng ta gi mt máy tính là mt máy vi chính sách MaxWeight. Tuy nhiên, bài báo [13] ch xem xét tính a phưng cho tác v nu on d liu liên quan n tác trưng hp  sao lưu d liu là mt giá tr c th bng 3. Trên v này ưc lưu tr ngay ti máy tính ó, và chúng ta gi tác thc t, tu thuc vào cu hình h thng,  sao lưu d liu có th v này là mt tác v a phưng trên máy tính. Trong trưng ln hn hoc nh hn 3. Trong bài báo này, chúng tôi m rng nghiên cu ca bài báo [13] và so sánh hiu sut h thng trong hp còn li (ngha là d liu cn thit cho tác v không ưc các trưng hp  sao lưu d liu có giá tr khác nhau, t ó lưu tr ti máy tính), máy tính ó ưc gi là máy tính t xa giúp ngưi vn hành h thng Map-Reduce có thêm mt tiêu chí cho tác v, và tưng ng vi tác v này ưc gi là tác v t  chn các thông s h thng phù hp. xa trên máy tính. Tính a phưng nên ưc xem xét n trong vic phân b các tác v “map” chy trên các máy tính. Vic Keywords- in toán ám mây, Map-Reduce, d liu a ci thin tính a phưng có th gim thi gian x lý ca các phưng, Hadoop. tác v “map” và lưu lưng ti t mng khi mt vài tác v “map” cn ly d liu t xa. Tuy nhiên, vic gán tt c các tác I. GII THIU v n các máy tính a phưng có th dn n mt s phân Ngày nay, chúng ta ang sng trong thi i thông tin, vi phi không ng u ca các tác v gia các máy, tc là mt s tng trưng bùng n thông tin theo cp s nhân. Nhng s máy b tc nghn trong khi các máy khác nhàn ri. Vì vy công ty hàng u v công ngh thông tin như Google, Yahoo!, chúng ta cn phi cân bng gia các d liu a phưng và cân Amazon, Microsoft, Facebook, Twitter… ang i mt vi bng ti trong Map-Reduce. ây chính là ng lc thúc y mt khi lưng d liu khng l. S tng trưng này òi hi các nhà nghiên cu tìm hiu, ci tin,  xut các thut toán các chin lưc mi  x lý và phân tích d liu. in toán mi nhm nâng cao hiu qu s dng và hiu sut h thng. ám mây ưc phát trin và Map-Reduce/Hadoop ang là mt Mt s thut toán iu phi ưc  xut trưc ây trong h mô hình tính toán mnh m ưc ng dng trong in toán thng Map-Reduce/Hadoop  ci thin d liu a phưng. ám mây. Vic x lý các tp d liu quy mô ln ã tr thành Thut toán FIFO scheduler trong Hadoop [12] vi vic iu mt vn  ngày càng quan trng và y thách thc vi s phi mt máy sn sàng  phc v tác v “map” t công vic lưng d liu ưc to ra bi các mng xã hi trc tuyn, head-of-line vi d liu gn nht n máy tính. Mc dù mt vài nghiên cu khoa hc… Map-Reduce/Hadoop [9]-[15] là mt ti ưu hoá a phưng ã ưc thc hin, vn  head-of-line framework n gin nhưng mnh m  x lý các tp d liu blocking  a phưng vn tn ti và hiu sut thông lưng vn quy mô ln trong môi trưng phân tán và x lý song song, và b hn ch. Thut toán Fair Scheduler trong Hadoop [6] vi k ang ưc s dng rng rãi trong thc t. Mt cm máy tính thut iu phi chm tr ưc s dng  ci thin a phưng. Map-Reduce có th bao gm hàng chc ngàn máy tính [2]. Các Khi mt máy tính yêu cu mt tác v mi, nu công vic ưc d liu ưc lưu tr thưng ưc t chc trên h thng phân iu phi tip  công bng không có tác v a phưng sn có phi tp tin (ví d h thng tp tin Google (GFS) [10], h thng cho máy tính này, thì công vic tm thi b qua và máy tính tp tin phân tán Hadoop (HDFS) [4]) trong ó phân chia mt kim tra các công vic tip theo trong danh sách. K t khi tp d liu ln thành nhiu o ...