数据交易导航,数据资产入表,数据交易平台,数据要素市场

數(shù)據(jù)產(chǎn)品

——? PRODUCTS CENTER? ——

《大數(shù)據(jù)處理框架Apache Spark設(shè)計(jì)與實(shí)現(xiàn)》
更新時(shí)間:2023/04/01
《大數(shù)據(jù)處理框架Apache Spark設(shè)計(jì)與實(shí)現(xiàn)》

內(nèi)容簡(jiǎn)介

近年來(lái),以Apache Spark為代表的大數(shù)據(jù)處理框架在學(xué)術(shù)界和工業(yè)界得到了廣泛的使用。本書(shū)以Apache Spark框架為核心,總結(jié)了大數(shù)據(jù)處理框架的基礎(chǔ)知識(shí)、核心理論、典型的Spark應(yīng)用,以及相關(guān)的性能和可靠性問(wèn)題。本書(shū)分9章,主要包含四部分內(nèi)容。*部分 大數(shù)據(jù)處理框架的基礎(chǔ)知識(shí)(第1~2章):介紹大數(shù)據(jù)處理框架的基本概念、系統(tǒng)架構(gòu)、編程模型、相關(guān)的研究工作,并以一個(gè)典型的Spark應(yīng)用為例概述Spark應(yīng)用的執(zhí)行流程。第二部分 Spark大數(shù)據(jù)處理框架的核心理論(第3~4章):介紹Spark框架將應(yīng)用程序轉(zhuǎn)化為邏輯處理流程,進(jìn)而轉(zhuǎn)化為可并行執(zhí)行的物理執(zhí)行計(jì)劃的一般過(guò)程及方法。第三部分 典型的Spark應(yīng)用(第5章):介紹迭代型的Spark機(jī)器學(xué)習(xí)應(yīng)用和圖計(jì)算應(yīng)用。第四部分 大數(shù)據(jù)處理框架性能和可靠性保障機(jī)制(第6~9章):介紹Spark框架的Shuffle機(jī)制、數(shù)據(jù)緩存機(jī)制、錯(cuò)誤容忍機(jī)制、內(nèi)存管理機(jī)制等。

作者簡(jiǎn)介

許利杰現(xiàn)任中國(guó)科學(xué)院軟件研究所副研究員、碩士生導(dǎo)師,于中科院軟件所獲得博士學(xué)位。當(dāng)前主要從事大數(shù)據(jù)系統(tǒng)方面的研究工作,已在國(guó)際權(quán)威會(huì)議如VLDB、ICDCS、IPDPS、ISSRE、ICAC等發(fā)表論文10余篇,主持多項(xiàng)國(guó)家自然科學(xué)基金,以及華為、、聯(lián)想等企業(yè)的合作研發(fā)項(xiàng)目。曾為Apache Spark和Hadoop修復(fù)多個(gè)內(nèi)核代碼嚴(yán)重錯(cuò)誤,編寫(xiě)的SparkInternals技術(shù)文檔被社區(qū)廣泛關(guān)注,獲得四千多顆星。博士期間曾在微軟亞洲研究院、阿里巴巴、騰訊擔(dān)任客座研究學(xué)生。目前還擔(dān)任中國(guó)計(jì)算機(jī)學(xué)會(huì)系統(tǒng)軟件專(zhuān)委會(huì)委員、中國(guó)科學(xué)院青年創(chuàng)新促進(jìn)會(huì)會(huì)員。方亞芬現(xiàn)任中國(guó)科學(xué)院軟件研究所工程師,于南開(kāi)大學(xué)獲得學(xué)士學(xué)位、中科院軟件所獲得碩士學(xué)位。當(dāng)前主要從事大數(shù)據(jù)系統(tǒng)、操作系統(tǒng)方面的研發(fā)工作,參與多項(xiàng)國(guó)家自然科學(xué)基金、國(guó)家重點(diǎn)研發(fā)計(jì)劃,以及華為、騰訊、中國(guó)郵政等企業(yè)的合作研發(fā)項(xiàng)目。曾在阿里巴巴等擔(dān)任客座研究學(xué)生,目前是華為openEuler社區(qū)樹(shù)莓派項(xiàng)目負(fù)責(zé)人。

目  錄

第 1 章 大數(shù)據(jù)處理框架概覽 .....................2
1.1 大數(shù)據(jù)及其帶來(lái)的挑戰(zhàn) .....................2
1.2 大數(shù)據(jù)處理框架 ........................3
1.3 大數(shù)據(jù)應(yīng)用及編程模型 .....................4
1.4 大數(shù)據(jù)處理框架的四層結(jié)構(gòu) ...................5
1.4.1 用戶(hù)層 .......................... 7
1.4.2 分布式數(shù)據(jù)并行處理層 ...................11
1.4.3 資源管理與任務(wù)調(diào)度層 ...................13
1.4.4 物理執(zhí)行層 ........................15
1.5 錯(cuò)誤容忍機(jī)制 .........................17
1.6 其他大數(shù)據(jù)處理框架 ......................18
1.7 本章小結(jié) ...........................18
1.8 擴(kuò)展閱讀 ...........................18
第 2 章 Spark 系統(tǒng)部署與應(yīng)用運(yùn)行的基本流程 .............20
2.1 Spark 安裝部署 ........................20
2.2 Spark 系統(tǒng)架構(gòu) ........................21
2.3 Spark 應(yīng)用例子 ........................24
2.3.1 用戶(hù)代碼基本邏輯 ................... .24
2.3.2 邏輯處理流程 ....................... 28
2.3.3 物理執(zhí)行計(jì)劃 ....................... 32
2.3.4 可視化執(zhí)行過(guò)程 ...................... 34
2.4 Spark 編程模型 ........................38
2.5 本章小結(jié) ...........................39
第 3 章 Spark 邏輯處理流程 ...................41
3.1 Spark 邏輯處理流程概覽 ....................41
3.2 Spark 邏輯處理流程生成方法 ..................43
3.2.1 根據(jù)應(yīng)用程序如何產(chǎn)生 RDD,產(chǎn)生什么樣的 RDD ......... 44
3.2.2 如何建立 RDD 之間的數(shù)據(jù)依賴(lài) 關(guān)系............ 44
3.2.3 如何計(jì)算 RDD 中的數(shù)據(jù) .................. 49
3.3 常用 transformation() 數(shù)據(jù)操作 ................50
3.4 常用 action() 數(shù)據(jù)操作 ..................86
3.5 對(duì)比 MapReduce,Spark 的優(yōu)缺點(diǎn)...............98
3.6 本章小結(jié) .........................99
3.7 擴(kuò)展閱讀 .........................100
第 4 章 Spark 物理執(zhí)行計(jì)劃 ...................101
4.1 Spark 物理執(zhí)行計(jì)劃概覽 ..................101
4.2 Spark 物理執(zhí)行計(jì)劃生成方法 ................105
4.3 常用數(shù)據(jù)操作生成的物理執(zhí)行計(jì)劃...............113
4.4 本章小結(jié) .........................121
4.5 擴(kuò)展閱讀 .........................121
第 5 章 迭代型 Spark 應(yīng)用 ...................123
5.1 迭代型 Spark 應(yīng)用的分類(lèi)及特點(diǎn)...............123
5.2 迭代型機(jī)器學(xué)習(xí)應(yīng)用 SparkLR ................124
5.2.1 應(yīng)用描述 ........................124
5.2.2 算法原理 ....................... 125
5.2.3 基于 Spark 的并行化實(shí)現(xiàn) ................ 129
5.2.4 深入討論 ....................... 131
5.3 迭代型機(jī)器學(xué)習(xí)應(yīng)用――廣義 線性模型............132
5.3.1 算法原理 ....................... 132
5.3.2 基于 Spark 的并行化實(shí)現(xiàn) ................ 136
5.3.3 深入討論 ....................... 139
5.4 迭代型圖計(jì)算應(yīng)用――PageRank ...............140
5.4.1 應(yīng)用描述 ....................... 140
5.4.2 基于 Spark 的并行化實(shí)現(xiàn) ................ 143
5.4.3 深入討論 ....................... 149
5.5 本章小結(jié) .........................151
第 6 章 Shuffle 機(jī)制 ......................153
6.1 Shuffle 的意義及設(shè)計(jì)挑戰(zhàn) .................153
6.2 Shuffle 的設(shè)計(jì)思想 ....................155
6.2.1 解決數(shù)據(jù)分區(qū)和數(shù)據(jù)聚合問(wèn)題 ...............156
6.2.2 解決 map() 端 combine問(wèn)題 ............... 158
6.2.3 解決 sort 問(wèn)題 ..................... 158
6.2.4 解決內(nèi)存不足問(wèn)題 .................... 159
6.3 Spark 中 Shuffle 框架的設(shè)計(jì) ...............160
6.3.1 Shuffle Write 框架設(shè)計(jì)和實(shí)現(xiàn) ............... 161
6.3.2 Shuffle Read 框架設(shè)計(jì)和實(shí)現(xiàn) ............. 166
6.4 支持高效聚合和排序的數(shù)據(jù) 結(jié)構(gòu)..............170
6.4.1 AppendOnlyMap 的原理 ................. 171
6.4.2 ExternalAppendOnlyMap ................173
6.4.3 PartitionedAppendOnlyMap .............. 176
6.4.4 PartitionedPairBuffer ................ 176
6.5 與 Hadoop MapReduce 的 Shuffle 機(jī)制對(duì)比.........177
6.6 本章小結(jié) ........................179
第 7 章 數(shù)據(jù)緩存機(jī)制 ......................180
7.1 數(shù)據(jù)緩存的意義 ......................180
7.2 數(shù)據(jù)緩存機(jī)制的設(shè)計(jì)原理 ..................181
7.2.1 決定哪些數(shù)據(jù)需要被緩存 ................181
7.2.2 包含數(shù)據(jù)緩存操作的邏輯處理流程和物理執(zhí)行計(jì)劃 ..... 184
7.2.3 緩存級(jí)別 ....................... 186
7.2.4 緩存數(shù)據(jù)的寫(xiě)入方法 ..................189
7.2.5 緩存數(shù)據(jù)的讀取方法 .................. 191
7.2.6 用戶(hù)接口的設(shè)計(jì) .................... 192
7.2.7 緩存數(shù)據(jù)的替換與回收方法 .................193
7.3 與 Hadoop MapReduce 的緩存機(jī)制進(jìn)行對(duì)比............197
7.4 本章小結(jié) ..........................198
第 8 章 錯(cuò)誤容忍機(jī)制 ......................199
8.1 錯(cuò)誤容忍機(jī)制的意義及挑戰(zhàn) ..................199
8.2 錯(cuò)誤容忍機(jī)制的設(shè)計(jì)思想 ...................201
8.3 重新計(jì)算機(jī)制 ........................201
8.3.1 重新計(jì)算是否能夠得到與之前一樣的結(jié)果 .......... 202
8.3.2 從哪里開(kāi)始重新計(jì)算 ...................204
8.3.3 重新計(jì)算機(jī)制小結(jié) ....................207
8.4 checkpoint 機(jī)制的設(shè)計(jì)與實(shí)現(xiàn) ................207
8.4.1 哪些數(shù)據(jù)需要使用 checkpoint機(jī)制 ............ 207
8.4.2 checkpoint 數(shù)據(jù)的寫(xiě)入及接口 ...............210
8.4.3 checkpoint 時(shí)機(jī)及計(jì)算順序 ................212
8.4.4 checkpoint 數(shù)據(jù)的讀取 .......... .......213
8.4.5 checkpoint 數(shù)據(jù)寫(xiě)入和讀取的實(shí)現(xiàn)細(xì)節(jié) .......... 213
8.4.6 checkpoint 語(yǔ)句位置的影響.... ..........216
8.4.7 cache checkpoint .................. 220
8.5 checkpoint 與數(shù)據(jù)緩存的區(qū)別 ...............225
8.6 本章小結(jié) .........................226
第 9 章 內(nèi)存管理機(jī)制 ......................227
9.1 內(nèi)存管理機(jī)制問(wèn)題及挑戰(zhàn) .................227
9.2 應(yīng)用內(nèi)存消耗來(lái)源及影響因素 ..............228
9.2.1 內(nèi)存消耗來(lái)源 1:用戶(hù)代碼 .............. 229
9.2.2 內(nèi)存消耗來(lái)源 2:Shuffle 機(jī)制中產(chǎn)生的中間數(shù)據(jù) ......230
9.2.3 內(nèi)存消耗來(lái)源 3:緩存數(shù)據(jù) .............. 231
9.3 Spark 框架內(nèi)存管理模型 ..................232
9.3.1 靜態(tài)內(nèi)存管理模型 .................... 233
9.3.2 統(tǒng)一內(nèi)存管理模型 .................... 234
9.4 Spark 框架執(zhí)行內(nèi)存消耗與管理................237
9.4.1 Shuffle Write 階段內(nèi)存消耗及管理 ............ 239
9.4.2 Shuffle Read 階段內(nèi)存消耗及管理 ............. 245
9.5 數(shù)據(jù)緩存空間管理 .......................249
9.5.1 RDD 緩存數(shù)據(jù) ....................... 250
9.5.2 廣播數(shù)據(jù) ......................... 253
9.5.3 task 的計(jì)算結(jié)果 ..................... 254
9.6 本章小結(jié) ..........................256
參考文獻(xiàn) ............................258

上一頁(yè):已經(jīng)為第一條
上一頁(yè):已經(jīng)為第一條

相關(guān)推薦

在線咨詢(xún)

在線留言
主站蜘蛛池模板: 山东礼品盒,礼品盒生产厂家,礼品包装盒厂家-济南恒印包装有限公司 | 仪器校准_校验_计量检测_校正_检定严选博罗第三方法定计量所 | 塑胶篮球场施工|塑胶网球场施工|幼儿园塑胶施工|石家庄亚强体育公司 | 永磁耦合_重载永磁软起_能量回馈式调速器_磁力耦合器_江苏磁谷科技股份有限公司官方网站 | 涂料分散剂_水墨分散剂-厚洹化学水性色浆助剂厂家 | 汽油发电机,柴油发电机,小型汽油发电机,小型柴油发电机,家用发电机生产厂家——上海东明动力设备有限公司 | 水处理设备厂家_纯净水设备_超纯水设备价格找西安瑞泉水处理 | 自动_链条式_电动推杆_电动开窗器厂家_山东鑫宏玺智能科技有限公司 | 热电偶_电磁流量计_温度传感器_涡轮流量计_铠装PT100_压力变送器-中瑞能 | 免费建站_自助建站_网站建设_企业建站_中小企业建网站_免费网站模板-牵牛建站 | 卓尚服饰(杭州)有限公司邮箱 | 武汉办公室装修公司-展厅装修_湖北今泰装饰工程有限公司官网_今泰装饰 | 思行科技-珠海小程序开发-珠海网站建设-珠海APP开发-江门小程序开发-江门网站建设-江门APP开发 | 气体泄漏检测仪,COD水质分析仪,RD8200管线探测仪-成都恒通兴业科技有限责任公司 | 科衣洛定制衣柜,书柜,厨柜,衣帽间,电视柜,酒柜,餐厅柜,门厅柜,鞋柜——科衣洛全屋定制官网 | 净化塔_喷淋塔_脱硫塔_河北宝飞华创玻璃钢制造有限公司-河北宝飞华创玻璃钢制造有限公司 | 拉丝机_拔丝机_拉丝设备_丝网机械 - 安平县泰煌拉丝机厂家 | 活性炭吸附设备,UV光氧废气处理设备,破碎机专用除尘器,催化燃烧设备厂家-河北碧清环保设备有限公司 | 随车吊,洒水车,吸污车-程力专用汽车股份有限公司 | 山东健泽医疗科技有限公司-官网_深呼吸训练器_肋骨固定板_放疗定位膜耗材生产厂家招商 | 无锡防火门-防火窗-防火卷帘门-福臣门业科技有限公司 | 液化气密度测定仪,原油有机氯测定仪-泰州市姜堰分析仪器厂 | 天津网站制作|网站建设|营销型网站建设|筑美网络---天津做网站公司 | 山东装卸登车桥_液压装卸升降平台_固定|移动登车桥_山东牛斗重工厂家 | 石家庄LED显示屏|石家庄显示屏|河北显示屏升级改造|石家庄科航光电科技有限公司_石家庄科航光电科技有限公司 | 游离二氧化硅处理仪-恒温恒湿称重系统-智能蒸馏仪-硫化物酸化吹气仪-萃取仪-COD消解仪 | 随车挖生产厂家_山东精久工程机械有限公司 | 移动CRM软件_SaaS CRM_crm管理软件系统_crm客户关系管理系统_销售管理软件-上海企能软件科技有限公司 | 气动球阀,电动蝶阀,调节阀,衬氟阀门,水利控制阀,大口径阀门生产厂家-上海百钢阀门集团有限公司-官网,上海阀门品牌 | 数控立式车铣复合加工中心_数控立车_卧式加工中心_阀门专机-华电数控 | 亿企商贸-亿万企业的商务贸易平台-B2B企业产品发布供求信息平台,一带一路中国企业及产品展示平台,免费企业智能自助建站网络营销推广平台,打造B2B企业黄页产品信息发布推广专业综合电子商务平台! | 维启科技-创造科技的无限可能 | 上海维启信息技术有限公司 建筑仿真 BIM 虚拟现实 VR AR 顶岗实习 建筑智能模型 | 木材粉碎机-树枝秸秆粉碎机价格-双轴金属撕碎机生产线-金禾机械厂家 | 猴脑立体定位仪-无菌动物隔离器-格罗贝尔百科| 深圳市鼎拓达机电有限公司_ 深圳市鼎拓达机电有限公司 | 湖南长沙手术室、实验室、无尘室、洁净室、无尘车间的净化工程装修公司-福临建设 | 网带输送机_皮带_滚筒_链板输送机_不锈钢输送链条生产厂家-宁津县鸿昶机械设备有限公司 | 粮食加工设备_玉米_大米_面粉_燕麦_豆类杂粮加工设备-华豫万通 | 廊坊金星化工有限公司-钢套钢保温管厂家,玻璃钢缠绕保温管,镀锌铁皮保温管厂家,廊坊金星化工有限公司 | 数造云-面向3D打印的云制造平台 数控落地镗铣床_数控刨台式镗铣床_数控龙门加工中心-青岛辉腾机械设备有限公司 | 恒温干燥箱厂家-烘箱厂家-马弗炉厂家-生化培养箱-上海有丰科学仪器有限公司 |