数据交易导航,数据资产入表,数据交易平台,数据要素市场

數(shù)據(jù)產品

——? PRODUCTS CENTER? ——

《大數(shù)據(jù)處理框架Apache Spark設計與實現(xiàn)》
更新時間:2023/04/01
《大數(shù)據(jù)處理框架Apache Spark設計與實現(xiàn)》

內容簡介

近年來,以Apache Spark為代表的大數(shù)據(jù)處理框架在學術界和工業(yè)界得到了廣泛的使用。本書以Apache Spark框架為核心,總結了大數(shù)據(jù)處理框架的基礎知識、核心理論、典型的Spark應用,以及相關的性能和可靠性問題。本書分9章,主要包含四部分內容。*部分 大數(shù)據(jù)處理框架的基礎知識(第1~2章):介紹大數(shù)據(jù)處理框架的基本概念、系統(tǒng)架構、編程模型、相關的研究工作,并以一個典型的Spark應用為例概述Spark應用的執(zhí)行流程。第二部分 Spark大數(shù)據(jù)處理框架的核心理論(第3~4章):介紹Spark框架將應用程序轉化為邏輯處理流程,進而轉化為可并行執(zhí)行的物理執(zhí)行計劃的一般過程及方法。第三部分 典型的Spark應用(第5章):介紹迭代型的Spark機器學習應用和圖計算應用。第四部分 大數(shù)據(jù)處理框架性能和可靠性保障機制(第6~9章):介紹Spark框架的Shuffle機制、數(shù)據(jù)緩存機制、錯誤容忍機制、內存管理機制等。

作者簡介

許利杰現(xiàn)任中國科學院軟件研究所副研究員、碩士生導師,于中科院軟件所獲得博士學位。當前主要從事大數(shù)據(jù)系統(tǒng)方面的研究工作,已在國際權威會議如VLDB、ICDCS、IPDPS、ISSRE、ICAC等發(fā)表論文10余篇,主持多項國家自然科學基金,以及華為、、聯(lián)想等企業(yè)的合作研發(fā)項目。曾為Apache Spark和Hadoop修復多個內核代碼嚴重錯誤,編寫的SparkInternals技術文檔被社區(qū)廣泛關注,獲得四千多顆星。博士期間曾在微軟亞洲研究院、阿里巴巴、騰訊擔任客座研究學生。目前還擔任中國計算機學會系統(tǒng)軟件專委會委員、中國科學院青年創(chuàng)新促進會會員。方亞芬現(xiàn)任中國科學院軟件研究所工程師,于南開大學獲得學士學位、中科院軟件所獲得碩士學位。當前主要從事大數(shù)據(jù)系統(tǒng)、操作系統(tǒng)方面的研發(fā)工作,參與多項國家自然科學基金、國家重點研發(fā)計劃,以及華為、騰訊、中國郵政等企業(yè)的合作研發(fā)項目。曾在阿里巴巴等擔任客座研究學生,目前是華為openEuler社區(qū)樹莓派項目負責人。

目  錄

第 1 章 大數(shù)據(jù)處理框架概覽 .....................2
1.1 大數(shù)據(jù)及其帶來的挑戰(zhàn) .....................2
1.2 大數(shù)據(jù)處理框架 ........................3
1.3 大數(shù)據(jù)應用及編程模型 .....................4
1.4 大數(shù)據(jù)處理框架的四層結構 ...................5
1.4.1 用戶層 .......................... 7
1.4.2 分布式數(shù)據(jù)并行處理層 ...................11
1.4.3 資源管理與任務調度層 ...................13
1.4.4 物理執(zhí)行層 ........................15
1.5 錯誤容忍機制 .........................17
1.6 其他大數(shù)據(jù)處理框架 ......................18
1.7 本章小結 ...........................18
1.8 擴展閱讀 ...........................18
第 2 章 Spark 系統(tǒng)部署與應用運行的基本流程 .............20
2.1 Spark 安裝部署 ........................20
2.2 Spark 系統(tǒng)架構 ........................21
2.3 Spark 應用例子 ........................24
2.3.1 用戶代碼基本邏輯 ................... .24
2.3.2 邏輯處理流程 ....................... 28
2.3.3 物理執(zhí)行計劃 ....................... 32
2.3.4 可視化執(zhí)行過程 ...................... 34
2.4 Spark 編程模型 ........................38
2.5 本章小結 ...........................39
第 3 章 Spark 邏輯處理流程 ...................41
3.1 Spark 邏輯處理流程概覽 ....................41
3.2 Spark 邏輯處理流程生成方法 ..................43
3.2.1 根據(jù)應用程序如何產生 RDD,產生什么樣的 RDD ......... 44
3.2.2 如何建立 RDD 之間的數(shù)據(jù)依賴 關系............ 44
3.2.3 如何計算 RDD 中的數(shù)據(jù) .................. 49
3.3 常用 transformation() 數(shù)據(jù)操作 ................50
3.4 常用 action() 數(shù)據(jù)操作 ..................86
3.5 對比 MapReduce,Spark 的優(yōu)缺點...............98
3.6 本章小結 .........................99
3.7 擴展閱讀 .........................100
第 4 章 Spark 物理執(zhí)行計劃 ...................101
4.1 Spark 物理執(zhí)行計劃概覽 ..................101
4.2 Spark 物理執(zhí)行計劃生成方法 ................105
4.3 常用數(shù)據(jù)操作生成的物理執(zhí)行計劃...............113
4.4 本章小結 .........................121
4.5 擴展閱讀 .........................121
第 5 章 迭代型 Spark 應用 ...................123
5.1 迭代型 Spark 應用的分類及特點...............123
5.2 迭代型機器學習應用 SparkLR ................124
5.2.1 應用描述 ........................124
5.2.2 算法原理 ....................... 125
5.2.3 基于 Spark 的并行化實現(xiàn) ................ 129
5.2.4 深入討論 ....................... 131
5.3 迭代型機器學習應用――廣義 線性模型............132
5.3.1 算法原理 ....................... 132
5.3.2 基于 Spark 的并行化實現(xiàn) ................ 136
5.3.3 深入討論 ....................... 139
5.4 迭代型圖計算應用――PageRank ...............140
5.4.1 應用描述 ....................... 140
5.4.2 基于 Spark 的并行化實現(xiàn) ................ 143
5.4.3 深入討論 ....................... 149
5.5 本章小結 .........................151
第 6 章 Shuffle 機制 ......................153
6.1 Shuffle 的意義及設計挑戰(zhàn) .................153
6.2 Shuffle 的設計思想 ....................155
6.2.1 解決數(shù)據(jù)分區(qū)和數(shù)據(jù)聚合問題 ...............156
6.2.2 解決 map() 端 combine問題 ............... 158
6.2.3 解決 sort 問題 ..................... 158
6.2.4 解決內存不足問題 .................... 159
6.3 Spark 中 Shuffle 框架的設計 ...............160
6.3.1 Shuffle Write 框架設計和實現(xiàn) ............... 161
6.3.2 Shuffle Read 框架設計和實現(xiàn) ............. 166
6.4 支持高效聚合和排序的數(shù)據(jù) 結構..............170
6.4.1 AppendOnlyMap 的原理 ................. 171
6.4.2 ExternalAppendOnlyMap ................173
6.4.3 PartitionedAppendOnlyMap .............. 176
6.4.4 PartitionedPairBuffer ................ 176
6.5 與 Hadoop MapReduce 的 Shuffle 機制對比.........177
6.6 本章小結 ........................179
第 7 章 數(shù)據(jù)緩存機制 ......................180
7.1 數(shù)據(jù)緩存的意義 ......................180
7.2 數(shù)據(jù)緩存機制的設計原理 ..................181
7.2.1 決定哪些數(shù)據(jù)需要被緩存 ................181
7.2.2 包含數(shù)據(jù)緩存操作的邏輯處理流程和物理執(zhí)行計劃 ..... 184
7.2.3 緩存級別 ....................... 186
7.2.4 緩存數(shù)據(jù)的寫入方法 ..................189
7.2.5 緩存數(shù)據(jù)的讀取方法 .................. 191
7.2.6 用戶接口的設計 .................... 192
7.2.7 緩存數(shù)據(jù)的替換與回收方法 .................193
7.3 與 Hadoop MapReduce 的緩存機制進行對比............197
7.4 本章小結 ..........................198
第 8 章 錯誤容忍機制 ......................199
8.1 錯誤容忍機制的意義及挑戰(zhàn) ..................199
8.2 錯誤容忍機制的設計思想 ...................201
8.3 重新計算機制 ........................201
8.3.1 重新計算是否能夠得到與之前一樣的結果 .......... 202
8.3.2 從哪里開始重新計算 ...................204
8.3.3 重新計算機制小結 ....................207
8.4 checkpoint 機制的設計與實現(xiàn) ................207
8.4.1 哪些數(shù)據(jù)需要使用 checkpoint機制 ............ 207
8.4.2 checkpoint 數(shù)據(jù)的寫入及接口 ...............210
8.4.3 checkpoint 時機及計算順序 ................212
8.4.4 checkpoint 數(shù)據(jù)的讀取 .......... .......213
8.4.5 checkpoint 數(shù)據(jù)寫入和讀取的實現(xiàn)細節(jié) .......... 213
8.4.6 checkpoint 語句位置的影響.... ..........216
8.4.7 cache checkpoint .................. 220
8.5 checkpoint 與數(shù)據(jù)緩存的區(qū)別 ...............225
8.6 本章小結 .........................226
第 9 章 內存管理機制 ......................227
9.1 內存管理機制問題及挑戰(zhàn) .................227
9.2 應用內存消耗來源及影響因素 ..............228
9.2.1 內存消耗來源 1:用戶代碼 .............. 229
9.2.2 內存消耗來源 2:Shuffle 機制中產生的中間數(shù)據(jù) ......230
9.2.3 內存消耗來源 3:緩存數(shù)據(jù) .............. 231
9.3 Spark 框架內存管理模型 ..................232
9.3.1 靜態(tài)內存管理模型 .................... 233
9.3.2 統(tǒng)一內存管理模型 .................... 234
9.4 Spark 框架執(zhí)行內存消耗與管理................237
9.4.1 Shuffle Write 階段內存消耗及管理 ............ 239
9.4.2 Shuffle Read 階段內存消耗及管理 ............. 245
9.5 數(shù)據(jù)緩存空間管理 .......................249
9.5.1 RDD 緩存數(shù)據(jù) ....................... 250
9.5.2 廣播數(shù)據(jù) ......................... 253
9.5.3 task 的計算結果 ..................... 254
9.6 本章小結 ..........................256
參考文獻 ............................258

上一頁:已經(jīng)為第一條
上一頁:已經(jīng)為第一條

相關推薦

在線咨詢

在線留言
主站蜘蛛池模板: 履带吊租赁-履带吊出租-出租履带吊车-出租履带吊-吊车出租-履带吊出租公司 | 西安真石漆_无机涂料厂家_无机涂料多少钱一个平方—陕西秦森环保科技有限公司 | 江苏工业双氧水_工业亚硝酸钠的作用与用途_工业双氧水厂家-江苏连云港嘉一化工厂 | 潍坊沃林机械设备有限公司-牵引式风送果园打药机,悬挂式风送果园喷雾机,自走式果树喷药机,车载式风送远程喷雾机-潍坊沃林机械设备有限公司-牵引式风送果园打药机,悬挂式风送果园喷雾机,自走式果树喷药机,车载式风送远程喷雾机 潍坊网络推广,临沂360推广,东营360推广,枣庄360推广,潍坊网站建设,潍坊网络公司,潍坊360搜索,潍坊APP开发,潍坊360推广,潍坊360代理,潍坊点睛网络科技有限公司 | 吉安仁济医院「官网」吉安男科医院-吉安仁济男科医院靠谱吗-男性专科医院 | 童程童美少儿编程培训课程 - 上市公司缔造少儿编程专业化品牌20年 | 中昕国际项目管理有限公司-官方网站 | 模压机|硫化机|平板硫化机生产厂家-南通海利特橡塑机械有限公司 模压化粪池_三格式化粪池_玻璃钢化粪池厂家 | 潍坊劲昊磁电科技有限公司-电磁除铁器,永磁除铁器,管道式除铁器,金属探测仪,磁滚筒,输送设备,给料设备,破碎设备 | 纳米砂磨机|纳米研磨机|实验室砂磨机-无锡市少宏粉体科技有限公司 | 深圳办公室装修_高端写字楼设计费用_企业装修报价公司-深圳长红装饰 | 液位变送器_智能压力变送器_3051差压变送器_单双法兰,投入式,电容式,温度变送器-淮安润中仪表科技有限公司 | 徐州恒铭机械设备有限公司_装载机配件_压路机配件_起重机配件_挖掘机配件_配件_徐州恒铭机械设备有限公司 | 云南打砂机_昆明制砂机_云南砂石生产线_昆明洗砂机_昆明除尘设备_云南昆明滇重矿山机械设备有限公司 | 芜湖市皖创管业有限公司 | 破碎机设备-锤式颚式反击式圆锥移动冲击式破碎机厂家-成都大宏立机器公司 | 浙江福茂德汽车滤清器有限公司| 无尘布_乳胶手套_防静电手环_口罩-苏州迈思德超净科技有限公司 | 四字成语大全6000个,经典成语大全及解释,1000个50000个成语及解释 - 同鑫成语网 | 液力耦合器,摩擦型液力耦合器生产厂家-河南省华升矿机有限公司 | 清河县隆鑫密封件有限公司,汽车用密封条,配电箱柜、集装箱密封胶条,建筑门窗、家具用密封条,无毒环保医用密封条,船舶、农机用密封条,异型产品 | 虚商通信-电销卡 电销助手 | 江西同欣机械制造股份有限公司| 系统门窗加盟_门窗十大品牌_欧享门窗官网 | 廊坊保安公司_廊坊市万帮保安服务有限公司 | 湖州搬家公司_档案搬迁_货物运输_钟点搬运价格「湖州蓝天家政综合服务有限公司」 | 山西华盛筑景装饰,山西专业公装公司,太原公装装修公司,包括:办公室,酒店宾馆,商铺店铺,学校幼儿园,会所会馆饭店餐馆等装修设计 | 木材粉碎机-树枝秸秆粉碎机价格-双轴金属撕碎机生产线-金禾机械厂家 | 亚克力游泳池_透明/空中/无边泳池_别墅亚克力泳池设计生产厂家_瑞地格乐-深圳他拍档 | 免费的PPT幻灯片演示制作软件,动画视频及课件制作软件 - Focusky万彩演示大师官网 | 济南德固机械|膨化食品生产线|早餐谷物玉米片生产线|拉丝蛋白生产线|速食米饭生产线 | 深圳人才网_深圳招聘网_【官方网站】 | 厦门公司注册-提供工商登记记账代理服务和营业执照代办地址与注册流程及费用 | 黑料网 - 黑料大事记-黑料门 黑料社最新 今日黑料 热门黑料 最新反差免费-黑料网今日黑料首页_黑料网 - 黑料大事记-黑料门 黑料社最新 今日黑料 热门黑料 最新反差免费-黑料网今日黑料首页 | 天津鸿宸机械设备有限公司-提取浓缩设备和生物制药设备以及制剂设备、粉碎设备、烘干等设备供应商 | 青山套筒_直螺纹钢筋连接套筒加工_全灌浆套筒灌浆料_半灌浆套筒生产-衡水安达机械设备有限公司 | 呼吸家官网|肺功能检测仪生产厂家|国产肺功能仪知名品牌|肺功能检测仪|肺功能测试仪|婴幼儿肺功能仪|弥散残气肺功能仪|肺功能测试系统|广州红象医疗科技有限公司|便携式肺功能仪|大肺功能仪|呼吸康复一体机|儿童肺功能仪|肺活量计|医用简易肺功能仪|呼吸康复系统|肺功能仪|弥散肺功能仪(大肺)|便携式肺功能检测仪|肺康复|呼吸肌力测定肺功能仪|肺功能测定仪|呼吸神经肌肉刺激仪|便携式肺功能 | 嘉兴中诚环保科技股份有限公司_PVC_润滑剂_抗氧剂_辅助热稳定剂 嘉兴市南湖斋食品股份有限公司_南湖斋 | 洁衣库·U袋洗_网上洗衣店_网上干洗 | 深圳市新纶超净科技有限公司,防静电/洁净室行业系统解决方案提供商 | 合金锤头_破碎机锤头_耐磨锤头_巩义市东辰铸造 高耐磨合金锤头厂家 |