MapReduce高级程序设计-北冰洋晨报网

当前位置：首页 > 综合

MapReduce高级程序设计

来源：哔哩哔哩发布时间：2023-06-28 17:01:01

注：MapReduce环境配置，Jar包导出，上传，hadoop执行等操作可以查看文章：MapReduce程序设计，只需替换为本篇文章的代码即可实现/m0_69488210/article/details/131432125数据集：/download/m0_69488210/87959387

(资料图片仅供参考)

1、滚动收益率计算方法：(1) 忽略N/A所在日的股票数据，思考：可使用插值算法填充异常N/A数据，但退市股票同样会造成N/A数据，需要识别那种数据是退市造成的，而哪种数据是异常形成的。(2)第t日的5日滚动收益Rt= (C_t - C_(t-5) ) / C_(t-5) ，Ct：第t日收盘价 Rt：第t日滚动收益(3) 5日滚动正收益率所有交易日的5日滚动收益为正（赚钱）的概率

所有计算忽略非交易日（节假日）

2、二次排序和组排序MapReduce中的二次排序是指在MapReduce任务中对键值对进行排序时，除了根据键进行排序之外，还可以根据值进行排序。在二次排序中，首先按照键进行排序，然后对于具有相同键的按照指定的值进行排序，最终输出排序后的键值对序列。组排序是将Map任务输出的键值对按照key进行排序并分组，具有相同key的键值对会被划分到同一组，并发送给同一个Reduce任务进行处理。这就确保了拥有相同key的键值对能够在Reduce阶段被合并处理，从而得出结果。

3、基本代码逻辑要求：(1) CodeTimeTuple implements WritableComparable封装一个代码时间类，用以在键中存放股票代码和时间，用以按股票和时间进行二次排序；定义key排序比较器，按股票代码进行一次排序，按时间进行二次排序

(2) Map extends Mapper

输入：一行数据（一只股票的日数据）

处理：使用 \t 将字符串split成数组，提取需要计算的值，并转为浮点数

输出：<代码时间对象, 收盘价>

遇到无效数据不输出(停牌股票或有N/A数据无法提取为浮点数)

在Map阶段首先分割传入的每一行的信息，忽略空置，取出收盘价，股票代码和日期，把股票编号和日期封装到CodeTimeTuple的序列化对象tuple里，在map输出的时候，tuple作为键，收盘价为对应的值，在CodeTimeTuple类里实现了按照股票代码和时间的二次排序，保证传入reduce的是按照股票代码和时间二次排序之后的升序排序

(3) GroupSort extends WritableComparator

创建一个排序比较器，修改组排序逻辑，按股票代码排序

通过组排序保证了传入Reduce的数据是排序之后按照股票代码分组的数据，保证了reduce可以合并相同股票代码的数据

(4) Reduce extends Reducer

输入：<代码时间对象，[收盘价]>

处理：计算每个5日的滚动收益，并统计滚动收益为正的概率

输出：<股票代码，滚动收益为正的概率>

把传入reduce的值存入到列表中，通过Rt= (C_t - C_(t-5) ) / C_(t-5)计算第t日的5日滚动收益，依次判断每个股票代码对应的所有的五日滚动收益是否为正，把正数的数量除以相同股票代码的所有数量就可以得到每个股票代码的5日滚动收益为正（赚钱）的概率，reduce输出的键为股票代码，值为每个股票代码的5日滚动收益为正（赚钱）的概率。

标签：

MapReduce高级程序设计

MapReduce高级程序设计

长沙海底世界水上乐园要带泳衣吗？

环球速读：有渠道能修改高考分数？警方提醒

平均利润率的计算公式_平均利润

世界动态:降费！降费！又有多只基金放大招

全球热点！26名乌干达人与非政府组织在巴黎共同起诉法国石油巨头道达尔

新东方-S午盘涨超4% 大和将目标价由39港元上调至40港元

丁宁连续4场不敌19岁小将林高远逆转梁靖崑奥恰洛夫打出111

天津竞价保证金缴纳方式选错了怎么办？

饮水思源继往开来十三陵水库建库65周年系列活动举办_热资讯

大摩：予国药控股(01099)“增持”评级目标价升至31港元环球微速讯

党幑简笔画图片_党徽简笔画

美记：没什么球队有意哈登 76人几乎是哈登的唯一选择

运动起来让广袤乡村活力澎湃全球观察

全球实时：大族激光：公司在钙钛矿技术领域自主研发的钙钛矿激光刻划设备已实现量产销售

当前速讯：美国汽车工程师协会：特斯拉充电技术即将成为美国行业标准

世界新消息丨《中国智能卫浴电器产业发展研究报告（2023）》正式发布

金十期货6月28日讯，28日河北兴华H型钢价格上调50：250系列150150/3770，小型系列200200/3770，300150/3770，中型系列400200/3800（注|全球即时

再见我的小伙伴作文500字_我的小伙伴作文500字

天天消息！直播重启24岁的老天涯：脑袋一热 “这很天涯”

Woj：国王助教乔迪-费尔南德斯将担任加拿大男篮主教练

弈秋文言文翻译_弈秋文言文

范田书_关于范田书的简介

东方财富贴吧禁言怎么解除_东方财富贴吧

中山天气预报15天气压表（中山天气预报15天查询）-天天新资讯

魔穗字幕组2020全年（魔穗字幕组官网）|当前热讯

哈市五院医生提醒：吹空调也要“慎之又慎”

短视频 | 宁夏西吉偏城乡：打造“亲子种植园”新模式_焦点信息

小米手机解除充电限制_每日热文

“耕耘者”振兴计划公布最新成果：培训4.1万人，线上服务村民超455万

海太长江隧道项目开工建设过江隧道长11.185公里

中国与阿塞拜疆签署关于经典著作互译出版的备忘录开启两国人文交流互鉴新阶段

技术为电影艺术拓展新空间（科技赋能艺术）

为观众奉献更多更好的精神食粮（坚持“两创” 书写史诗）

培育创新土壤滋养创新精神（在一线）

“有意义”还要“有意思”（师说）

心怀“国之大者” 培养一流人才（教育时评）

搭建平台，为每一个孩子的幸福人生奠基（教改一线·校长和学校的故事）

“提建议要像做科研那样严谨精细”（履职故事）

MapReduce高级程序设计

MapReduce高级程序设计

长沙海底世界水上乐园要带泳衣吗？

环球速读：有渠道能修改高考分数？警方提醒

平均利润率的计算公式_平均利润

世界动态:降费！降费！又有多只基金放大招

全球热点！26名乌干达人与非政府组织在巴黎共同起诉法国石油巨头道达尔

新东方-S午盘涨超4% 大和将目标价由39港元上调至40港元

丁宁连续4场不敌19岁小将林高远逆转梁靖崑奥恰洛夫打出111

天津竞价保证金缴纳方式选错了怎么办？

饮水思源继往开来 十三陵水库建库65周年系列活动举办_热资讯

大摩：予国药控股(01099)“增持”评级 目标价升至31港元 环球微速讯

党幑简笔画图片_党徽简笔画

美记：没什么球队有意哈登 76人几乎是哈登的唯一选择

运动起来 让广袤乡村活力澎湃 全球观察

全球实时：大族激光：公司在钙钛矿技术领域自主研发的钙钛矿激光刻划设备已实现量产销售

当前速讯：美国汽车工程师协会：特斯拉充电技术即将成为美国行业标准

世界新消息丨《中国智能卫浴电器产业发展研究报告（2023） 》正式发布

金十期货6月28日讯，28日河北兴华H型钢价格上调50：250系列150*150/3770，小型系列200*200/3770，300*150/3770，中型系列400*200/3800（注|全球即时

再见我的小伙伴作文500字_我的小伙伴作文500字

天天消息！直播重启24岁的老天涯：脑袋一热 “这很天涯”

Woj：国王助教乔迪-费尔南德斯将担任加拿大男篮主教练

弈秋文言文翻译_弈秋文言文

范田书_关于范田书的简介

东方财富贴吧禁言怎么解除_东方财富贴吧

中山天气预报15天气压表（中山天气预报15天查询）-天天新资讯

魔穗字幕组2020全年（魔穗字幕组官网）|当前热讯

哈市五院医生提醒：吹空调也要“慎之又慎”

短视频 | 宁夏西吉偏城乡：打造“亲子种植园”新模式_焦点信息

小米手机解除充电限制_每日热文

“耕耘者”振兴计划公布最新成果：培训4.1万人，线上服务村民超455万

海太长江隧道项目开工建设 过江隧道长11.185公里

中国与阿塞拜疆签署关于经典著作互译出版的备忘录 开启两国人文交流互鉴新阶段

技术为电影艺术拓展新空间（科技赋能艺术）

为观众奉献更多更好的精神食粮（坚持“两创” 书写史诗）

培育创新土壤 滋养创新精神（在一线）

“有意义”还要“有意思”（师说）

心怀“国之大者” 培养一流人才（教育时评）

搭建平台，为每一个孩子的幸福人生奠基（教改一线·校长和学校的故事）

“提建议要像做科研那样严谨精细”（履职故事）

饮水思源继往开来十三陵水库建库65周年系列活动举办_热资讯

大摩：予国药控股(01099)“增持”评级目标价升至31港元环球微速讯

运动起来让广袤乡村活力澎湃全球观察

世界新消息丨《中国智能卫浴电器产业发展研究报告（2023）》正式发布

金十期货6月28日讯，28日河北兴华H型钢价格上调50：250系列150150/3770，小型系列200200/3770，300150/3770，中型系列400200/3800（注|全球即时

海太长江隧道项目开工建设过江隧道长11.185公里

中国与阿塞拜疆签署关于经典著作互译出版的备忘录开启两国人文交流互鉴新阶段

培育创新土壤滋养创新精神（在一线）