Hadoop生态综合案例
关于Hadoop的使用
找不到或无法加载主类
hadoop
执行mapreduce
操作时报找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster
1 | hadoop classpath |
修改yarn-siet.xml
文件
1 | <property> |
词频统计
陌陌聊天数据分析
陌陌聊天数据分析案例需求
背景介绍
陌陌作为聊天平台每天都会有大量的用户在线,会出现大量的聊天数据,通过对聊天数据的统计分析,可以更好的对用户构建精准的用户画像,为用户提供更好的服务以及实现高ROI
的平台运营推广,给公司的发展决策提供精确的数据支撑。
目标需求
目标
基于Hadoop和Hive实现聊天数据统计分析,构建聊天数据分析报表
需求
- 统计今日总消息量
- 统计今日每小时消息量、发送和接收用户数
- 统计今日各地区发送消息数据量
- 统计今日发送消息和接收消息的用户数
- 统计今日发送消息最多的Top10用户
- 统计今日接收消息最多的Top10用户
- 统计发送人的手机型号分布情况
- 统计发送人的设备操作系统分布情况
数据内容
- 数据大小:两个文件共14万条数据
- 列分隔符:制表符
\t
- 数据字典及样例数据
基于Hive数仓使用SQL实现需求开发
建库建表、加载数据
1 | --如果数据库已存在就删除 |
1 | --如果表已存在就删除 |
HDFS上创建目录
1 | hadoop fs -mkdir -p /momo/data |
上传到HDFS
1 | hadoop fs -put /root/data/data1.tsv /momo/data/ |
1
2load data inpath '/momo/data/data1.tsv' into table db_momo.tb_msg_source;
load data inpath '/momo/data/data2.tsv' into table db_momo.tb_msg_source;
验证结果
1
select msg_time,sender_name,sender_ip,sender_phonetype,receiver_name,receiver_network from tb_msg_source limit 10;
ETL数据清洗
原始数据:聊天业务系统中导出的2021年11月01日一天24小时的用户聊天数据,以TSV文本形式存储在文件中
数据问题问题1:当前数据中,有一些数据的字段为空,不是合法数据
1
select msg_time,sender_name,sender_gps from tb_msg_source where length(sender_gps) = 0 limit 10;
问题2:需求中,需要统计每天、每个小时的消息量,但是数据中没有天和小时字段,只有整体时间字段,不好处理
1
select msg_time from tb_msg_source limit 10;
问题3:需求中,需要对经度和维度构建地区的可视化地图,但是数据中GPS经纬度为一个字段,不好处理
1
select sender_gps from tb_msg_source limit 10;
- 需求1:对字段为空的不合法数据进行过滤
Where过滤 - 需求2:通过时间字段构建天和小时字段
Substr函数 - 需求3:从GPS的经纬度中提取经度和维度
Split函数 - 需求4:将ETL以后的结果保存到一张新的Hive表中
Create table …… as select ……
1 | --如果表已存在就删除 |
1 | select msg_time,dayinfo,hourinfo,sender_gps,sender_lng,sender_lat from tb_msg_etl limit 10; |
需求指标统计
- 实际开发中,拿到业务需求指标,如何下手?
- SQL层面如何编写查询语句?
- 正确解读业务需求,避免歧义
- 确定待查询的数据表—>from表
- 找出分析的维度—>group by分组的字段
- 找出计算的指标—>聚合的字段
- 其他细节点(过滤、排序等)
- 表:t_user(id,name,age,sex,city)
- 需求:统计每个城市男女人数与男女平均年龄
- 分组字段:每个城市、男女
也就意味着同一个城市,性别相同的人应该分到同一组,因此这里需要根据两个字段进行分组 - 聚合字段:人数、平均年龄
count(id)
就是统计每个分组中的条数—>人数avg(age)
就是统计每个分组中年龄的平均值—>平均年龄
根据目标需求
统计今日消息总量
1 | --保存结果表 |
统计每小时消息量
、发送
和接收用户数
1 | --保存结果表 |
统计今日各地区发送消息总量
1 | --保存结果表 |
统计今日发送
和接收用户人数
1 | --保存结果表 |
统计发送消息
条数最多的Top10用户
1 | --保存结果表 |
统计接收消息
条数最多的Top10用户
1 | --保存结果表 |
统计发送人
的手机型号分布情况
1 | --保存结果表 |
统计发送人
的操作系统分布
1 | --保存结果表 |
基于FineBI实现可视化报表
FineBI的介绍
FineBI 是帆软软件有限公司推出的一款商业智能(Business Intelligence)产品。FineBI 是定位于自助大数据分析的BI 工具,能够帮助企业的业务人员和数据分析师,开展以问题导向的探索式分析。
FineBI的特点
- 通过多人协作来实现最终的可视化构建
- 不需要通过复杂代码来实现开发,通过可视化操作实现开发
- 适合于各种数据可视化的应用场景
- 支持各种常见的分析图表和各种数据源
- 支持处理大数据
FineBI安装
环境要求
FineBI支持安装在主流操作系统上,但对操作系统的CPU、JDK版本、内存等均有要求,目前的系统要求如下:
Windows(仅支持64位):
- 系统:windows7或更高版本
- JDK:JDK1.8及以上(Oracle)
- CPU:Intel Core i3-4代 或更快的处理器
- 内存:4G或以上
- 磁盘:至少2G可用空间
Mac(64位):
- 系统:MacOS10或更高版本
- JDK:JDK1.8及以上(Oracle)
- CPU:Intel Core i3-4代 或更快的处理器
- 内存:4G或以上
- 磁盘:至少2G可用空间
下载与安装
从FineBI官网下载好安装程序
下载对应版本
傻瓜式安装。。。
- 如果笔记本内存高于8G,建议设置为4096
- 如果笔记本内存是8G,建议设置为3072
- 如果笔记本内存是4GB,只能是2048
运行FineBI
点击免费试用获取激活码
关闭FineBI
FineBI配置数据源及数据准备
驱动配置- 问题:如果使用FineBI连接Hive,读取Hive的数据表,需要在FineBI中添加Hive的驱动jar包
- 解决:将Hive的驱动jar包放入FineBI的lib目录下
- step1:找到提供的【Hive连接驱动】
- step2:将这些文件放入FineBI的安装目录下的:
webapps\webroot\WEB-INF\lib
目录中
- 问题:我们自己放的Hive驱动包会与FineBI自带的驱动包产生冲突,导致FineBI无法识别我们自己的驱动包
- 解决:安装FineBI官方提供的驱动包隔离插件
- step1:找到隔离插件
- step2:安装插件
- step3:重启FineBI
- 新建连接
- 配置连接
- 测试连接
- 保存连接
公共数据
栏添加数据库表即可看到数据库里所有的表了。
FineBI构建可视化报表
我的分析
新建分析主题添加需要分析的数据即可开启可视化之旅!
点击要编辑的分析主题就会在新窗口打开,方可构建可视化报表。
然后就可以在最下方新建“组件”与“仪表板”了
常用图表添加总消息数,总发送消息人数和总接收消息人数
实现今日各地区发送消息总量可视化
实现今日发送消息最多用户Top10可视化
实现今日接收消息最多用户Top10可视化
实现发送用户操作系统占比可视化
实现发送用户手机型号分布可视化
实现每小时趋势图可视化