本文共 12319 字,大约阅读时间需要 41 分钟。
case when函数的功能及语法?
concat与concat_ws函数的功能与语法?
collect_set与collect_list的功能与语法?
Json处理的函数有哪些?
窗口函数的语法及关键字的含义是什么?
语法
funName(参数) over (partition by col [order by col ] [window_size])
关键字
窗口聚合函数:sum/count/min/max/avg
first_value和last_value的功能及语法?
lag和lead的功能及语法?
MapReduce可以做哪些优化?Hive中可以做哪些参数优化?
常见的文件格式有哪些?列式存储的优点是什么?
数据倾斜的现象和原因是什么,哪些场景下会产生数据倾斜以及怎么解决?
目标:了解常见大数据平台的业务需求
实施
小结
目标:掌握在线教育项目需求
实施
行业:线上教育行业
产品:课程
目标:实现用户的转化运营分析,提高转化率,实现用户的学习管理分析,提高学习效率
业务流程
整体需求
项目需求
项目看板模块
项目效果
小结
目标:了解常见的数据来源
实施
小结
目标:了解数据采集及数据的存储过程
实施
小结
目标:了解数据处理及数据的应用过程
实施
整体流程
小结
目标:了解大数据平台的常用技术选型
实施
小结
目标:了解大数据的基础平台架构
实施
Kappa架构:只有一套实时架构,用实时代替离线
小结
目标:掌握在线教育项目架构
实施
小结
目标:了解大数据平台命令行部署方式的优缺点
实施
优点
缺点
小结
目标:掌握集群管理工具部署方式的原理及优缺点
实施
工具
过程
原理
优点
缺点
小结
目标:了解CM平台的基本使用
实施
step1:启动虚拟机
Linux用户名:root 密码:123456
IP地址及主机名,配置Windows映射
192.168.88.150 hadoop01192.168.88.151 hadoop02
step2:访问CM管理界面
注意:虚拟机启动以后,等待一会,才能访问,如果等待一会还不行,就再等一会
管理界面
hadoop01:7180或者192.168.88.150:7180CM用户名:admin 密码:admin
step4:启动管理服务
step5:查看服务状态、进程、配置
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BZiYSIqr-1620291857517)(Day14_项目需求与技术架构.assets/image-20210506144535316.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7HoTWXWw-1620291857518)(Day14_项目需求与技术架构.assets/image-20210506144656274.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RKh1yGDV-1620291857519)(Day14_项目需求与技术架构.assets/image-20210506144731749.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mAUybcG7-1620291857520)(Day14_项目需求与技术架构.assets/image-20210506144738848.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HEVyAy50-1620291857521)(Day14_项目需求与技术架构.assets/image-20210506144850420.png)]
step6:使用Hue
Hue的用户名:hue Hue的密 码:hue
Hue是一个统一化的客户端工具
进入Hue
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1NOHeXYf-1620291857522)(Day14_项目需求与技术架构.assets/image-20210506145550371.png)]
HDFS
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RwDlaYCz-1620291857523)(Day14_项目需求与技术架构.assets/image-20210506145847965.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BdSqupA5-1620291857524)(Day14_项目需求与技术架构.assets/image-20210506145928509.png)]
YARN
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dg4rp6ck-1620291857525)(Day14_项目需求与技术架构.assets/image-20210506145701896.png)]
Hive
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oedFuffK-1620291857526)(Day14_项目需求与技术架构.assets/image-20210506145759145.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LncrhSmo-1620291857527)(Day14_项目需求与技术架构.assets/image-20210506145744355.png)]
小结
目标:实现配置启动项目使用的虚拟机环境
实施
step1:安装虚拟机
以第一台为例
找到.vmx结尾的文件,双击打开这个文件
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Hw2IEL9b-1620291857528)(Day14_项目需求与技术架构.assets/image-20201109165409073.png)]
如果提示用哪个软件打开,选择VMware WorkStation打开
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jH9w5If0-1620291857529)(Day14_项目需求与技术架构.assets/image-20201109165538600.png)]
修改资源配置:自己合理的调整机器资源
启动三台机器
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pp6JxP3G-1620291857530)(Day14_项目需求与技术架构.assets/image-20201109165851779.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rkDTdeE3-1620291857530)(Day14_项目需求与技术架构.assets/image-20201109165945673.png)]
step2:启动环境测试
构建CRT远程连接
三台机器的地址192.168.88.221 node1192.168.88.222 node2192.168.88.223 node3用户名和密码root 123456
每台机器安装软件
软件/机器 | node1 | node2 | node3 |
---|---|---|---|
Hadoop | * | * | * |
Hive | * | ||
Sqoop | * | ||
Flume | * | ||
Oozie | * | ||
Hue | * |
启动Hadoop
启动Hive
启动oozie
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mw5XMBBJ-1620291857531)(Day14_项目需求与技术架构.assets/image-20210506151152338.png)]
启动Hue
关闭
小结
目标:了解Hue的基本使用
实施
启动:start-hue.sh
访问:node1:8888
登录
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ClQHbMju-1620291857532)(Day14_项目需求与技术架构.assets/image-20210506151447798.png)]
HDFS
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zR5gzr1r-1620291857533)(Day14_项目需求与技术架构.assets/image-20210506151528466.png)]
YARN
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-m95hhv4T-1620291857534)(Day14_项目需求与技术架构.assets/image-20210506151538501.png)]
Hive
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4C3U815w-1620291857535)(Day14_项目需求与技术架构.assets/image-20210506151836686.png)]
小结
目标:了解业务数据与用户行为数据的生成
实施
业务数据
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KCe3XNcP-1620291857536)(Day14_项目需求与技术架构.assets/image-20210506153322503.png)]
用户行为数据
存储:日志文件
目的:用于记录用户在网站或者APP上的所有的操作行为
例如:用户浏览、搜索、支付
常见:用户操作的行为数据
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jujEtEg3-1620291857538)(Day14_项目需求与技术架构.assets/image-20210506153747711.png)]
小结
目标:了解用户行为数据的生成
实施
用户访问网页
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8Thxpf46-1620291857538)(Day14_项目需求与技术架构.assets/image-20210506154637418.png)]
埋点收集数据
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MNsGMaJR-1620291857539)(Day14_项目需求与技术架构.assets/image-20210506154655943.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MtVGuUZ1-1620291857540)(Day14_项目需求与技术架构.assets/image-20210506154727091.png)]
发送给日志服务器
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qdOMWifC-1620291857541)(Day14_项目需求与技术架构.assets/image-20210506154745744.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5ef4BD63-1620291857543)(Day14_项目需求与技术架构.assets/image-20210506154810145.png)]
日志服务器记录用户行为日志
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6zt65yk0-1620291857544)(Day14_项目需求与技术架构.assets/image-20210506154829664.png)]
小结
目标:了解常见数据中的字段内容
实施
192.168.88.1^A1620287034.261^A192.168.88.130^A/hpsk.jpg?en=e_l&ver=1&pl=website&sdk=js&u_ud=784160D6-69DB-4E59-8D33-5AD84CD5C97C&u_sd=63DCC8C7-9D2F-4156-A7C9-DFFDEC8E1D55&c_time=1620287034238&l=zh-CN&b_iev=Mozilla%2F5.0%20(Windows%20NT%2010.0%3B%20Win64%3B%20x64)%20AppleWebKit%2F537.36%20(KHTML%2C%20like%20Gecko)%20Chrome%2F90.0.4430.93%20Safari%2F537.36&b_rst=1536*864192.168.88.1^A1620287034.262^A192.168.88.130^A/hpsk.jpg?en=e_pv&p_url=http%3A%2F%2Flocalhost%3A8080%2Fhpsk_sdk%2Fdemo.html&p_ref=http%3A%2F%2Flocalhost%3A8080%2Fhpsk_sdk%2Findex.html&tt=%E6%B5%8B%E8%AF%95%E9%A1%B5%E9%9D%A21&ver=1&pl=website&sdk=js&u_ud=784160D6-69DB-4E59-8D33-5AD84CD5C97C&u_sd=63DCC8C7-9D2F-4156-A7C9-DFFDEC8E1D55&c_time=1620287034239&l=zh-CN&b_iev=Mozilla%2F5.0%20(Windows%20NT%2010.0%3B%20Win64%3B%20x64)%20AppleWebKit%2F537.36%20(KHTML%2C%20like%20Gecko)%20Chrome%2F90.0.4430.93%20Safari%2F537.36&b_rst=1536*864
用户IP地址:一般用于统计用户的地区分布
服务端时间:用于标记数据的时间
请求服务端地址
URI:包含采集到的用户的数据,page?key=value&key=value
/hpsk.jpg?:访问页面en=e_l&:事件类型:用户做了什么事情产生的数据ver=1&:版本pl=website&:平台sdk=js&:JS埋点采集的u_ud=784160D6-69DB-4E59-8D33-5AD84CD5C97C& :访客idu_sd=63DCC8C7-9D2F-4156-A7C9-DFFDEC8E1D55& :会话idc_time=1620287034238& :客户端时间l=zh-CN& :客户端语言b_iev=Mozilla%2F5.0%20(Windows%20NT%2010.0%3B%20Win64%3B%20x64)%20AppleWebKit%2F537.36%20(KHTML%2C%20like%20Gecko)%20Chrome%2F90.0.4430.93%20Safari%2F537.36 :客户端的操作系统和浏览器信息&b_rst=1536*864 :客户端分辨率
en=e_pv&p_url=http%3A%2F%2Flocalhost%3A8080%2Fhpsk_sdk%2Fdemo.html& 当前正在访问的页面p_ref=http%3A%2F%2Flocalhost%3A8080%2Fhpsk_sdk%2Findex.html& 从哪个页面过来的tt=%E6%B5%8B%E8%AF%95%E9%A1%B5%E9%9D%A21& 当前页面的标题ver=1&pl=website&sdk=js&u_ud=784160D6-69DB-4E59-8D33-5AD84CD5C97C&u_sd=63DCC8C7-9D2F-4156-A7C9-DFFDEC8E1D55&c_time=1620287034239&l=zh-CN&b_iev=Mozilla%2F5.0%20(Windows%20NT%2010.0%3B%20Win64%3B%20x64)%20AppleWebKit%2F537.36%20(KHTML%2C%20like%20Gecko)%20Chrome%2F90.0.4430.93%20Safari%2F537.36&b_rst=1536*864
小结
转载地址:http://nzwzz.baihongyu.com/