刘智豪|大数据开发工程师 | 5年经验
四川泸州 | 本科 | 177-6062-0226 | lzhgy163@163.com
1996-07-05| 个人网站:lzhgy.cn
个人简介
具备5年大数据开发经验,精通数据仓库构建、实时数据处理及大数据平台运维。擅长 Java 及其生态体系,熟悉 Flink、ClickHouse、StarRocks 等大数据组件,MySQL、Oracle、PostgreSQL等主流数据库能独立搭建并优化大数据架构。曾主导多个核心数据项目,成功完成万亿级数据迁移和城市安全预警系统建设。
代表作品
国内:麦萌短剧app(应用商店可以直接下载)
海外:NetShort app(应用商店可以直接下载,海外top3)
技能概览
- 编程语言:Java(SpringBoot、MyBatis)、Python、Shell
- 大数据技术:Flink、Kafka、Hive、HBase、StarRocks、ClickHouse、Maxwell、Seatunnel
- 数据库:MySQL、PostgreSQL、Oracle、Redis
- 数据同步与ETL:FlinkCDC、Sqoop、Flume
- 调度与监控:DolphinScheduler、Prometheus、Zookeeperw
- 数据仓库建设:数仓分层(ODS/DWD/DWS/ADS)、数据质量稽核、查询优化
- 运维管理:Linux、服务器监控、数据备份、容灾恢复
工作经历
数据开发组长 | 短剧平台 NetShort
2024.11 - 至今
技术栈:SpringBoot、MyBatis、Flink、StarRocks、Redis、Hbase
- 负责 实时数据分析,构建用户行为分析系统。
- 设计 Flink 实时数仓(ODS/DWD/DWS/ADS),支撑业务决策。
- 通过 CEP 算法 监测用户行为(如 5次连续登录失败),增强安全性。
- 结合 IK分词器 进行搜索热词分析,提高搜索推荐精度。
- 采用 StarRocks 数据建模,优化查询效率,实现业务数据可视化。
数据开发组长 | 城投
2023.03 - 2024.09
技术栈:Flink、ClickHouse、PostgreSQL、Kafka、Zookeeper、Redis、DolphinScheduler、Apisix
- 负责 城市安全风险综合监测预警平台 建设,面向政府安全监管部门,提供城市安全高风险因素实时预警。
- 设计并实现 20亿+日感知数据 处理管道,包括数据采集、清洗、入库和分析。
- 维护 130+ 台云服务器,优化 ClickHouse 数据库(分片、分区存储),提升查询性能。
- 负责 大数据团队管理,任务分配、项目规划,确保团队按时交付。
- 领导 万亿级数据迁移 至国产化环境,保障数据一致性。
- 监控成都危化车辆轨迹数据,构建 异常驻留、高风险路段预警模型。
- 成果:项目应用后,成功预警 252起燃气泄漏事故,避免重大安全事故发生。
数据开发工程师 | 国家级大数据项目
2021.10 - 2023.01
技术栈:Nginx、Seatunnel、Kafka、MySQL、HBase、Redis、StarRocks、NebulaGraph
- 负责 涉密大数据平台 开发,优化数据流转与存储,提升系统稳定性。
项目经验
短剧平台 netshort用户画像系统
软件架构:SpringBoot+Mybatis+Spark+Mysql+starrock+Redis
项目描述:
通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据 ,进而对用户或者产品特
征属性进行刻画 ,并对这些特征进行分析、统计 ,挖掘潜在价值信息 ,寻找高价值用户 ,挽留待流失用户 ,提升用户 活跃 ,进行营销活动推送、广告投放、个性化推荐。
内容:
-
参与用户画像系统的设计以及标签的设计流程与应用;
-
参与用户画像管理平台的搭建及使用;
-
用户画像平台的数据库表,包括标签表、任务表、进度表等全部表含义;
-
使用 spark 开发标签计算、导出等操作,完成标签计算的业务处理流程;
-
利用 starrock实现对画像数据的存储及多个标签的组合筛选;
-
用 Springboot、 Mybatis 等框架,完成用户分群功能;
-
用 sparkmllib 中的算法完成挖掘类标签的开发;
-
把人群包最后写入到 Redis 中;
业绩:
通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或者产品特征属性进行刻画,并对这些 特征进行分析、统计,挖掘潜在价值信息,寻找高价值用户,挽留待流失用户,提升用户活跃,进行营销活动推送、广告投 放、个性化推荐。
短剧平台netshort实时分析系统
软件架构:Nginx+Kafka+MySQL+Hbase+Redis+Flink+starrock+Maxwell
项目描述:
通过 Flink 框架实时分析“netshort App”的用户行为 ,对获取到的数据进行规划和分层 ,实
时计算获取指标数据 ,为公司对业务进行快速反应和调节提供数据支持 ,提高公司业绩 ,实现收
益最大化。
内容:
1.基于 Hadoop 集群,配置对应的 Kafka,Zookeeper,HBase 等资源参数分配;
2.参与实时数仓的分层规划,搭建了 ODS,DWD,DWS,ADS 四层;
3.采集数据时通过 Nginx 进行负载均衡,Maxwell 监控 MySQL 业务数据,导入对应的 Kafka 主题作为 ODS 层原始数据;
4.对日志数据进行动态分流写回到 Kafka 对应主题;
5.通过 FlinkCDC 读取 MySQL 的配置表,转化为广播流进行广播;
6.对业务数据动态分流分别写到 Kafka 和 HBase 中;
7.对 Flink 中旁路缓存以及异步 IO 的工作原理以及使用;
8.在 DWS 层利用双流 join 和维度关联形成对应的数据宽表写回到 Kafka 中;
9.利用 CEP 完成用户跳出,和连续 5 次登录失败;
10.通过自定义 UDT 函数完成部分需求,通过 IK 分词器获取实时搜索热词;
11.将各个主题对应的事实数据进行聚合,形成主题宽表;
12.在 starrock中创建主题表并将 DWS 层中的聚合计算结果写入其中;
13.使用前端自研工具实现数据大屏的可视化配置
业绩:
通过Flink 框架实时分析“netshortApp”的用户行为,对获取到的数据进行规划和分层,实时计算获取指标数据,为公司 对业务进行快速反应和调节提供数据支持,提高公司业绩,实现收益最大化。
城市安全风险综合监测预警平台
-
软件架构:Flink+ClickHouse+Chproxy+PostgreSQL+Kafka+ZK+Redis+Apisix+dolphinscheduler
项目描述:
面向成都市行业监管部门、安全责任主体单位、应急管理局-值守和工作场所人员和部分基层人员,建设
城市安全风险综合监测预警平台。针对城市生命线工程、公共安全、生产安全和自然灾害四大板块的城市
安全高风险因素进行综合监测预警。
内容:
1.负责每天20亿+感知数据的数据接入,数据清洗,数据入库等;
2.负责130+台云服务器的日常运维(cpu,内存等进行监控,超过阈值进行报警),保证服务稳定运行;
3.负责6台ClickHouse数据库服务器安装部署,用户权限管理,性能优化,数据分片,分区存储,故障处理等工作;
4.负责4台PostgreSQL的安装维护,备份容灾,安全管理,监控报警等(如cpu,内存使用过高,连接数超过阈值);
5.负责数据仓库搭建,数据分层(ods,dwd,dws,ads),减少重复计算,提高查询性能等;
6.负责数据质量稽核,对城投接入数据的数据一致性,准确性,时效性,准确性进行稽核;
7.通过DolphinScheduler对数据仓库全流程调度,失败任务配置邮件报警等;
8.负责大数据开发团队的日常管理,分配任务,制定项目计划,确保团队按时完成任务;
9.负责生产环境所有数据(库表)等迁移到信创环境(从0到1),万亿级数据迁移;
10.负责成都所有危化车辆轨迹数据接入,对车辆异常驻留,高风险路段,限制区域等地方报警。
业绩:应用风险辨识成果,在高风险点位安装各类感知设备,能及时发现各类安全隐患,截止目前已经处置燃气泄露
事件252起,特别是“1.29”燃气泄露重大风险事件联动处置,为城市安全提供了有力支持。【1月29日,我市一条
1994年埋设的燃气管道长期腐蚀和地质下层,导致管道断裂,10分钟形成一个面积6800平方米的地下燃气空间,
平台第一时间发布预警,30分钟控制险情,成功避免类似河北燕郊燃气管道泄露爆炸事故的发生】
自我评价
- 具备 大数据平台架构设计及优化能力,能独立搭建从 0 到 1 的大数据系统。
- 精通 数据仓库建设、实时计算,具备 亿级数据处理能力。
- 熟练掌握各大主流数据库 MySQL、Oracle、PostgreSQL等。
- 关注 数据质量和性能优化,善于解决复杂数据问题。
- 拥有 团队管理经验,带领团队高效完成项目交付。