中移杭研:基于鲲鹏提升大数据平台效率
下班回家空调和新风系统已经主动调节到自己舒适的温度;做饭时,冰箱根据现有的食材,主动推荐健康食谱;洗澡时,打开热水器就是自己最喜欢的温度……基于智能生态系统的未来家庭生活正在走进千家万户,互联网、家电、硬件厂商等纷纷入局,运营商亦是重兵布局。随着生活场景的不断丰富,用户在各类场景下对泛智能终端的使用需求日益增长,大量终端设备产生的数据量快速增加,大数据平台在智慧家庭行业价值进一步凸显。
下班回家空调和新风系统已经主动调节到自己舒适的温度;
做饭时,冰箱根据现有的食材,主动推荐健康食谱;
洗澡时,打开热水器就是自己最喜欢的温度……
基于智能生态系统的未来家庭生活正在走进千家万户,互联网、家电、硬件厂商等纷纷入局,运营商亦是重兵布局。随着生活场景的不断丰富,用户在各类场景下对泛智能终端的使用需求日益增长,大量终端设备产生的数据量快速增加,大数据平台在智慧家庭行业价值进一步凸显。
中移(杭州)信息技术有限公司(以下简称“中移杭研”)是中国移动通信有限公司的全资子公司,秉持“深耕数智家庭创新能力,让网络更智能,让生活更多彩”愿景,以“全千兆”为引领,不断创新演进“一根线、一块屏、一双眼、一个家、一公里”的“五个一”家庭信息服务体系(HDICT),不断深化基于规模的价值经营和基于场景的客户运营,推进中国移动家庭市场高质量可持续发展。其研发的中移杭研大数据平台是“智慧家庭运营中心”的“大脑”,通过信息的实时获取、高效处理和快速响应,实现家庭业务的智慧化运营。
随着云计算和物联网技术的日益完善,对智慧家庭的感知、监控、智能化服务等技术研究也在逐步深入,中移杭研对承载大数据平台的基础设施也迎来更多挑战:
1. 大体量
智慧家庭设备品类众多,呈现出终端多样化趋势,数据规模随之呈指数级增长。
2. 高并发
海量数据面临高性能并发计算的挑战,家庭数据服务的并发量平均可达数十万/秒。
3. 低时延
家庭安全应用场景对数据实时处理要求很高,需要秒级完成数据的采集、分析、出结果。
基于上述挑战,中移杭研急需融合性能高效、自主程度更高的基础设施来承载大数据平台,以满足进一步的数据融合和管理需求,为用户提供更加灵活的一体化的方案。鲲鹏由于其天然的多核多并发的扩展运行能力,以及高性能、高算力优势,能够很好的满足数据量大、并行计算、低时延等要求,同时提供完善的鲲鹏DevKit开发套件以及专业服务,能够帮助用户快速完成应用的迁移、开发、编译和调优。
鲲鹏DevKit使能1.5人天完成大数据集群部署
在项目初期,鲲鹏DevKit使能中移杭研大数据平台1.5人天快速迁移到鲲鹏。平台共涉及多个模块,包括Hadoop、HBase、Hive、Spark等第三方大数据组件,如采用手动迁移,整个平台迁移预计需要15人天才能完成。鲲鹏DevKit代码迁移工具极大简化了应用迁移的过程,可以实现依赖文件自动识别、兼容JAR包一键下载、代码修改建议一键替换,无须耗时耗力检查跟进,提高了代码迁移效率。
全栈调优,软硬协同,大数据平台业务处理耗时短14.5%~32.4%
完成了大数据集群在鲲鹏+openEuler平台的迁移部署之后,为提升业务性能和稳定性,技术人员将平台之前使用的编译工具OpenJDK8换成毕昇JDK,毕昇JDK在鲲鹏架构中提供了更好的稳定性、GC(Gabarage Collector)性能、类信息共享等,最终实现编译性能相较OpenJDK提升了约4%。
此外,为了充分释放鲲鹏硬件多核的算力,技术人员参考鲲鹏BoostKit大数据开源使能调优指南,结合杭研大数据平台的业务特点,在BIOS、操作系统、大数据组件等多个方面进行了针对性的性能调优:
BIOS方面,通过关闭SMMU提升网卡性能,关闭CPU预取功能减少Cache污染。
操作系统方面,使用手动绑核将网卡中断固定住,可以有效提高业务网络收发包的能力;通过调整IO调度策略和预读大小,服务器能够有更高的IO效率;关闭内存大页,防止发生内存泄露,从而减少了卡顿。
大数据组件方面,结合鲲鹏CPU核数较多的优势,合理修改各组件配置的参数,使得鲲鹏服务器的资源可以被大数据集群充分调度起来;通过开启NUMA感知特性,支持Yarn组件在启动Container时使能NUMA感知功能,减少跨片访问从而提升性能。
通过上述性能调优之后,经技术人员测试杭研大数据平台基于Spark的生产业务处理较传统解决方案有了14.5%的性能提升,而基于Hive的生产业务处理性能提升更是达到了32.4%,能够为平台用户提供体验更顺畅的移动互联网产品。
更多推荐
所有评论(0)