BIG DATA OF TOBACCO PLATFORM
烟草工业大数据平台

平台简介
Platform Introduction

      随着信息系统的深入发展,烟草行业的数据和信息总量正以极快的速度不断暴涨,甚至达到百亿、千亿条数据量的级别,在这些庞大的数据中,隐藏着的是烟草行业的市场需求、原料管理、产品研发等巨大的财富价值,如不将这些价值进行深入的挖掘,将是烟草企业莫大的损失和浪费。基于以上现状,我们通过大数据技术与研发业务的深度融合。构建基于大数据分析的烟草研发体系应用结合实际情况,探索并挖掘大数据技术用于研发创新过程中所能产生的全新价值,探索达致这一目标的途径和方法。通过数据治理,建立研发体系数据标准,盘清数据资源;构建基于云架构的数据中心原型,为烟草研发体系提供统一的公共数据资源和统一的数据共享交换平台,实现多系统之间,多来源、海量异构异质数据的互联互通,从全域大数据整合分析的视角,达致基于全维度数据的研发业务开发与业务目标实现;寻找研发业务过程中的大数据应用场景,并在平台原型中进行验证,最终达到有效治理研发数据,盘活数据资产,最大程度发挥大数据价值,解决传统方法无法企及的研发领域问题。

总体架构图

技术优势
Technological Superiority

  • Supetset:数据进行可视化展现,为企业决策提供清晰高效的帮助
  • Hudi:借助Hudi组件可针对数据仓库内的数据的更新操作,并进行低延迟、高效率的增量摄取。
  • Alluxio:热点、高频或指定的数据放入Alluxio内以供研发数据中心内的其他组件直接使用,从而提升整体的计算效率和降低迟延。
  • Atlas:心的数据细粒度到从字段、到表、再到主题之间是如何构建起来的,从而更好地在平台上进行数据的挖掘、应用和业务创新。
  • 多维度数据服务:使用TEZ作为hive数仓的计算引擎并支持Hudi存储模式,利用Drill提供即席查询服务进行即时分析;利用Druid进行研发数据中心内的亚秒级、低延时预处理数据分析与广泛的OLAP业务查询;引入jupyter供数据科学家进行进行交互式数据分析
技术架构图

平台功能
Platform Functions

集群监控

支持HDFS集群、spark集群以及集群日志管理

场景展示

可以对实验室场景进行分析

采汇服务

支持文件数据池、数据监控、ETL同步任务管理;支持对接入的系统管理以及对ETL调度监控和ETL同步数据对比

存储服务

支持对HIVE数仓管理

资源管理

支持库资源、表资源以及标签管理

主题管理

对主题的查询查看

分析服务

支持对数据集库、模型的管理;提供数据处理服务、数据缓存服务、数据展现服务等。

数据服务

提供数据服务接口

平台管理

可以对用户以及用户组的管理

系统界面
System Interface

项目案例
Project Cases

      云南中烟作为行业领头羊,在研发创新方面同样扮演着开拓者的角色, 目前正在全力推进“精益研发”工作,并在自主调截和配方优化等多个研发领域取得持续进展。基于大数据分析的卷烟研发创新具有精准产品定位、贴近消费体验需求以及提高市场反应速度的明显优势,云南中烟开始探索大数据技术用于研发创新过程中的全新价值,实现大数据技术与研发业务的深度融合。