上海数慧  数据与智慧的桥梁!

典型案例    Typical Case
重庆市多源大数据接入与预处理

背景

2015年10月至2016年5月,重庆市交通规划研究院建成了交通大数据平台基础框架及联通手机信令职住监测分析系统。首次采用大数据计算框架,建成了包含10个节点的大数据分析平台,可以满足450万联通手机信令的实时分析处理、GIS数据可视化需求。采用Spark+Hadoop并行运算技术架构,开发实现居民职住及通勤分析系统,统计重庆主城在交通小区、街道、组团等不同空间尺度下的人口、岗位分布情况,并得到各区域范围的通勤交换关系,为城市交通规划提供数据参考和决策支持,评估城市规划成效,提升城市规划的定量化、科学化水平。


需求


随着大数据平台的建设,数据源的不断丰富,如何实现多种数据的统一存储,完成融合数据对各种模型的验证,完成多源数据下的新模型开发,实现对城市道路、车辆、人口活动规律的连续不断监测,这些成了交规院信息化工作迫切要解决的问题。

由于各种数据的来源方式各异,包括FTP,UDP,离线拷贝等,各种数据的采集频率和处理规则都不相同。随着数据量的增长,传统的基于文件的数据存储方式给系统硬件和数据库存储都带来很大的压力,大样本数据也让数据分析、研究与应用的效率和价值无法显性发挥。


解决方案

为了满足后续各种数据集中存储、管控,多种数据融合以及模型计算分析的需求,2016年,上海数慧在一期建设的大数据平台的基础上,针对多源数据(RFID、GPS)等三类数据接入需求,经过数据分析、架构设计,提出了数据采集、数据处理、数据存储总体架构,到目前为止项目组完成了包括出租车,公交车GPS,RFID,轨道刷卡数据等三大类十小类数据的采集及预处理工作。

从多源数据融合架构图中我们可以直观看到数据从采集、处理到存储模式过程,在实际数据接入处理时,每一种数据源都有自身的特点,我们以RFID数据接入及预处理为例,介绍具体数据预处理的内容:

一、数据采集

RFID数据包括通行记录、车速、流量等三类数据,需要实现该三类数据的采集,具体包括:

采集工具开发及部署:实现通行记录数据(按月),车速、流量(5分钟)采集程序的开发。完成采集程序部署,采集到近期(比如三个月前)的数据。

历史数据迁移:用户可以根据需求利用采集工具实现历史数据的采集。

二、数据清理

对采集的通行记录月度原始数据按照日进行拆分,然后按照日进行重复数据、格式不正确数据剔除操作,将清理过的数据按照每日一个文件的规则存储到采集服务器进行数据量统计,最后上载到大数据平台中。

对于5分钟的车速及流量数据,通过实时采集,按照5分钟周期进行数据清理,排序后,按日合并为单个文件,进行数据量统计后,上载到大数据平台。

三、数据量统计

统计采集数据的总量,输出数据量统计指标到数据库中,并在数据量异常时进行邮件或短信提醒。

四、数据备份

对采集到的原始数据,根据数据的特性制定存储备份策略,对原始数据进行备份到外部存储的操作,并清理掉超过生命周期的数据,实现采集数据的自动归档。

五、数据接入

将采集服务器中的RFID数据接入到重庆大数据平台中,实现RFID数据在HDFS存储。


监测评估与大数据3-01.jpg


成效

经过3个月的实施工作,项目组完成了项目的建设内容,主要成果有:

1、 完成了3类GPS数据每日近15GB的实时接入及预处理。

2、 完成了RFID数据每月近30G数据的在线及离线接入、处理。

3、 完成了轨道卡数据每月近30G数据的接入、处理。

4、 完成3类数据近3年历史数据的采集处理加工, 统一存储到大数据平台中。

经过多源数据接入项目建设,交规院具备了统一的数据的采集、接入、存储和治理管控模式,保证多种类型的数据能够在大数据平台上统一接入、安全存储、科学应用和共享,为院内业务研究及构建复杂的交通模型和算法提供数据支撑。


联系我们

  电话:021-61016225 021-61016226

  传真:021-61001383

  邮箱:zhaopin@dist.com.cn

  地址:中国(上海)自由贸易试验区张衡路1000弄58-59号

DIST上海数慧

Copyright © 2001-2016 上海数慧系统技术有限公司All rights reserved  沪ICP备05004315号

敬请期待

敬请期待

DIST上海数慧

021-61016225  021-61016226