上海数慧  数据与智慧的桥梁!

典型案例    Typical Case
重庆市交规院大数据平台部署

背景

交通行业是关乎国家社会、经济民生的重要部门,是现代信息技术应用最广泛的领域之一,也是管理类型、业务模式、技术种类极其复杂的庞大部门。交通行业不仅与百姓的生活密不可分,也关乎在经济、社会,政治、军事方面所具备的大量国家级的涉密信息。而建立作为信息化核心的数据资源体系则成为重中之重。

1、交通规划领域历来非常重视“用数据说话”、“定量分析”。

传统人工调查手段:人工调查、成本高;单个时间片段数据;低抽样;粗颗粒度;数据量小;大数据分析手段。

大数据分析手段:自动采集、成本低;连续采集;高抽样或全样本;细颗粒度;数据量大。

传统的数据获取技术手段需要变革,采用大数据分析手段是大势所趋。

2、大数据存储、处理技术的快速发展。

海量数据存储、并行运算、数据融合等技术的发展,大数据的分析处理手段逐渐成熟,由研究探索阶段进入生产应用阶段。


现状问题

“重庆市交通综合信息平台”信息化建设取得了显著的成果,但是,站在全市的发展高度与国际行业视野,目前成果与新形势下的新定位仍存在较大的差距,主要表现在以下几个方面:

1、现有的数据存储独立、分散,数据之间缺乏关联,多种数据未能有效融合。

移动互联网、车联网技术快速发展,已经深刻地改变了我们的生活方式,也采集了更多种类、更大数量、更精准的数据。

可获取的交通大数据相关资源可归纳为11大类,电信运营商移动、联通、电信的手机信令数据;车载GPS数据;车辆识别数据;公交、轨道客流数据;停车场数据;交通流检测数据;公、铁、水、民航运输数据;人口数据;交通设施数据;建筑用地数据;基础地理数据……

2、随着数据量的增长,需要对基础架构做长远规划,如手机信令数据量:

联通的手机信令数据每分钟1个CSV文件,每天1440个CSV文件;加上移动电信等数据,每30天的数据总量有50TB左右。

3、大数据IT架构VS传统IT架构。

交通综合信息平台采用传统IT架构,暴露了若干问题,包括数据管理失控、历史数据丢失、数据分析不便、计算效率低下等问题。

采用大数据IT架构,表现出以下优点,框架水平扩展,支持数据种类与数据量不断增加;海量数据分布式存储,高可靠性;数据在不移动的情况下进行计算,非常便捷;海量数据快速分析运算能力。

4、有必要深入挖掘数据价值,更好服务于社会。

大数据平台的受益对象绝不限于交通规划领域,还包括城市规划领域、交通建设、交通管理、交通运营、政策制定,甚至其他我们还不了解的行业。交通大数据平台核心是“数据”,主要用途是进行数据挖掘,发现新的价值,变废为宝。


重庆交规院大数据平台部署案例

基于重庆市交规院的需求,以Hadoop平台为基础,大规模并行计算架构主要是在Hadoop平台的基础上,通过采用分布式计算框(Spark)与分布式文件系统(HDFS)来实现系统在大规模海量数据下的系统并行计算及数据存储能力。

一、并行计算框架设计

其总体架构组成如图所示,采用分布式内存计算框(Spark)与分布式文件系统(HDFS),搭建大规模并行计算框架。

图 并行计算框架示意

在分布式系统中,机器集群就可以看作硬件资源池,将并行的任务拆分,然后交由每一个空闲机器资源去处理,能够极大地提高计算效率,同时这种资源无关性,对于计算集群的扩展无疑提供了最好的设计保证。

数据资源池使用基于开源Hadoop框架和商业硬件,以池化资源的形式处理、存储和管理大数据。

数据放入资源池,不需要再移动它。需要做的只是把数据提取到支持业务的正确的处理系统中。数据资源池的好处是你把数据存储在数据产生的地方,然后把处理流程加在数据上,这样能够让公司更少地移动数据。

二、平台的整体部署设计

系统平台的整体部署图如下:

图 平台整体部署图

在大数据平台部署中涉及网络配置、服务器及存储配置、系统安装配置,具体内容如下:

1、网络配置

Hadoop部署考虑到计算、存储和网络之间保持均衡。Hadoop分布式服务器和存储架构的大规模I/O要求需要高吞吐量,万兆以太网交换提供了较高的网络使用率,为集群带来了出色价值,显示了更高带宽带来的优势。

图 大型hadoop集群机柜部署图

2、服务器及存储设计

8台服务器, 其中namenode主备2台,其余6台做datanode。除了划分成基本的namenode和datanode功能外,还需要安装YARN、MR2、ZooKeeper、Ambari、Oozie、Hive、Spark服务。

大数据平台服务器使用分布式存储,由于数据量的庞大,决定了其存储要足够大。通过手机信令数据估算,要求每台服务器具有15T的硬盘空间。

大数据服务器配置:128G内存,共有13块SAS硬盘,单块硬盘容量1.2T。

3、大数据平台系统安装配置步骤

●安装linux系统,平台选用RHEL6.5 64bit系统。

配置linux系统,包括IP地址配置,ntpd配置,文件系统创建,httpd配置,yum源配置等。

安装大数据集群软件,包括修改内核参数,安装大数据平台软件包,配置Ambari server

配置大数据集群软件,包括配置hadoop参数,配置sqoop,配置Oozie等等。

部署数据,数据导入hadoop系统

部署应用,安装算法软件包,执行并测试,调优。


结束语

通过手机信令的长期跟踪分析来实现人流移动规律、职住规律、通勤分布规律、通勤时间、职住平衡的动态持续监测分析。分析完全基于大数据分析平台实现,每日分析一次,采用基于Spark内存并行计算模式。过去单机处理联通一月天的手机信令处理就需要一周时间,在搭建完成的大数据平台下约1天时间。

联系我们

  电话:021-61016225 021-61016226

  传真:021-61001383

  邮箱:zhaopin@dist.com.cn

  地址:中国(上海)自由贸易试验区张衡路1000弄58-59号

DIST上海数慧

Copyright © 2001-2016 上海数慧系统技术有限公司All rights reserved  沪ICP备05004315号

敬请期待

敬请期待

DIST上海数慧

021-61016225  021-61016226