东南大学物联网交通应用研究中心
东南大学物联网交通应用研究中心
北京时间:
大数据处理技术的介绍
2016-05-10 00:01   作者:徐云霞   来源:iitraffic   浏览:887

    为了提高中心学生的科研学术水平,加强老师学生之间的交流讨论,东南大学物联网交通应用研究中心每周由老师或学生做一次学术汇报。

    汇报人:聂建强(博士生)、李林超(博士生)、余东豪(硕士生)

    汇报题目:大数据处理技术的介绍


    大数据时代的超大数据体量和占相当比例的半结构化和非结构化数据的存在,已经超越了传统数据库的管理能力,大数据技术将是IT领域新一代的技术与架构,它将帮助人们存储管理好大数据并从大体量、高复杂的数据中提取价值,相关的技术、产品将不断涌现,将有可能给IT行业开拓一个新的黄金时代。

    大数据本质也是数据,其关键的技术依然逃不脱:1)大数据存储和管理;2)大数据检索使用(包括数据挖掘和智能分析)。围绕大数据,一批新兴的数据挖掘、数据存储、数据处理与分析技术将不断涌现,让我们处理海量数据更加容易、更加便宜和迅速,成为企业业务经营的好助手,甚至可以改变许多行业的经营方式。

    本次学术汇报中,聂建强博士生、李林超博士生和余东豪硕士生主要给大家介绍了Hadoop分布式系统基础架构,从HadoopHDFS分布式文件系统以及MapReduce这三个方面阐述,主要内容包括:

    1Hadoop简介、发展历史以及应用现状。Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台上并支持多种编程语言等特性。Hadoop的核心是分布式文件系统HDFSHadoop Distributed File System)和MapReduce模型;

    2)分布式文件系统(HDFS)的概念、体系结构以及存储原理。HDFS的优良特性有:兼容廉价的硬件设备、流数据读写、大数据集、简单的文件模型和强大的跨平台兼容性;

    3MapReduce模型简介、函数介绍以及实例分析。MapReduce能够将复杂的、运行于大规模集群上的并行计算过程高度地抽象到两个函数:MapReduceMapReduce的特性包括:

    (1)编程容易,不需要掌握分布式并行编程细节,也可以很容易把自己的程序运行在分布式系统上,完成海量数据的计算;

    (2MapReduce采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,可以被多个Map任务并行处理;

    (3MapReduce设计的一个理念就是“计算向数据靠拢”;

    (4 MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave

    (5Hadoop框架是用Java实现的,但是,MapReduce应用程序则不一定要用Java来写。
东南大学 东南大学交通学院 清华大学 同济大学 西南交通大学 北京航空航天大学 上海交通大学 浙江大学
University of Wisconsin - Madison University of Michigan Rensselaer Polytechnic Institute Santa Clara University Rutgers University
交通运输部路网监测与应急处置中心 江苏省交通运输厅 南京智库联盟 江苏交通控股有限公司 江苏高速公路联网营运管理有限公司
中心概况研究动态新闻中心合作交流加入我们
Copyright © 2015 东南大学物联网交通应用研究中心 All Rights Reserved.