解决方案

Solutions

大数据综合分析平台

 

一、背景

随着时代的发展以及互联网的普及,使得数据量急剧增长,全球迎来了大数据时代,在大数据背景下,传统商业智能在数据分析方面已显露出缺陷。传统的商业智能只是对一部分数据进行分析报表,准确性相对较弱,而在大数据时代下需要对大量的数据以及分结构化的数据进行处理分析。以下是目前市面通用的大数据数据分析处理技术:

1、分布式存储海量数据

采用HadoopHDFS分布式文件存储系统,将文件或数据采用分布式的方式存储在Hadoop集群上,采用HDFS分布式文件存储系统有助于对大数据的存储和管理。

2、分布式数据处理

对于数据的处理需要进行ETL操作和建立数据仓库,在分布式数据处理中采用pighive技术进行数据处理,pighive是对于海量的数据进行处理的较为有效的解决方案。

3、分布式数据挖掘

在数据挖掘方面采用Mahout技术,Mahout包含了大量的机器学习算法,不仅能够在单机环境下运行,同样支持mapreduce分布式计算,是对大数据挖掘的有效解决方案。

4、分布式数据的呈现与报表

通过Sqoop技术可以将数据在分布式文件系统中的与传统数据库之间进行交换,有助于数据的呈现与报表。

数据的报表采用R语言进行操作,使进行数据的报表和可视化更加简单实用。

二、奇观大数据综合分析平台

1.性能描述:

1、高可靠性。多节点同时工作,且当某一节点因故障或断电等原因宕机,其他节点可以正常运行,不影响数据分析任务。

2、高扩展性。可以对节点进行动态增加。

3、高效性。数据可以在各节点之间动态移动,保证各个节点动态平衡。

4、高容错性。能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

5、多并发任务。可以同时支持多个分析任务运算。

功能描述:

1、基于B/S架构的软件。通过浏览器可以实现访问。

2、基于角色进行管理。分为管理员和普通用户。管理员有添加用户、查看用户、删除用户、修改用户、查看用户任务、监控节点运行状态的权限。普通用户有提交任务申请、修改个人信息、创建分析项目、查看任务状态功能。

3、用户创建任务支持拖拽式可视化流程设计,并且可以保存任务、删除任务、修改任务以及终止任务的功能。

4、数据抽取功能。软件集成传统如结构化、文件形式或非结构化等数据源导入和导出可视化组件接口。

5、内置数据清洗引擎。(1)用户数据集缺失值处理;(2)值替换;(3)表连接或表合并;(4)条件漏斗选择器等预处理组件。

6、集成数据分析与处理功能。(1)集成Hadoop的Hdfs、MapReduce以及HBase、Hive;(2)结合Hive及SQL语句;

7、软件内置算法集。关联、分类、预测、聚类及回归等分析算子组件化运用。

8、提供多形态结果展示。提供丰富的可视化效果展示平台,灵活的报表展示方案。

9、提供自定义组件添加功能及使用权限控制。

三、优点

可视化的操作界面和展示
    提供了简单易用的操作界面,丰富多彩的展示方式,使得操作更简便,分析结果更直观。

高性能数据挖掘算法
    集成决策树、贝叶斯、神经网络、关联分析、ke-means、预测等各种数据挖据算法,帮助用户快速建立数据挖掘模型,解决了大部分用户由于数据挖掘门槛太高而无从下手的问题。

丰富的模型库
    从业务方面抽取了各种通用需求,建成统一的标准数据模型,用户可以直接调用而无需再自己创建,方便快捷,不用费力就可以对自己的数据进行快速分析。