北京奇观技术有限责任公司

大数据综合应用分析处理平台PaaS+

1、产业背景

现阶段大数据虽然上升到国家战略产业级别，但纵观大数据产业的现状，与国家战略预期的大数据目标发展仍需一个过程。从大数据发展阶段来分析，可以精准分析到每个阶段的特点。

1.1 现阶段分析

大数据从第一次走入国门开始，在不断地进行架构演化、技术提升、概念明晰的反复迭代的过程，最终从IaaS（设施及服务）发展到PaaS（平台及服务），发展到当前从PaaS向SaaS（软件及服务）的过渡阶段。但从国家大数据发展报告分析来看，目前大数据产业群向SaaS发展还需要一个长时间的过程。并且从大数据理解和技术构成角度分析，大数据也需要一个时间进行再次沉淀和积累。造成目前局面的主要是：

1、行业需求的差异化，造成SaaS服务的多样化以及不确定化。

2、大数据架构的差异，造成IaaS和PaaS平台的巨大差异，同时也导致衍生其上的SaaS发展受到严重的制约。

3、大数据概念上的分歧，导致大数据SaaS产品无法满足用户深层次的需求。

1.1.1 行业差异化大数据产业必须满足服务对象的需求，虽然计算机技术支撑大数据的发展，但其动力仍然来自不同行业对大数据产品的刚性需求。但是通过分析发现，即使同一行业的数据业务需求也有巨大的不同，这就意味着针对某一行业的SaaS服务未必能够充分满足同一行业的全部业务需求。主要表现在：

1）同行业服务人群的不同，地里位置的不同，产生了异于其他的同行业的需求。

2）存储同类数据的方法、方式不同，造成即使同需求的SaaS服务在技术上也无法保证完全的同一性。

3）数据的来源也是制约行业大数据业务的一个重要问题。同一行业由于在不同地区经济地位存在巨大差异，获取其他相关领域数据能力的也存在不同。通过国家工业局对2016年《中国工业大数据现状分析》提供的数据表明，工业大数据目前面临最大的问题即是，在同一工厂同装备的现代化生产线对数据业务的需求也不相同；报告指出工业4.0的道路任重而道远。同时，通过其他报告中也可以明确看出，其他的相关行业也存在同类问题。根据这一事实，可以发现不同行业的SaaS需求更是复杂多样。中国大数据产业联盟在2016年会议上对全年大数据发展情况进行了总结，也提出了“IaaS和PaaS通用化，SaaS定制化”的观点。

1.1.2 架构差异化

中国大数据发展的起点是提供云存储服务为发展契机，并且有公有云方式向私有云方式逐步过渡。但数据存储的架构差距，导致了目前大数据IaaS平台和PaaS平台巨大不同，同时也导致了SaaS的巨大差异。而且各种架构之间很难进行统一。从目前市场存在的存储架构进行分析，发现市场上的PaaS平台主要有三类：

1）关注结构化数据的存储平台，比如MPP。

2）关注非结构化数据的存储平台，比如TFS。

3）关注综合存储即涵盖结构化数据和非结构化数据，比如Hadoop。

综合以上分析，Hadoop兼容性最高，但同时缺点也同样明显。至少对于终端用户而言，使用Hadoop需要更加专业的计算机技术和能力，并且Hadoop最多构成PaaS平台，而非用户最需要的SaaS。最为主要的问题是，Hadoop提供的核心能力主要是接口和存储，未能提供最为需要的算法组件，需要使用者自己开发并嵌入，增大了开发SaaS的难度。与此同时，业界也认为大数据的IaaS和PaaS更应该透明化，隐藏更多地细节，以可视化工具方式提供服务，可以极大缩短SaaS的开发进度。

1.1.3 概念差异化

所谓概念差异化，并非指定义上的差异化，而是指对大数据实质理解的差异化。这种差异化表现在大数据行业的全部。尤其大数据行业流程步骤的焦点，也是构成概念差异化的主要原因。一般认为大数据的过程主要包括：数据采集、数据清洗与存储（导入/预处理）、数据统计分析、数据挖掘、数据可视化等几个步骤。但由于概念差异化造成不同的产品理念，导致每个环节关注点不同，形成了不同的形形色色的软件服务概念，针对不同行业，也出现了不同的SaaS服务模型。在实际工作中，部分环节有可能被弱化，有些环节也能被强化，具体的实际问题需要不同解决方案。但目前产业仍受到大一统概念的影响，导致SaaS服务产生过程极为艰难。因此，需要在统一的大数据过程前提下，需要实现可定制的PaaS工具，根据实际情况使用户定制自己的数据关注点。通过以上分析可以得出结论，目前大数据产品仍集中在以IaaS为基础，为用户提供PaaS平台的阶段；在大数据每个环节上都需要存在可定制的PaaS工具；并且需要合理兼容非结构化和结构化数据的存储，是PaaS接口更加透明。

1.2 未来需求分析

在1.1中的分析可以发现，未来SaaS大多是定制形态的，非通用形态。在SaaS产生的过程中，PaaS平台不仅仅需要提供相应的接口，还需要提供对应每个环节的可定制化工具，进而促进SaaS平台的快速产生；这是现阶段最为需要的平台。未来每个行业都会有自己的SaaS服务，具有明显的定制化特征。大数据最为辉煌的时候，即各行各业的SaaS服务相互交织，构成整个大数据产业。助力中国第一、二和三产业的转型、发展和升级，从而使国民经济更加健康和繁荣。在大数据全面向SaaS发展的过程中，更加适用、更加高级、更加灵活的PaaS是最为重要的平台。经过分析发现，该PaaS平台至少需要如下几个特点：

1、PaaS可以提供接口和工具，接口为计算机专业人士提供开发服务，全面面向SaaS生产；工具为非计算机专业人士提供舞台，可以在这个平台上进行各种大数据活动，核心是算法验证。

2、可以兼容非结构化数据和结构化数据；为前期数据库提供各种访问的透明接口，使用时不需要考虑数据之间的结构差异。

3、可以在IaaS基础上，通过PaaS提供海量存储接口，构成大数据存储核心基础。

4、数据存储、组织、分配、并发等完全透明化，使大数据开发者或用户更加关注SaaS的特性。未来大数据PaaS层的核心会从存储和数据转换接口转向“数据处理”，算法是整个PaaS的重要组成部分。没有算法支撑的PaaS平台不是未来的主流。

2、功能模块

奇观技术的综合应用分析平台，实际上原始PaaS平台的一次革新，一次升级，称之“PaaS+”平台。奇观PaaS+平台以Hortonworks Hadoop框架为基础，嵌入了各种算法集，并在上层提供了数据采集和分析工具。主要包含DigSpider和Pikanet两大部分，其中DigSpider是数据采集平台；可以根据用户提供的关键字和网络地址进行深度及广度采集。自定义存储格式，可以在线采集也可以离线采集。方便用户获得互联网任何信息。Pikanet是数据存储、数据转换、数据计算、数据挖掘、数据可视化于一体的平台工具及接口；内置各种算法，支持深度挖掘等；并提供充足的案例。

2.1 DigSpider数据采集系统

DigSpider数据采集平台可以根据用户提供的关键字和网络地址进行深度及广度采集。自定义存储格式，可以在线采集也可以离线采集。方便用户获得互联网任何信息。DigSpider使用高速并发数据采集技术，既可以满足多种类型数据源的采集，又能够满足海量数据的实时非实时采集。所搭建的统一数据采集平台具有采集实时性、数据结构多样化、插件灵活化、处理并行化等优点。

2.2 Pikanet数据分析平台

Pikanet平台提供一站式大数据开发环境和工具，包括数据存储、分布式计算、分析挖掘及数据可视化的整套支持，从而大大降低部署、应用大数据的时间及人力成本。Pikanet平台所包含的四大模块，分别为多源异构数据整合接入、多维交互计算存储、智脑深度学习数据挖掘和多模态高效数据展示。Pikanet平台基于大数据处理分析的整个工作流，功能模块组件化设计，屏蔽多源异构数据的差异性，提供交互式计算存储能力，加强数据挖掘与深度学习的力度，基于数据多模式、状态高效的展示与知识呈现，开放API编程接口为二次开发及SASS平台的设计提供底层支持。 Pikanet底层数据源可采集各种类型的数据，经过数据清洗、预处理，转移至上层计算存储平台，该平台包含各种现有的数据计算和存储服务，以组件化方式提供使用。

用户可以在Pikanet平台上存储、分析、挖掘海量数据及其内在价值，完成整个数据流的相关工作。此外，用户也可以基于该大数据管理平台，开发上层应用，比如，数据可视化、电子商务个性化推荐系统、用户画像标签体系等，通过对数据的深度挖掘和整合分析，有效实现业务提升与创新，创造数据价值。经过计算和存储之后的数据挖局与机器学习平台，提供多种工具集，可一站式完成数据分析任务。顶层数据可视化服务，基于多模式、多样例、多维度进行数据展示与知识呈现。Pikanet平台真正实现了一份数据，一次采集，一次存储，全量分析的系统功效。

3、丰富的平台即服务

3.1 多源异构数据整合接入服务

数据源是大数据挖掘分析的基础，而现有数据资源来源不同，格式、大小、种类不一，对数据挖掘及分析造成了巨大障碍。异构性表现在多个方面,如数据的类型不同，数据的表示不同，管理数据的软件不同，以及系统运行的环境不同。Pikanet平台的数据整合接入服务很好地将多源异构数据集成并处理，使其符合挖掘与分析的需求，帮助用户实现了数据清洗和预处理的工作。数据不论来源于什么地方，进入Pikanet数据接入平台经过加工与集成，统一与综合，使其在后续的工作流中都具有统一的数据属性和编码结构等，这就保证了平台数据的一致性，使得数据信息的交互变得更加透明。数据接入服务主要包含以下几个模块。数据接入服务主要完成数据的清洗、转换，协调统一多源异构数据，使其在随后的工作流中形成统一标签，加速数据的处理、分析流程。其中，数据包装转化器充当了异构数据的整合装换的中间件角色，完成了底层异构数据向统一、一致化转换的过程。

3.2 多维交互计算存储服务

多维交互计算与存储服务，实现了一套多维数据的分析及同步功能，以解决现有技术对于互联网上实时流动变化数据无法进行快速有效的多维度分析的问题。该服务向用户提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决用户海量数据计算和存储问题，有效降低成本，并保障数据安全。

3.3 智脑数据挖掘深度学习服务

当前，数据挖掘在应用场景不断丰富，数据日益膨胀，数据种类繁多，数据分析领域面临重重挑战。如何在大数据中发现海量的小数据特征；如何让数据分析人员更加聚焦价值发现，降低在编码和基础数据处理的投入；如何构建数据挖掘领域的下一代数据分析工具平台成为数据分析领域的关键挑战。智脑数据挖掘深度学习服务，模拟智慧大脑进行深度学习与数据挖掘，构建在当前流行的Hadoop/Spark大数据技术之上，采用分布式存储和并行计算技术，从海量数据中挖掘出价值信息的平台；也兼容通用的数据分析Python/R环境。可以使用用户擅长的语言进行数据分析，并且提供了分布式算法(Java/R/Python)以及可视化能力，能够帮助用户有效快捷的完成数据分析，通过对各类海量数据信息进行实时和非实时的分析和挖掘，帮助用户从海量数据信息中获取到真正的价值，及时洞察和决策新的机会与风险。数据挖掘深度学习服务通过拖拉转的方式来操作，将复杂的机器学习算法集成为算法组件供拖拉，用户通过搭积木的方式实现业务流程。大大降低了数据挖掘的操作门槛。

3.4 多模态高效数据展示服务

相比于传统图表与数据仪表盘，如今的数据可视化致力于用更生动、友好的形式，即时呈现隐藏在瞬息万变且庞杂数据背后的业务洞察。无论在零售、物流、电力、水利、环保、还是交通领域，通过交互式实时数据可视化展示来帮助业务人员发现、诊断业务问题，越来越成为大数据解决方案中不可或缺的一环。多模态高效数据展示服务旨让更多的人看到数据可视化的魅力，帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用。提供丰富的可视化模板，满足会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求。

4、奇观“PaaS+”平台适用场景

奇观PaaS+平台适用范围非常广泛，目的是助力高校教学及科研、企业SaaS平台算法验证与开发等场景。并且，内置多种科研及开发案例，减少高校或企业的研发投入成本。尤其是不关注架构构成的非计算机技术的单位或个人，完全可以将奇观PaaS+平台作为一套完整的工具使用。