设为主页 | 加入收藏 | 联系我们
您当前的位置:首页 > 解决方案
大数据平台解决方案
时间:2018-12-16 15:00:16  来源:本站  作者:

  基于华数多年来的开发经验,并借鉴行业大数据分析平台的实施、管理和应用方面的成功经验,结合禾丰牧业实际信息化情况,我们将禾丰大数据平台实际为三层架构,其中:

  l基础数据源层:目前禾丰牧业所应用的数据主要来源于业务系统(EAS)与平面文本文件(Excel)两种类型,结合未来信息化的发展,音频数据和视频数据等越来越丰富的数据类型也将陆续纳入到我们的大数据平台体系之中,因此为保证我们的大数据平台的先进性,要能支持多种类型的数据源;l大数据处理层:由于数据源类型的多样性,传统关系型数据仓库架构或者分布式存储架构各有优缺点,单独使用都无法很好的满足对结构化和非结构化数据的存储和应用需求,因此我们建议采用传统数据仓库架构与大数据分布式数据仓库架构两者相结合的架构设计,两者紧密配合共同承担大数据处理任务,为大数据应用提供数据接口、数据交换、数据查询、数据分析和数据挖掘提供数据基础;l大数据应用层:随着信息化的发展,对大数据的应用方式也越来越多,大数据分析平台应用层需要满足诸如:固定报表、OLAP分析、KPI分析、指标监控、即席查询(自助式分析)、决策支持、邮件推送、office集成、移动BI、预警预测(数据挖掘)等多种展现方式。

  根据我们实施建设大数据分析平台多年的经验,结合禾丰牧业三层式数分析平台系统构架,通过数据采集(包括数据源)、信息存储与管理(数据仓库和Hadoop)和信息共享三部分技术来实现。 l数据采集:

  1)结构化数据采集:禾丰牧业现有的数据主要来自于EAS系统、青软系统、电商平台和文本文件都属于结构化数据,大数据分析平台采用ETL工具-kettle作为采集结构化数据的手段。ETL(Extract, Transform, Load)是建立大数据分析平台的重要组成部分,它将大数据分析平台中所需的数据按数据仓库建立的方法每天或定期从各个业务系统中采集详尽的业务数据,并根据各自的需求进行数据调整,数据迁移过程中需将原始数据进行抽取、清洗、合并和装载。在此过程中必须保证数据的完备性和数据的一致性。当业务数据量过大,未避免Mysql数据仓库压力过大,亦可将业务数据通过kettle迁移到hadoop平台的数据库Hbase中。

  2)非结构化数据采集:随着禾丰牧业信息化建设的发展,未来电话会议、视频会议、影音文件、微博实时数据、传感器采集的设备数据、移动端收集的数据以及其他流数据等非结构化数据,我们将通过传感器接口、视频接入设备、网络爬虫工具和流处理程序等方式分别进行采集并存储到HDFS和Hbase中。l大数据存储和管理:

  1)结构化数据存储和管理:为方便其管理和满足未来展现的性能要求,我们选择以关系型数据库MySQL和hadoop的HBase数据库共同承担对结构化的数据的存储和管理。以MySQL建立传统数据仓库来实现对用于结构化数据和元数据的集中存储与管理,并根据需求建立面向部门和主题的数据集市,中央数据仓库将被划分为三个逻辑存储区间: ODS(Operational Data Store)、DW(Data Warehourse)、DM(Data Mart):ODS将存放各业务系统的原始数据,包括与原结构相同的业务数据以及经过初步整理后的业务数据;DW区域存放经过整理过的数据,是大数据分析平台真正的数据中心;DM区域存放各个应用系统(web应用、BI、OLAP、Data Mining等)所需的综合数据。与此同时我们在MySQL和HBase数据库之间建立连接,利用Kettle定时进行数据交换,俩种数据仓库共同大数据应用提供数据支撑,从而实现数据共享,分摊压力和数据备份的目的。

  2)非结构化数据存储和管理:由于Mysql不支持对非结构化数据的存储,我们利用大数据应用框架Hadoop平台的数据仓库作为传统数据仓库的补充,实现对非结构化数据的存储和管理,并对来自网络的海量数据查询提供支撑。Hadoop平台集中了很多功能组件,其中HDFS是分布式文件系统,用于分布式存储大数据文件;Hbase是可扩展的分布式列存储NoSQL数据库,用于存储结构化和非结构化数据;Hive是基于Hadoop的数据仓库工具,可以存储、查询和分析存储在HBase中的数据;Mapreduce是用于对Hadoop平台大规模数据集进行并行查询的编程模型;Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。l应用与分析:大数据分析平台为满足不同用户的需求,需要提供多种不同的应用与分析方式,大数据分析平台提供三种应用方式。第一种:支持利用java或C等开发语言编写程序实现对Hadoop平台和MySQL数据仓库中数据的应用;第二种:我们选用强大的商务智能软件IBM-Cognos作为信息共享工具。Cognos作为多样化的前端分析展示工具,支持建立DMR和OLAP两种模型,提供了在线报表、OlAP分析、仪表板、记分卡、即席查询、邮件分发、Office集成、移动APP等多种信息共享技术。第三种:我们选用” 统计产品与服务解决方案”软件IBM-SPSS作为数据挖掘工具,SPSS支持以Hadoop平台和MySQL搭建挖掘模型,用于统计学分析运算、数据挖掘、预测分析和决策支持任务,支持描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等多类统计分析和挖掘算法。

  作者: Divakar等  来源: DeveloperWorks     原文链接  摘要:大数据解决方案的逻辑层可以帮助定义和分类各个必要的组件,大数据解决方案需要使用这些组件来满足给定业务案...来自:全栈知识

  场景一 * 海量日志数据,提取出某日访问百度次数最多的那个IP * 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以...来自:lzc4869的博客

  一个小型的网站,可以使用最简单的html静态页面就实现了,配合一些图片达到美化效果,所有的页面均存放在一个目录下,这样的网站对系统架构、性能的要求都很简单。随着互联网业务的不断丰富,网站相关的技术经过...来自:zwj1030711290的CSDN

  某企业经过多年的系统建设和演进,内部系统间存在一些壁垒,通过在运营商的各个内部系统,如经分、VGOP、大数据平台、集团集市等中构建基于ESB 的能力开放平台,解决了系统间调度、封闭式开发、数据孤岛等系...来自:的博客

  群发邮件实现思路(异步调用,消息队列处理模型) 1、整理邮件所需相应的参数 2、调用发邮件接口,传输邮件参数信息msg 3、邮件接口收到msg,将msg存入任务消息队列,并立刻返回响应成功码(仅...来自:weixin_41277643的博客

  随着业务的不断丰富,高并发和海量数据的处理日益成为影响系统性能的重要问题。下面将提供一些针对并发问题和海量数据处理的解决方案。...来自:WestCall

  多源异构数据汇聚分发系统:通过数据汇集和分发服务引擎,按照统一的数据格式和接口规范采集来自于不同厂家、不同设备类型、不同 数据格式、不同传输协议的体征数据,然后进行数据存储,最后通过消息开放服务中间件...来自:Peter_Changyb的博客

  JRDW(JD Realtime Data Warehouse)是京东大数据部为了解决公司越来越广泛的实时业务需求,而推出的一整套技术解决方案,包括数据的实时接入、实时解析、实时传输、实时计算和实时查...来自:李战磊专栏

  此方案,以管理视角来看,是以构建区域性中小企业生态链为己任的模式,形成适合的社会化服务效应;以技术视角老看,基于大数据、云计算多租户PaaS搭建中小企业运营服务平台。...来自:肖永威的专栏

  一、总论 根据定义: Lucene 是一个高效的,基于Java 的全文检索库。 所以在了解Luce...来自:tomorrow_C的博客

  消息队列中间件是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题 实现高性能,高可用,可伸缩和最终一致性架构 使用较多的消息队列有ActiveMQ,RabbitMQ,ZeroMQ...来自:Seven__________7的博客

  原文转载于:主要介绍13款现有的开源搜索引擎,你可以将它们用在你的项目中以实现检索功...来自:农村的我的专栏

  目录结构: 1.全文检索 2.Lucene入门 3.Lucene进阶 全文检索一, 生活中的搜索: 1.Windows系统中的有搜索功能:打开“我的电脑”,按“F3”就...来自:CoderZS的博客

  Storm 是一个开源的、大数据处理系统,与其他大数据解决方案的不同之处在于它的处理方式。Hadoop 在本质上是一个批处理系统。数据被引入 Hadoop 文件系统 (HDFS) 并分发到各个节点进行...来自:afreon

  本文主要讨论这么几个问题: (1)啥时候数据库和缓存中的数据会不一致 (2)不一致优化思路 (3)如何保证数据库与缓存的一致性   一、需求缘起 上一篇《缓存架构设...来自:思考、总结、专注

  定义定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。 ———《Mac...来自:NIGHT_SILENT的博客

  医院大数据解决方案expalin众多的数据库,不同的表结构,众多的接口,怎么解决。step1.hie 为医院大数据提供了解决的方案,从不同的数据库,根据表结构提取。减小的接口的开发。 refshttp...来自:德川家康

  大数据经过多年的潜心发展,在当今可以说是进入到了一个快速发展期。各种围绕大数据的应用开发也迅速火热起来了。政务大数据解决方案、企业级大数据解决方案、智慧城市停车大数据解决方案等已经开始被应用。5月份一...来自:adnb34g的博客

  大数据的完整解决方案和体系化 [日期:2014-11-25] 来源:人月神话的新浪博客  作者:人月神话 [字体:大 中 小] 对于大数据,后面会作为一...来自:fyqmegan的专栏

  谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。 ...来自:Forward__的博客

  大数据的日益增长,给企业管理大量的数据带来了挑战的同时也带来了一些机遇。下面是用于信息化管理的大数据工具列表:1.ApacheHiveHive是一个建立在hadoop上的开源数据仓库基础设施,通过Hi...来自:大数据周刊

  方案背景介绍:面对快速的生活节奏、人们每天创造出来的数据是成倍递增,为了达到存储海量数据,并且可以提取有用数据,进行经营分析的目的;亟待一套可行性解决方案。 解决方案原则:一、具备高兼容性,二、具备...来自:的专栏

  本文对项目中所用到的大数据分析整体流程技术及其架构进行简要的总结,以供大家在大数据分析平台对数据处理流程更加明确 1.1 数据处理流程 该项目是一个纯粹的数据分析项目,其整体流程基本上就是依据数据...来自:tianqinglei的博客

  Hash算法解决冲突的方法一般有以下几种常用的解决方法 1, 开放定址法: 所谓的开放定址法就是一旦发生了冲突,就去寻找下一个空的散列地址,只要散列表足够大,空的散列地址总能找到,并将记录存入 ...来自:FEINIK

  来公司半年时间了,一开始研究sahara部署cdh,目的是将大数据服务云服务话。最近由于业务的迫切要求,最近在物理机上搭建了公司自己的大数据平台。         公司业务要求数据平台需要处理DB业务...来自:wjandy0211的博客

  引用博文连接,很好的一篇博客,列举了消息队列的使用场景和场景消息队列的基本概念,并贴上了收集的博文资料。消息队列使用场景息队列基本使用场景有四种,分别是异步处理、应用解耦、流量削峰和日志处理等。 ...来自:beirdu的专栏

  Java8发布时间是2014年3月19日,距离今日已经很久了,那么Java8新特性你了解吗? java8是Java的一次重大升级,巨大的里程碑式的改进!! Java语言新特性: 1.与传统结合 -- ...来自:lxlmycsdnfree的博客

  前面我们提到过,大数据量分页时,skip如果跳过大量的数据会很慢,这里针对这一情况,我们优化一下分页。 看代码: [java] view plaincopyprint? ...来自:Cowboy

  改天得好好去看看深入解析Spring的数据。  先了解AOP的相关术语: 1.通知(Advice): 通知定义了切面是什么以及何时使用。描述了切面要完成的工作和何时需要执行这个工作。 ...来自:MIYAOW

  一、数据治理架构         分为三个层次,分别为战略与治理保障、大数据管理和大数据应用与服务,其中战略与治理保障包括,数据战略规划与评估,数据治理组织与职责、数据制度与管理流程;大数据管理包括...来自:junweishiwo的专栏

  Pig Latin:数据流编程语言 一个Pig Latin程序是相对于输入的一步步操作。其中每一步都是对数据的一个简单的变换。 用Pig Latin编程更像在RDBMS中“查询规划器”(query...来自:厚积而薄发

  近年来,大数据处理与分析已经成为全球性问题,引起欧美各国政府和产业界高度重视,美国政府于2012年3月率先发布了《大数据研究与发展计划》,Google, Amazon、Facebook、IBM、E...来自:jeff技术博客

  webstorm 作为最近最火的前端开发工具,也确实对得起那个价格,但是秉着勤俭节约的传统美德,我们肯定是能省则省啊。 方法一:(更新时间:2018/4/8)v3.3 注册时,在打开的Lice...来自:唐大帅的编程之路

  1.抽象成员必须标记为abstract,并且不能有任何实现。 2.抽象成员必须在抽象类中。 3.抽象类不能被实例化   4.子类继承抽象类后,必须把父类中的所有抽象成员都重写。   ...来自:唐三十胖子的博客

  转载请标明出处: 本文出自方志朋的博客 错过了这一篇,你可能再也学不会 Sp...来自:方志朋的专栏

  目前已知的三种输入函数 scanf()特点输入种类繁多,要求按照规定格式输入,期间不能加入空格(会数据丢失) getchar()为单个字符输入,当输入多个字符则接收第一个字符 gets()接收一段字符...来自:唐三十胖子的博客

  在平时的工作中你或许会遇到这样的问题,给某个文件夹下面的所有的图片添加同一个字符串,如果一个一个去F2再CTRL+V这样就会烦得很,图片几个还好,如果是几百个图片那么工作的效率就会极低,windown...来自:pyf_914406232的博客

  现在越来越流行在线看视频了,但是对于我得收藏癖爱好者,还是希望可以有比较好的资源网站的,尤其是种子、磁力链网站。所以就整理了一份干净、好用的TOP10出来: 先推荐一个下载磁力链的工具: 马...来自:YXAPP的技术分享

  请创建一个一维整型数组用来存储待排序关键码,关键码从数组下标为1的位置开始存储,下标为0的位置不存储关键码。输入关键码的个数,以及各个关键码,采用快速排序的方法对关键码数组进行排序,输出每轮比较的过程...来自:青衣煮茶

  如在文档中遇到什么问题请联系作者 本人正在找深圳Java实习工作,求大佬带飞 —————————————————————————————————————— 这章接着第五章没...

  解决汉字显示问题的一种方法:   在本地文件中添加一个txt文件,文件的格式是前面写序号后面写汉字的格式,然后再需要用到的地方直接读取本地文件中的文字再绘制上去。   --汉字字典     ...来自:pyf_914406232的博客

  本篇收录了一些面试中经常会遇到的经典面试题以及自己面试过程中遇到的一些问题,并且都给出了我在网上收集的答案。马上就要过春节了,开年就是崭新的一年,相信很多的前端开发者会有一些跳槽的悸动,通过对本篇知识...来自:wdlhao的博客

  13岁的北京学生张某,在去年12月27日19时新闻联播一则关于净化网络视听的新闻里,接受采访时说的话激起了轩然大波:“上次我上网查资料,突然弹出来一个网页,很黄很暴力,我赶紧把它给关了。”这个片段被C...来自:Kinb_huangwei的专栏

  一、Postman背景介绍 用户在开发或者调试网络程序或者是网页B/S模式的程序的时候是需要一些方法来跟踪网页请求的,用户可以使用一些网络的监视工具比如著名的Firebug等网页调试工具。今天给大家...来自:fxbin123的博客

  如在文档中遇到什么问题请联系作者 本人正在找深圳Java实习工作,求大佬带飞 —————————————————————————————————————— 微服务场景模拟 ...

  如在文档中遇到什么问题请联系作者 本人正在找深圳Java实习工作,求大佬带飞 —————————————————————————————————————— 认识微服务系统架...

  作者 小谦 责编 郭芮 或许是因为生不逢时,锤子科技这次要彻底变天了。 12月12日,在这个非常重要的购物促销节日上,讨论锤子产品的人并不多,但对锤子科技变更法人因而再次陷入资金...来自:CSDN资讯

  本人正在找深圳Java实习工作,求大佬带飞 如在文档中遇到什么问题请联系作者 —————————————————————————————————————— 服务消费者 获...

  本教程对jetbrains全系列可用例:IDEA、WebStorm、phpstorm、clion等 因公司的需求,需要做一个爬取最近上映的电影、列车号、航班号、机场、车站等信息,所以需要我做一个爬虫...来自:昌昌

  【《Unity Shader入门精要》 提炼总结】(十)第十章·法线贴图概念&切线空间下法线Shader实现&模型空间下法线Shader实现11-28

  如在文档中遇到什么问题请联系作者 本人正在找深圳Java实习工作,求大佬带飞 —————————————————————————————————————— 消费者从Eure...

  如在文档中遇到什么问题请联系作者 本人正在找深圳Java实习工作,求大佬带飞 —————————————————————————————————————— 仓库 阿里云仓...

  门罗币 xmr 最详细的CPU 挖矿教程 基础 CUP 挖矿教程 如何挖矿? Step1:获得一个钱包地址 钱包分为两个部分讲,一个是在线钱包,一个是本地钱包.(按需选择) 1.在线钱包 在 XMR ...来自:的博客

  首先要讲什么是ActiveMQ:AciveMQ是Apache出品的目前最流行,能力强劲的开源消息总线、 解决服务之间代码耦合 2、 使用消息队列,增加系统并发处理量 主要应用场景: 1...来自:熊局长的博客

  远程调用方式 无论是微服务还是分布式服务(都是SOA,都是面向服务编程),都面临着服务间的远程调用。那么服务间的远程调用方式有哪些呢? 常见的远程调用方式有以下几种: RPC:Remote Pro...

  弱者用泪水安慰自己,强者用汗水磨练自己。 这段时间因为项目中有一块需要用到图像识别,最近就一直在炼丹,宝宝心里苦,但是宝宝不说。。。 能点开这篇文章的朋友估计也已经对TensorFlow有了一...来自:流月的博客

  如在文档中遇到什么问题请联系作者 本人正在找深圳Java实习工作,求大佬带飞 —————————————————————————————————————— 实战:自己构建r...

  如在文档中遇到什么问题请联系作者 本人正在找深圳Java实习工作,求大佬带飞 —————————————————————————————————————— 八在审核中,请见...

  docker入门(一) 如在文档中遇到什么问题请联系作者 本人正在找深圳实习工作,求大佬带飞 docker简介 docker是一个开源的应用容器引擎,让开发者可以打...

  今天要谈的主题是关于求职,求职是在每个技术人员的生涯中都要经历多次。对于我们大部分人而言,在进入自己心仪的公司之前少不了准备工作,有一份全面细致面试题将帮助我们减少许多麻烦。在跳槽季来临之前,特地做这...来自:林老师带你学编程

  1.1 1 【单选题】我国陆地领土面积排名世界第几?(C) A、1 B、2 C、3 D、4 2 【单选题】以下哪个国家不属于金砖五国(BRICS)?(B) A、中国 B、日本 C...来自:ling_wang的博客

  本文中将《Maven实战》中对坐标和依赖的定义展示给初学Maven的程序猿们,并加上书中实例展示,具体详细请购买《Maven实战》--许晓斌著,更加详细的学习Maven。 坐标详解 groupld...来自:青衣煮茶

  MySQL  数据库性能的优化是 MySQL  数据库发展的必经之路, MySQL  数据库性能的优化也是 MySQL  数据库前进的见证,下文中将从从4个方面给出了 MySQL  数据库性能优化的方...来自:青衣煮茶


来顶一下
近回首页
返回首页
上一篇新闻:生活中的一些问题的解决方法
下一篇新闻:铁皮棚怎样隔热
现在评论本文
[!--temp.news_pl--]
热门排行榜
高中学习可能遇到的问题今天有了 9573
最新手机上免费玩小游戏 在线游 9572
制药企业学术推广如何少花钱多办 9567
十周年 畅玩游戏享超值福利 9565
P2P平台草根投资被曝雷爆投资方 9562
药店终端“主推”营销攻略 9560
MPE品牌2015广州建博会荣膺“人 9521
本月河南人才市场将举办两场热门 9496
河洛群侠传存档损坏解决方法 存 9493
全球首款指尖陀螺手机上市;腾讯研 9492
热门图文
热评新闻
・谁有 zhttty(无限恐怖作者)写过的(所有)番外设
・【跟进】云联惠最新情况:公安部督办湖北抓捕
・支付宝口碑推出微笑餐厅解决方案 计划年内
・重磅!云联惠被警方捣毁有多少梅州人的百万发
・牛A《绿色傲剑》最新“东海捕鱼”玩法首曝
・论《欢乐颂2》植入 只服e代驾!王柏川打人成
・暴雨也要撒网捕鱼!电子科技大学喊你回来吃鱼
・小伙无证驾驶撞人8年只赔2000 置房买车样样
・富裕捕鱼》参与活动官方豪送百元奖励
・国际足联公布2018年的国家队最新排名国足排
关于我们 | 服务与支持 | 人才招聘 | 联系方式 | 网站地图 | 免责声明
Copyright © 2016-2019 Myshadu Corp. Ltd. All Rights Reserved
网站备案:皖ICP备06014805号ttg平台娱乐注册提供CDN内容加速服务 版权所有 ttg平台娱乐注册