HOME > 解决方案 > 中房大数据管理平台中房大数据管理平台

 

中房提供的应用以大数据处理为核心的平台,首先建立以省市级数据标准,构建数据交换与服务连接的基础网络,利用中房大数据基础将现有基础设施与虚拟化为核心的云平台进行结合,对数据进行分区存储及利用,解决各地区政策需要的业务系统改造需求,通过以市为单位的统一业务部署及数据统一部署,达到业务联动及数据共享质检,站在主管部门的监管需要,实时进行大数据分析形成统计与分析决策信息,及时的对数据进行把握,加快政府数据开放共享,推动资源整合,提升治理能力,强化安全保障,提高管理水平,促进健康发展。
中房大数据基础平台核心是聚合信息化的成果数据、通过数据分析优化调整业务及流程结构,重点是统一数据标准,目标是建立平台即服务(PaaS)、软件即服务(SaaS)的公有服务基础平台,面向智慧房地产服务需求,帮助完成大数据时代的变革。
中房大数据基础平台具有高模块化和松耦合的五层架构,针对不同的应用领域通过组件之间的灵活组合与高效协作来提供定制化的支撑。数据存储层: 基于HDFS2.2的大数据存储和在线服务系,支持RS 算法矩阵数据检验,在副本数降低至1.5倍的情况下,提高了可靠性,可同时容忍四个数据块丢失,支持可靠存储TB到数十PB的数据。资源管理层:缺省采用下一代资源管理框架YARN进行资源的分配和调度,支持同时运行多个计算框架;计算引擎层:采用Map/Reduce2完成大部分离线批处理计算任务。数据分析与挖掘层:支持离线批量SQL统计,支持R语言以及机器学习算法库 Mahout. 数据集成层采用Sqoop支持从DB到Hadoop的数据迁移,Flume支持从日志系统采集数据。
中房大数据基础平台内存分析引擎提供大数据的交互式SQL统计和R语言挖掘能力。基于支持将二维数据表缓存入独立的分布式内存(或SSD)中,建立列式存储、分区/分块和索引,采用改进后的Apache Spark作为执行引擎,SQL执行性能比Apache Hadoop/Hive快10~100倍左右,性能超过主流MPP数据库2倍到10倍。内存分析引擎处理的数据不局限在内存中,即使数据在低速磁盘上,SQL执行性能也比Apache Hadoop/Hive快5到20倍。更强的SQL支持:内存分析引擎同时兼容Oracle PL/SQL和HiveQL语法,自动识别不同语法,支持存储过程和函数,支持常用Oracle扩展函数。完整的SQL支持帮助了用户平滑地从原有关系数据库迁移到大数据平台。更强的统计分析能力:用户可以通过工具或者R命令行访问存储在分布式内存中的数据,R语言中数千个统计算法可以和内存分析引擎提供的分布式并行数据挖掘算法交替混合使用,为各行业进行大数据挖掘提供了易用而强大的分析工具;支持广泛的BI和报表工具:内存分析引擎可以和常用的BI工具对接,包括Tableau, SAP Business Objects, Oracle OBIEE等,用户无需编程就可以方便地为大数据创建美丽的报表,通过内存分析引擎提供的高速大数据统计分析能力提高决策效率;高扩展能力:内存分析引擎可以随着集群规模的扩展,线性扩展处理能力,可以支持从GB到数百TB的数据处理。
中房大数据基础平台实时在线数据处理引擎以Apache HBase为基础,是企业建立高并发的在线业务系统的最佳选择。多种数据类型支持:实时在线数据处理引擎支持从GB到数十PB数据的处理,支持广泛的数据类型,包括对结构化记录、半结构化文本、图数据、非结构化数据(图片、音频、二进制文档等)的存储、搜索、统计和分析。高速数据处理能力:实时在线数据处理引擎支持高速的数据检索、搜索和统计;根据索引进行检索的延时在数毫秒到数百毫秒量级;支持上亿的并发用户同时进行数据插入、修改、查询和检索;支持对文本建立增量全文索引并且支持秒级的全文关键字搜索。高效OLAP和批量统计:实时在线数据处理引擎为内存分析引擎提供高效数据扫描接口,通过实时在线数据处理引擎的扩展SQL语法,充分利用内部数据结构以及全局/辅助索引进行SQL执行加速,可以满足高速的OLAP数据分析应用需求;同时也支持高速的SQL离线批处理,性能接近于存储在HDFS上的相同数据的统计。高效图计算:实时在线数据处理引擎提供构造图形的API,帮助用户构造由上亿顶点组成的复杂大图,同时提供专有的高效图算法,包括关联网络的高速分析。
中房大数据基础平台实时流处理引擎以Spark Streaming为基础。Spark Streaming提供了强大的流计算(Streaming)表达能力,支持DAG(有向无环图)计算模型;而Hadoop类的批处理系统只能通过外围组件连接多个批次的作业完成复杂多阶段作业处理,系统复杂而低效。实时流处理引擎中的复杂应用逻辑以DAG形式的服务常驻在集群内存中,生产系统的消息通过实时消息队列进入计算集群,在集群内以Pipeline方式被依次处理,完成ETL、特征提取、策略检查、分析告警等复杂服务计算,最终输出到HBase等存储集群、告警页面、实时展示页面等。系统具备强扩展性、强容错、低延迟、高吞吐等特点,成熟应用于传感器网络数据处理、服务监控、反作弊、实时报表系统等业务。实时流处理引擎支持Kafka, Flume等常见消息队列或采集工具,兼容现有Hadoop生态系统。
因此在强大的大数据基础平台应用基础上,很容易实现五级指标的标准化设置、运算及应用。
 

 

通过业务系统直接获取业务数据,在业务数据基础上以人、权、钱、房、企业、宏观、土地等为核心构建数据模型,产生的属性数据为元指标体系,通过多业务系统关联,并且形成有效的联合分析形成四级指标二维运算指标,在上级主管部门或者市政府要求的考核基础数据指标形成三级指标,在三级指标体系基础上导入研究数据,以研究报告为核心,围绕报告所需要的多维分析数据产生多维指标,最终形成顶级指标模型,为统计分析、决策分析提供强有力的依据。

地址:杭州市下城区上塘路117号

版权所有 2015All Right Reseved

房地产传媒业务 87037372

房地产金融业务 400-8941166

房地产信息化业务 87026757

分享到:

杭州中房信息科技有限公司

幸运飞艇开奖直播kidzeatz.com版权所有 Jointfounder InionTechnology Co., Ltd

友情链接:迅雷彩票  新世佳彩票  pk10官网  新世佳彩票  pk10冠亚军玩法  皇冠彩票  新世佳彩票  

免责声明: 本站资料及图片来源互联网文章,本网不承担任何由内容信息所引起的争议和法律责任。所有作品版权归原创作者所有,与本站立场无关,如用户分享不慎侵犯了您的权益,请联系我们告知,我们将做删除处理!