大数据
  • 学会这20个数据可视化推荐工具,即:从入门到精通

    数据可视化之初级篇零编程工具1. TableauTableau 是一款企业级的大数据可视化工具。Tableau 可以让你轻松创建图形,表格和地图。 它不仅提供了PC桌面版,还提供了服务器解决方案,可以让您在线生成可视化报告。服务器解决方案可以提供了云托管服务。Tableau的客户包括巴克莱银行,Pa...

    11月28日[大数据]数据可视化推荐数据可视化

  • 大数据中Flink知识(有需要的可以收藏哦)

    Flink是什么?Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。无界流和有界流:任何类型的数据都是作为事件流产生的。信用卡交易,传感器测量,机器日志或网站或移动应用程序上的用户交互,...

    11月28日[大数据]Flink

  • 大数据Spark和Hadoop以及区别(干货)

    1. Spark是什么?Spark,是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎等。Spark包含了大数据领域常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Str...

    11月26日[大数据]SparkHadoop大数据MapReduceHiveStorm

  • 解析四种大数据文件格式

    众所周知,Apache Spark支持许多种不同的数据格式,其中包括:无处不在的CSV格式、对于Web友好的JSON格式、以及常被用于大数据分析的Apache Parquet和Apache Avro。1、CSVCSV(Comma-Separated Values,逗号分隔值 文件,通常被用于在使用纯...

    11月23日[大数据]大数据CSVJSONParquetAvro

  • 2019年容器使用报告:Docker 和 Kubernetes 王者地位不倒!

    近日,容器创业公司 Sysdig 发布了 2019 年容器使用报告。这是 Sysdig 第三年发布容器年度使用报告,与之前不同的是,今年的调查结合了更多的数据源,并深入挖掘了 Kubernetes 的使用模式。据了解,本次调查包括了 200 多万个部署在企业生产环境中的容器使用情况,Sysdig 不...

    11月17日[大数据]DockerKubernetes

  • 详解大数据处理中的Lambda架构和Kappa架构

    典型互联网大数据平台架构 首先我们来看一个典型的互联网大数据平台的架构,如下图所示: 在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的...

    10月11日[大数据]LambdaKappa大数据

  • 企业选择数据湖架构的5大理由

    随着大数据的重要性和接受度的提高,人们也越来越需要考虑如何组织和托管大数据。答案之一是数据湖,在数据准备和组织方面最广泛的数据体系结构系统。简单地说,它允许企业首先存储数据,然后在需要时检索数据。就像一个存储单元,你只是把你的东西存储,并在未来需要的时候找出来。这种方法与传统的数据仓库截然不同,传统...

    10月11日[大数据]数据湖

  • 大数据分享:60多个有用的数据可视化图形库

    在开源世界中,某些库为数据可视化提供了许多可能性,包括图形或网络表示。其他库仅专注于网络图表示。通常,这些库比通用库提供更多的功能。您还将找到商业图形可视化库。商业图书馆的优势在于可以保证持续的技术支持和先进的性能。图形可视化库列表AfterGlow:用Perl编写的脚本,有助于可视化日志数据。它读...

    10月11日[大数据]大数据

  • 数据科学领域的核心技能和新兴技能分别有哪些?

    近年来随着大数据的迅速发展,各种各样的数据分析技能也逐渐大热,为了找到数据科学领域目前最常用的技能和未来最流行的应用趋势,我们进行了一项调查。我们确定了数据科学技能的两个主要类别:一个是大多数受访者拥有的13种核心技能,另一个是大多数还没用但想要应用的热门新兴技能。本次调查主要有以下两个问题:您目前...

    09月27日[大数据]HadoopSpark大数据工具数据分析大数据机器学习深度学习

  • Hadoop之完全分布式集群

    首先准备三台客户机(hadoop102,hadoop103,hadoop104 ,关闭防火墙,修改为静态ip和ip地址映射配置集群编写集群分发脚本创建一个远程同步的脚本xsync,并放到当前用户下新建的bin目录下,配置到PATH中,使得此脚本在任何目录下都可以执行脚本实现[kocdaniel@ha...

    09月26日[大数据]HadoopnamenodeHDFS集群

  • 美国国税局如何通过高级数据分析来打击欺诈

    如今,美国国税局每年都在处理数十亿美元的身份盗窃退税欺诈行为。采用高级分析技术支持的异常检测有助于打击欺诈。美国政府问责办公室(GAO 估计,2015年,犯罪分子在美国实施至少价值为140亿美元的身份盗窃退税欺诈行为,美国国税局(IRS 为了应对这些行为至少支付了22.4亿美元的成本。为了打击这种欺...

    09月26日[大数据]数据分析大数据

  • 面试系列:深入理解Hadoop架构体系

    Hadoop组件简介官方文档组织的非常清晰,主要由以下四个组件组成:HDFS、map-reduce、yarn、hadoop-commonHDFS分布式文件存储系统,主要特点是:可以运行在普通低成本硬件之上并且具备高容错性(硬件容错 适合高吞吐量的大数据存储,但并不强调低延迟适合一次写,多次读的场景,...

    09月24日[大数据]HadoopHDFSmap-reduceyarnnamenode

  • Hadoop 之 NameNode 元数据原理

    在对NameNode节点进行格式化时,调用了FSImage的saveFSImage( 方法和FSEditLog.createEditLogFile( 存储当前的元数据。Namenode主要维护两个文件,一个是fsimage,一个是editlog。fsimage :保存了最新的元数据检查点,包含了整个...

    09月24日[大数据]Hadoopnamenode元数据

聚米学院 © All Rights Reserved.