思维导图导语Hadoop是一个开源框架,允许在分布式环境中使用简单的编程模型来存储和处理大数据,跨计算机集群。它被设计成可以从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。Big Data概述大数据中的数据分为三种类型结构化数据:关系型数据。半结构化数据:XML数据。非结构化数据:Word、PDF、文本和媒体日志。研究处理大数据的技术时将考虑以下 ......
105
0
0
2024-01-07
主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考得太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展的做个参考。 系统平台 Hadoop :Apache Hadoop是一个开源的分布式系统基础框架,离线数据的分布式存储和计算的解决方案。 Hadoop最早起源于Nutch,N ......
155
0
0
2023-12-18
01离线批处理 这里所说的 批处理 指的是大数据离线分布式批处理技术,专用于应对那些一次计算需要输入大量历史数据,并且对实时性要求不高的场景。目前常用的开源批处理组件有 MapReduce 和 Spark ,两者都是基于MapReduce计算模型的。 1.MapReduce计算模型 MapReduce是 Google 提出的分布式计算模型,分为Map ......
108
0
0
2023-12-14
HDFS 概述 产生背景 随着数据量越来越大,在一个操作系统中存不下所有的数据。需要将这些数据分配到更多的操作系统中,带来的问题是多操作系统不方便管理和维护。需要 一种系统来管理多台机器上的文件 ,这就是分布式文件管理系统。 HDFS是分布式文件管理系统中的一种 定义 HDFS( hadoop Distributed File System)它是一个文件 ......
182
0
0
2023-12-12
一、回顾常用的命令 在上篇文章中整理了 HDFS 常用的命令,这里进行简单的回顾。 ls 命令用来查看 HDFS 系统中的目录和文件 ,命令如下: $ hadoop fs -ls / put 命令用来将本地文件上传到 hdfs 系统中 ,命令如下: $ hadoop fs -put test.txt / moveFro ......
162
0
0
2023-08-27
在这个信息时代高速发展的情况下,很多人会对自己该往哪个方向发展感到迷茫,下面我就浅显的给大家介绍一下五大流行区域的发展前景。大数据 的发展前景:当前大数据行业真的是人才稀缺吗?学了几年后,大数据行业会不会产能过剩?大数据行业最终需要什么样的人才? 接下来就带你们看看分析结果:当前大数据行业真的是人才稀缺吗?对!未来人才缺口150万,数据分析人才最稀缺。先看大 ......
191
0
0
2023-07-07
在这个信息时代高速发展的情况下,很多人会对自己该往哪个方向发展感到迷茫,下面我就浅显的给大家介绍一下五大流行区域的发展前景。 大数据 的发展前景:当前大数据行业真的是人才稀缺吗?学了几年后,大数据行业会不会产能过剩?大数据行业最终需要什么样的人才?接下来就带你们看看分析结果: 当前大数据行业真的是人才稀缺吗?对未来人才缺口150万,数据分析人才最稀缺。先看大 ......
204
0
0
2023-06-11
首先轻松一下:学校门前,一名家长趁摊主正忙,把一瓶奶茶暗暗塞给身后的儿子,举着另一瓶奶茶付完钱正要走,身后的儿子嚷道:“两瓶,我这还有一瓶!”摊主皱皱眉,很快笑了:“你妈妈这一瓶盖上有奖,那一瓶是奖品!”孩子进校后,家长红着脸要补钱,摊主对她摆摆手道:“票子是小事,孩子是大事…… Exchangis是一款轻量级的数据交换服务平台,支持结构化、半结构化以及无结 ......
202
0
0
2023-06-08
HDFS 是Hadoo平台的核心,其全称是 hadoop Distributed File System,即分布式文件系统。 HDFS是一个高容错性的系统,适合部署在廉价的服务器上,从而可有效降低了数据的存储成本。同时,HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。 1.HDFS的技术架构 HDFS 采用了主从(Master/Sl ......
186
0
0
2023-06-05
目录Mybatis 大数据量批量写优化附录:Mybatis批量处理优化普通插入foreach 优化插入Mybatis 大数据量批量写优化在项目中使用批量数据插入,经常会用到 mybatis的 foreach,如下:<insert id="batchInsert" parameterType="java.util.List"> inser ......
226
0
0
2023-05-19
目录1 MapRedcue的介绍1.1 MapReduce定义1.2 MapReduce的思想1.3 MapReduce优点1.4 MapReduce的缺点1.5 MapReduce进程1.6 MapReduce-WordCount2 Hadoop序列化2.1 序列化的定义2.2 hadoop序列化和java序列化的区别3 MapReduce 的原理3.1 ......
260
0
0
2023-04-05
目录关于BitmapWhatBitMap的简单实现BitSet源码理解备注信息核心片段理解WhyBitMap的特点BitMap的优化RoaringBitmap的核心原理howBitMap在用户分群的应用传统解决方案使用BitMap的方案BitMap在A/B实验平台业务的应用结语关于Bitmap在大数据时代,想要不断提升基于海量数据获取的决策、洞察发现和流程优 ......
373
0
0
2023-02-21
1. HDFS—核心参数1.1 NameNode 内存生产配置1.2 NameNode 心跳并发配置1.3 开启回收站配置2. HDFS—集群压测2.1 测试 HDFS写性能2.2 测试HDFS 读性能3 HDFS—多目录3.1 NameNode 多目录配置3.2 DataNode 多目录配置3.3 集群数据均衡之磁盘间数据均衡4 HDFS—集群扩容及缩容4 ......
294
0
0
2022-11-08
​本文介绍基于PHP扩展xlswriter的Vtiful\Kernel\Excel类可以支持无限层级的复杂表头导出!后续也可能会持续更新优化一、准备xlswriter扩展1、windows系统:到PECL网站下载符合自己本地PHP环境的ddl文件:https://pecl.php.net/package/xlswriter,并复制到PHP的扩展目录ext文件 ......
319
0
0
2022-10-15
大数据实时并行处理上面我们讲了 大数据的数据查询方法 ,使用Hive或者 Impala,但是这些只能查询固定历史的数据,如果要实时计算可能就不是那么合适了。那如何进行实时并行处理数据呢?这就是我们今天要说的技术点:Step 5:有了计算能力之后,如何进行高并发的实时计算?   我们现在有了强大的以mapReduce为基础的海量数 ......
272
0
0
2022-10-14