1.集群规划 集群节点分配 主机名 主机IP master 192.168.100.100 slave1 192.168.100.101 slave2 192.168.100.102 slave3 192.168.100.103 软件版本 软件名称 版本号 Java 1.8.0_15 ......
23
0
0
2024-02-25
Hadoop是一个开源的分布式存储和分布式计算框架,主要用于处理大量非结构化或半结构化的数据。它最初是由Apache基金会开发的,灵感来自于Google的MapReduce和GFS(Google文件系统)论文。Hadoop的核心是Hadoop Distributed File System(HDFS,Hadoop分布式文件系统)和MapReduce编程模型, ......
48
0
0
2024-02-01
思维导图HIVE介绍Hive是Hadoop的一个模块。它是一个用于开发SQL类型脚本执行MapReduce操作的平台。MapReduce是一种并行编程模型,用于在大型商用硬件集群上处理大量结构化、半结构化和非结构化数据。Hadoop 模块Hive:用于开发SQL类型脚本执行MapReduce操作的平台。Sqoop:用于在HDFS和关系数据库之间导入和导出数据 ......
56
0
0
2024-01-07
思维导图导语Hadoop是一个开源框架,允许在分布式环境中使用简单的编程模型来存储和处理大数据,跨计算机集群。它被设计成可以从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。Big Data概述大数据中的数据分为三种类型结构化数据:关系型数据。半结构化数据:XML数据。非结构化数据:Word、PDF、文本和媒体日志。研究处理大数据的技术时将考虑以下 ......
56
0
0
2024-01-07
HDFS 概述 产生背景 随着数据量越来越大,在一个操作系统中存不下所有的数据。需要将这些数据分配到更多的操作系统中,带来的问题是多操作系统不方便管理和维护。需要 一种系统来管理多台机器上的文件 ,这就是分布式文件管理系统。 HDFS是分布式文件管理系统中的一种 定义 HDFS( hadoop Distributed File System)它是一个文件 ......
99
0
0
2023-12-12
目录什么是序列化:   什么是反序列化:为什么要序列化:Java的序列化:Hadoop序列化:自定义序列化接口:  实现序列化的步骤:先看源码进行简单分析:序列化案例实操:案例需求:(1)输入数据:(2)输入数据格式:(3)期望输出数据格式需求分析:编写MapperReduce程序:什么是序列化:  ......
140
0
0
2023-09-09
需要的节点:主节点为hadoop1,其他节点分别为hadoop2,hadoop3。 使用 jdk 文件:jdk-8u144- Linux -x64.tar.gz 使用的 CentOS : CentOS-7-x86_64-DVD-1511 使用的软件:VMware15,虚拟机连接工具:xshell 需要的用户名: ......
158
0
0
2023-06-18
前期准备模板机准备修改静态IP vim /etc/sysconfig/network-scripts/ifcfg-ens33 TYPE="Ethernet" PROXY_METHOD="none" BROWSER_ONLY="no" BOOTPROTO=" static " //这里改成static DEFROUTE="yes" IPV ......
182
0
0
2023-05-28
目录1 MapRedcue的介绍1.1 MapReduce定义1.2 MapReduce的思想1.3 MapReduce优点1.4 MapReduce的缺点1.5 MapReduce进程1.6 MapReduce-WordCount2 Hadoop序列化2.1 序列化的定义2.2 hadoop序列化和java序列化的区别3 MapReduce 的原理3.1 ......
216
0
0
2023-04-05
概述HDFS是hadoop提供的分布式存储的文件系统HDFS是典型的主从结构,一主(namenode)多从(datanode)HDFS的指令和linux指令相似(hadoop fs -xx)HDFS对文件进行存储之前,会将文件进行切块文件大小如果超过128MB,则默认一块为128MB,未到128MB,则文件大小即为文件块大小在HDFS中会自动对文件进行备份, ......
190
0
0
2022-12-17
1. HDFS—核心参数1.1 NameNode 内存生产配置1.2 NameNode 心跳并发配置1.3 开启回收站配置2. HDFS—集群压测2.1 测试 HDFS写性能2.2 测试HDFS 读性能3 HDFS—多目录3.1 NameNode 多目录配置3.2 DataNode 多目录配置3.3 集群数据均衡之磁盘间数据均衡4 HDFS—集群扩容及缩容4 ......
248
0
0
2022-11-08
Hadoop – IO输入文件从HDFS进行读取.输出文件会存入本地磁盘.Reducer和Mapper间的网络I/O,从Mapper节点得到Reducer的检索文件.使用Reducer实例从本地磁盘回读数据.Reducer输出- 回传到HDFS.序列化序列化是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化是指将字节流转回结构 ......
209
0
0
2022-11-08
HDFS – 可靠性HDFS 的可靠性主要有一下几点:冗余副本策略机架策略心跳机制安全模式效验和回收站元数据保护快照机制1.冗余副本策略可以在 hdfs-site.xml 中设置复制因子指定副本数量所有数据块都可副本DataNode 启动时,遍历本地文件系统,产生一份 HDFS 数据块和本地文件的对应关系列表 (blockreport) 汇报给 Nameno ......
241
0
0
2022-11-08
Hadoop NameNode详解NameNode在内存中保存着整个文件系统的名字空间和文件数据块的地址映射(Blockmap)。如果NameNode宕机,那么整个集群就瘫痪了。整个HDFS可存储的文件数受限于NameNode的内存大小。这个关键的元数据结构设计得很紧凑,因而一个有4G内存的Namenode就足够支撑大量的文件和目录。NameNode负责:文 ......
357
0
0
2022-11-08