Hadoop学习:深入解析MapReduce的大数据魔力之数据压缩(四)4.1 概述1)压缩的好处和坏处压缩的优点:以减少磁盘IO、减少磁盘存储空间。 压缩的缺点:增加CPU开销。2)压缩原则(1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩4.2 MR 支持的压缩编码1)压缩算法对比介绍2)压缩性能的比较4.3 压缩方式选择压缩方式选择 ......
73
0
0
2024-05-25
Hadoop学习:深入解析MapReduce的大数据魔力(三)3.5 MapReduce 内核源码解析3.5.1 MapTask 工作机制(1)Read阶段:MapTask通过InputFormat获得的RecordReader,从输入InputSplit中解析出一个个key/value。(2)Map阶段:该节点主要是将解析出的key/value交给用户编写 ......
72
0
0
2024-05-25
Hadoop学习:深入解析MapReduce的大数据魔力(二)3.3 Shuffle 机制3.3.1 Shuffle 机制Map 方法之后,Reduce方法之前的数据处理过程称之为Shuffle。3.3.2 Partition 分区1、问题引出 要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机 归属地不同省份输出到不同文件中(分区) ......
77
0
0
2024-05-25
Hadoop学习:深入解析MapReduce的大数据魔力(一)前言在大数据时代,高效地处理海量数据成为了各行各业的迫切需求。Hadoop作为一种重要的大数据处理框架,其核心概念之一就是MapReduce。今天开始将深入了解MapReduce,探索其在大数据处理中的重要作用。1.MapReduce概述1.1MapReduce 定义MapReduce 是一个分布 ......
76
0
0
2024-05-25
Hadoop学习指南:探索大数据时代的重要组成——HDFS(下)HDFS的读写流程(面试重点)HDFS 写数据流程1.1 剖析文件写入(1)客户端通过Distributed FileSystem 模块向NameNode 请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 (2)NameNode返回是否可以上传。 (3)客户端请求第一个 B ......
78
0
0
2024-05-25
HDFSHDFS概述1.1 HDFS 产出背景及定义1)HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。2)HDFS定义HDFS(Hadoop Distributed Fi ......
73
0
0
2024-05-25
Hadoop运行模式(下)前言接着上篇,我们继续学习Hadoop运行模式。2.6 配置历史服务器为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下:1)配置mapred-site.xml[atguigu@hadoop102 hadoop]$ vim mapred-site.xml 在该文件里面增加如下配置。<!-- 历史服务器端地 ......
75
0
0
2024-05-25
Hadoop运行模式前言今天我们具体来介绍一下Hadoop的运行模式具体内容移步正文。Hadoop运行模式1)Hadoop 官方网站:http://hadoop.apache.org/ 2)Hadoop 运行模式包括:本地模式、伪分布式模式以及完全分布式模式。 ➢ 本地模式:单机运行,只是用来演示一下官方案例。==生产环境不用。 == ➢ 伪分布式模式:也是 ......
76
0
0
2024-05-25
Hadoop运行环境搭建(开发重点)模板虚拟机环境准备数据来源层安装模板虚拟机,IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50Ghadoop100 虚拟机配置要求如下(本文Linux系统全部以CentOS-7.5-x86-1804为例)使用yum安装需要虚拟机可以正常上网,yum安装前可以先测试下虚拟机联网情况[root ......
40
0
0
2024-05-25
前言计算机网络是指将分散的计算机设备通过通信线路连接起来,形成一个统一的网络。为了使得各个计算机之间能够相互通信,需要遵循一定的协议和规范。OSI参考模型和TCP/IP参考模型是计算机网络中常用的两种层次结构模型。其中,TCP/IP参考模型被广泛应用于实际的网络实现中。网络地址管理是计算机网络中的重要问题。IP地址是计算机在网络中的唯一标识,它包含了网络号和 ......
64
0
0
2024-05-19
原文:System Design Interview – An Insider’s Guide 译者:飞龙 协议:CC BY-NC-SA 4.0十五、设计谷歌云盘近年来,Google Drive、Dropbox、微软 OneDrive、苹果 iCloud 等云存储服务变得非常流行。在这一章中,你被要求设计 Google Drive。在开始设计之前,让我们花点 ......
66
0
0
2024-05-18
原文:System Design Interview – An Insider’s Guide 译者:飞龙 协议:CC BY-NC-SA 4.0九、设计网络爬虫在这一章中,我们关注网络爬虫设计:一个有趣而经典的系统设计面试问题。网络爬虫被称为机器人或蜘蛛。搜索引擎广泛使用它来发现 web 上新的或更新的内容。内容可以是网页、图像、视频、PDF 文件等。网络爬 ......
64
0
0
2024-05-18
原文:System Design Interview – An Insider’s Guide 译者:飞龙 协议:CC BY-NC-SA 4.0零、序言我们很高兴你决定加入我们学习系统设计面试。系统设计面试问题是所有技术面试中最难解决的。这些问题要求受访者为一个软件系统设计一个架构,这个软件系统可以是新闻提要、谷歌搜索、聊天系统等。这些问题令人生畏,没有一定 ......
71
0
0
2024-05-18
网络安全网络安全问题概述计算机网络面临的女全性威胁计算机网络的通信而临两大类威胁,即被动攻击和主动攻击被动攻击是指攻击者从网络上窃听他人的通信内容。通常把这类攻击称为截获。在被动攻击中,攻击者只是观察和分析某一个协议数据单元 PDU (这里使用 PDU 这一名词是考虑到所涉及的可能是不同的层次)而不干扰信息流主动攻击有如下几种蚊常见的方式。(I) 篡改 攻击 ......
81
0
0
2024-05-17
走私绕过前端限制假设应用程序使用前端服务器来实现访问控制限制,仅当用户被授权访问所请求的URL时才转发请求,然后后端服务器接受每个请求,而不做进一步的检查,在这种情况下可以利用HTTP请求走私漏洞通过请求走私访问受限制的URL从而绕过访问控制,假如允许当前用户访问/home,但不允许访问/admin,他们可以使用以下请求走私攻击绕过这一限制:POST /ho ......
83
0
0
2024-05-15