YEY Blog

Life is a long long journey.

华为 09.02 机试复盘

1. 缓存转发数据包统计 题目描述 数据包转发线路结构: $k$ 个节点组成的队列 每个节点转发能力为 $m$,缓存能力为 $n$ 节点可能由于故障直接跳过,但不会有两个连续故障节点 两轮操作: 向此队列发送 $a$ 个数据包让其转发; 继续转发之前缓存的数据包(如果第二轮仍有数据包缓存则丢弃)。 问题: 两轮操作后可能收到的最...

大数据查询利器 Hive 03:Hadoop 及 Hive 环境介绍

本节中我们将介绍 Hadoop 及 Hive 环境。首先,在 Hadoop 环境中,我们将主要介绍: 分布式文件系统 (HDFS):它解决的是传统数据库所面临的海量数据存储问题,其采用分布式文件存储,即将文件切分为多份并备份存储在 Hadoop 集群中的不同机器上; 分布式计算 (MapReduce):它解决的是传统数据库所面临的海量数据时计算处理能力不足的问题。实际上,Hado...

大数据查询利器 Hive 02:海量数据如何存储与使用

1. 海量数据的形成 首先我们看一下什么是大数据。 大数据中的 “大” 主要体现在以下两个方面: 记录条数多 维度多 记录条数多就是说我们收集的数据行数比较多,比如我们可以收集全国十几亿人的姓名,这里的十几亿就是记录条数,姓名就是一个维度。当然,如果仅仅只是收集姓名这一维度,得到的数据没有任何价值。如果我们对维度进行扩充,即同时收集这些人的...

大数据查询利器 Hive 01:认识大数据

1. ⼤数据来源(⼤数据是如何产⽣的) 我们知道:Excel 的一张工作表可以存储 104 万条记录,并且在这种数据量级下其处理速度非常慢;MySQL 单表可以存储 4000 多万条记录,同样也是数据越多处理越慢;与 MySQL 并行存在的 Oracle、SQL Server 的存储能力也是千万级的。但是,随着互联网的发展、万物互联的实现,大数据的到来是必然趋势。随着海量数据的产生,Exc...

Tableau 实战案例:企业经营分析看板

1. 案例背景 1.1 背景介绍 某在线职业教育公司,目前开设有大数据、软件开发、设计、Python四大学院,主打数据分析、 大数据开发、大前端、java工程师、UI设计、PS、Python数据挖掘等课程,覆盖当今互联网企业多个主流热门岗位的职业培训。 该公司是通过 “站内 + 站外广告投放” 的形式获取对课程有需求的潜在学员线索,然后统一由销售顾问团队跟进线索,逐步引导线索学员对体验...