-
精心整理的Hive数据导入导出的几种方式
作为数据仓库的Hive,存储着海量用户数据,在平常的Hive使用过程中,难免对遇到将外部数据导入到Hive或将Hive中的数据导出的情况。 Hive数据导入方式(Hive怎么导入数据) Hive数据导入方式主要有直接向表中插入数据、通过load加载数据、通过查询加载数据、查询语句中创建表并加载数据等四种。 直接向表中插入数据 语法格式 INSERT INTO TABLE tablename [PA…- 1.2k
- 0
-
深入浅出Hive数据倾斜,最全面的讲解(好文收藏)
背景 我们日常使用HIVE SQL的时候可能会遇到这样一个令人苦恼的场景:执行一个非常简单的SQL语句,任务的进度条长时间卡在99%,不确定还需多久才能结束,这种现象称之为数据倾斜。这一现象出现的原因在于数据研发工程师主要关注分析逻辑和数据结果的正确性,却很少关注SQL语句的执行过程与效率。 本文将为你深入浅出地讲解什么是Hive数据倾斜、数据倾斜产生的原因以及面对数据倾斜的解决方法,从而帮你快速…- 1.5k
- 0
-
最全面的Hive开窗函数讲解和实战指南(必看)
窗口函数(Window Function)是 SQL2003 标准中定义的一项新特性,并在 SQL2011、SQL2016 中又加以完善,添加了若干拓展。 窗口函数不同于我们熟悉的常规函数及聚合函数,它为每行数据进行一次计算,特点是输入多行(一个窗口)、返回一个值。 在报表等数据分析场景中,你会发现窗口函数真的很强大,灵活运用窗口函数可以解决很多复杂问题,比如去重、排名、同比及环比、连续登录等等。…- 5.2k
- 0
-
hive 自定义函数浅谈(UDF、UDAF、UDTF)
hive为什么需要自定义函数 hive的内置函数满足不了所有的业务需求,hive提供很多的模块可以自定义功能,比如:自定义函数、serde、输入输出格式等。 常见自定义函数有哪些 UDF 用户自定义函数,user defined function。一对一的输入输出。(最常用的)。 UDTF 用户自定义表生成函数。user defined table-generate function.一对多的输入…- 1.5k
- 0
-
Hive的企业级调优
hive的企业级调优 Fetch抓取 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。 select * from score;,在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive-default.xml.template文件中 hive.fetch.task.conversion默认是more,老版…- 212
- 0
-
Hive系统函数一览 (建议收藏)
Hive 提供了较完整的 SQL 功能,HQL 与 SQL 基本上一致,旨在让会 SQL 而不懂 MapReduce 编程的用户可以调取 Hadoop 中的数据,进行数据处理和分析。 这里记录了个人日常数据分析过程中 Hive SQL 需要的查询函数,方便手头随时查询,定期更新补充。 特殊说明:本文档整理内容为作者常用部分,不代表hive只有这些,感兴趣也可以查看Hive函数官方文档https:/…- 1.4k
- 0
-
讲一讲Hive的分区表与分桶表概念和使用场景, 顺便聊聊动态分区的实现
Hive将表划分为分区(partition)表和分桶(bucket)表。 分区表在加载数据的时候可以指定加载某一部分数据,并不是全量的数据,可以让数据的部分查询变得更快。分桶表通常是在原始数据中加入一些额外的结构,这些结构可以用于高效的查询,例如,基于ID的分桶可以使得用户的查询非常的块。 Hive分区表 Hive分区表的概念? Hive分区是将数据表的某一个字段或多个字段进行统一归类,而后存储在…- 1.6k
- 0
-
一文搞懂Hive存储格式及压缩格式,太清晰了!
Hive底层数据是以HDFS文件的形式存储在Hadoop中的,选择一个合适的文件存储格式及压缩方式,也是 Hive 优化的一个重点。不同的文件存储格式及压缩格式,同时代表着不同的数据存储组织方式,对于性能优化表现会有很大不同。 本文将会对Hive的存储格式、压缩格式等进行介绍和讲解,并依托案例从各个角度剖析对性能的优影响,也会讲述个人在实际工作中的一些选择和建议。 Hive 存储格式有哪些? Hi…- 4.3k
- 0
-
介绍一款Hive数仓可视化神器、Dbeaver的配置和使用方法
Dbeaver是一个图形化的界面工具,专门用于与各种数据库的集成,通过dbeaver我们可以与各种数据库进行集成。通过图形化界面的方式来操作我们的数据库与数据库表,类似于我们的sqlyog或者navicat。 下载Dbeaver 我们可以直接从github上面下载我们需要的对应的安装包即可dbeaver或官网dbeaver 国内百度云Dbeaver地址 链接: https://pan.baidu.…- 3.7k
- 0
-
Hive 系列文章(五)hive 常见报错以及解决方案
整理汇总hive使用过程中遇到的问题以及解决办法。 问题一: Hive 创建表时报错 Error: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:An excepti…- 1.7k
- 0
-
Hive 系列文章(一)初识hive
Hive 是什么? 官方解释: Hive 是基于 Hadoop 的数据仓库解决方案。由于 Hadoop 本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用 Hive 构建的数据仓库也秉承了这些特性。 简单而言: Hive 最初是由 Facebook 设计的,是基于 Hadoop 的一个数据仓库工具, 可以将结构化的数据文件映射为一张数据库表,并提供简单的类 SqL 查询语言(Hive S…- 602
- 0
❯
购物车
优惠劵
搜索
扫码打开当前页
扫码关注公众号
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!