导航:首页 > 人文历史 > hbase如何清理历史数据

hbase如何清理历史数据

发布时间：2022-04-25 08:14:05

⑴ 如何清空hbase中meta中无效的数据

由于操作HBase比较粗犷，有时直接在Hadoop中删除hbase对应的表，导致.META.中还记录着表项，但实际存储空间中却没找到。这样就会导致HBase的log中总在报错，说找不到xxx表，而且log在飞快增长。
办法是删除.META.中对应表项。
原来，.META.和-ROOT-其实也是hbase的两个特殊的表，这就是说，我们可以scan、delete等对其进行操作。
1. scan ‘.META.'
可以看到，本来已经删除的表，还在这里存在记录。而且每个表，会分别对应3行记录。
2. delete对应的行。
删除.META.表项与删除table中一行一样，输入：
delete '.META.',row,column
delete后加上3个参数，分别是：表、行、列（如 a:b）就能删除对应行。
之后重启hbase，报错就会消失。

⑵ hbase 什么时候会删除旧的数据

过了TTL（有效期）时期就会自动删除

⑶ hbase是怎样删除和修改数据的，和oracle这类传统的rdbms有什么区别

简单来说，传统关系型数据库的修改与删除，可以快速通过主键、列或索引直接锁定到某一行或某些行，进行物理删除。
而对于Hbase来说，受到hdfs文件系统的局限（hdfs文件系统不能修改，添加也很不方便），进行CRUD的操作就会变得相对复杂。
Hbase的修改，是根据某个行键添加一行数据，并未这行数据生成一个较新的时间戳来实现，每个行键都会对应多个时间戳的数据，那么最新的时间戳就是最终修改后的内容。
而删除则是通过标记来实现，如果要删除某行记录，Hbase会添加一个带有删除标记的行，通过这个删除标记来辨认该行建的数据是否删除。
Hbase与关系型数据库的区别：
1、场景
Hbase是面向列的数据库，适合大量的插入的同时又要具备不俗的读功能，而Oracle或其他关系型数据库适合处理比较复杂的业务关系或事务处理，而且，在数据在一定量级下都会有良好的表现，并不是所有业务的数据压力都会发生比较极端的情况。
2、索引
Hbase只能做主键索引，而关系型数据库可以根据需求不同加入适合的索引机制，供用户查询。
3、瓶颈
Hbase的瓶颈是硬盘的传输速度，Oracle的瓶颈是硬盘的寻道时间（可以看做是硬盘的转数）。
4、业务
Hbase适合按照时间排序的业务，而Oracle或其他关系型数据库应用比较广泛，如OLTP或OLAP

⑷ 而依赖HDFS的HBase如何完成数据的增删改查

早期版本的HDFS不支持任何的文件更新操作，一旦一个文件创建、写完数据、并关闭之后，这个文件就再也不能被改变了。为什么这么设计？是为了与MapRece完美配合，MapRece的工作模式是接受一系列输入文件，经过map和rece处理，直接产生一系列输出文件，而不是在原来的输入文件上做原位更新。为什么这么做？因为直接输出新文件比原位更新一个旧文件高效的多。
在HDFS上，一个文件一直到它的close方法成功执行之后才会存在，才能被其他的client端所看见。如果某个client端在写文件时或者在close文件时失败了，那么这个文件就不会存在，就好像这个文件从来没写过，唯一恢复这个文件的方法，就是从头到尾重新再写一遍。

⑸ 如何修改hbase

删除数据通过删除列或列簇没有修改数据，要更改数据，将对应行键、列簇、列下的值重新写入就行了。他虎同时保存多个时间版本的值，使用的时候直接取最新的数据就行了。

⑹ hbase清理数据用setTimeRange 方法怎么脚本实现

HBase是Google Bigtable的开源实现，它利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapRece来处理HBase中的海量数据，利用Zookeeper作为协同服务。

1. 简介

HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现，它利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapRece来处理HBase中的海量数据，利用Zookeeper作为协同服务。

2. HBase的表结构

HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族/列簇(column family)。

Row Key column-family1 column-family2 column-family3
column1 column2 column1 column2 column3 column1
key1
key2
key3

如上图所示，key1,key2,key3是三条记录的唯一的row key值，column-family1,column-family2,column-family3是三个列族，每个列族下又包括几列。比如column-family1这个列族下包括两列，名字是column1和column2，t1:abc,t2:gdxdf是由row key1和column-family1-column1唯一确定的一个单元cell。这个cell中有两个数据，abc和gdxdf。两个值的时间戳不一样，分别是t1,t2, hbase会返回最新时间的值给请求者。
这些名词的具体含义如下：
(1) Row Key
与nosql数据库们一样,row key是用来检索记录的主键。访问hbase table中的行，只有三种方式：
(1.1) 通过单个row key访问
(1.2) 通过row key的range
(1.3) 全表扫描
Row key行键 (Row key)可以是任意字符串(最大长度是 64KB，实际应用中长度一般为 10-100bytes)，在hbase内部，row key保存为字节数组。
存储时，数据按照Row key的字典序(byte order)排序存储。设计key时，要充分排序存储这个特性，将经常一起读取的行存储放到一起。(位置相关性)
注意：
字典序对int排序的结果是1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的自然序，行键必须用0作左填充。
行的一次读写是原子操作 (不论一次读写多少列)。这个设计决策能够使用户很容易的理解程序在对同一个行进行并发更新操作时的行为。
(2) 列族 column family
hbase表中的每个列，都归属与某个列族。列族是表的chema的一部分(而列不是)，必须在使用表之前定义。列名都以列族作为前缀。例如courses:history ， courses:math 都属于 courses 这个列族。
访问控制、磁盘和内存的使用统计都是在列族层面进行的。实际应用中，列族上的控制权限能帮助我们管理不同类型的应用：我们允许一些应用可以添加新的基本数据、一些应用可以读取基本数据并创建继承的列族、一些应用则只允许浏览数据（甚至可能因为隐私的原因不能浏览所有数据）。
(3) 单元 Cell
HBase中通过row和columns确定的为一个存贮单元称为cell。由{row key, column( =<family> + <label>), version} 唯一确定的单元。cell中的数据是没有类型的，全部是字节码形式存贮。
(4) 时间戳 timestamp
每个cell都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由hbase(在数据写入时自动 )赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。每个cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。
为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担，hbase提供了两种数据版本回收方式。一是保存数据的最后n个版本，二是保存最近一段时间内的版本（比如最近七天）。用户可以针对每个列族进行设置。
3. HBase shell的基本用法
hbase提供了一个shell的终端给用户交互。使用命令hbase shell进入命令界面。通过执行 help可以看到命令的帮助信息。
以网上的一个学生成绩表的例子来演示hbase的用法。
name grad course
math art
Tom 5 97 87
Jim 4 89 80
这里grad对于表来说是一个只有它自己的列族,course对于表来说是一个有两个列的列族,这个列族由两个列组成math和art,当然我们可以根据我们的需要在course中建立更多的列族,如computer,physics等相应的列添加入course列族。

⑺ hbase2.0强制删除一张表

由于内网测试环境hbase并没有安装“SNAPPY”压缩，而建表时执行了

alter 'TrojanInfo', {NAME => 'i', COMPRESSION => 'SNAPPY'}

强制删除表：

1、强制删除该表在hdfs上的所有文件(路径根据实际情况而定）：

./hadoop fs -rmr /hbase/TrojanInfo

2、删除该表在HBase系统表.META.中的记录：

A、首先从.META.中查询出表 TrojanInfo在.META.中的rowkey，这可以通过scan '.META.'，然后手动筛选；

B、然后删除该rowkey下的3个字段（假设查询出的rowkey为TrojanInfo,,1361433390076..）

delete 'TrojanInfo','TrojanInfo,,1361433390076..','info:server'

delete 'TrojanInfo','TrojanInfo,,1361433390076..','info:serverstartcode'

delete 'TrojanInfo','TrojanInfo,,1361433390076..','info:regioninfo'

C、重启hbase即可删除表 TrojanInfo

⑻ hbase是怎样删除和修改数据的

hbase提供了对hbase进行一系列的管理涉及到对表的管理、数据的操作java
api。
常用的api操作有：
1、
对表的创建、删除、显示以及修改等，可以用hbaseadmin，一旦创建了表，那么可以通过htable的实例来访问表，每次可以往表里增加数据

⑼ hbase删除标签的数据什么时候彻底删除

可以使用如下两个jquery方法来实现：$(selector).remove(); // 除被选元素，包括所有文本和子节点$(selector).attr(); // 返回被选元素的属性值。实例演示：点击图标删除li，同时获取被删除图片的信息创建Html元素点击删除图标删除li，同时获取被删除图片的信息：设置css样式div.box{width:300px;padding:20px;margin:20px;border:4px dashed #ccc;}div.box>span{color:#999;font-style:italic;}div.content{width:250px;margin:10px 0;padding:20px;border:2px solid #ff6666;}li{list-style: none;}img.show_i{width:100px;}img.del_i{width:20px;cursor:pointer;}编写jquery代码$(function(){ $("ul#del img.del_i").click(function() {var name = $(this).siblings('img').attr("src"); // 被删除图片名称$(this).parent("li").remove(); // 删除父元素lialert(name);});});观察效果初始样式点击删除第二个li

阅读全文

与hbase如何清理历史数据相关的资料

热点内容

word中化学式的数字怎么打出来发布：2023-08-31 22:06:02 浏览：770

乙酸乙酯化学式怎么算发布：2023-08-31 21:59:55 浏览：1429

沈阳初中的数学是什么版本的发布：2023-08-31 21:59:06 浏览：1391

华为手机家人共享如何查看地理位置发布：2023-08-31 21:53:00 浏览：1080

一氧化碳还原氧化铝化学方程式怎么配平发布：2023-08-31 21:52:13 浏览：918

数学c什么意思是什么意思是什么发布：2023-08-31 21:44:12 浏览：1450

中考初中地理如何补发布：2023-08-31 21:29:55 浏览：1341

360浏览器历史在哪里下载迅雷下载发布：2023-08-31 21:20:27 浏览：735

数学奥数卡怎么办发布：2023-08-31 21:18:51 浏览：1431

如何回答地理是什么发布：2023-08-31 21:14:54 浏览：1066

win7如何删除电脑文件浏览历史发布：2023-08-31 21:11:42 浏览：1084

大学物理实验干什么用的到发布：2023-08-31 21:07:03 浏览：1520

二年级上册数学框框怎么填发布：2023-08-31 21:05:06 浏览：1740

西安瑞禧生物科技有限公司怎么样发布：2023-08-31 21:04:01 浏览：1097

武大的分析化学怎么样发布：2023-08-31 21:03:06 浏览：1278

ige电化学发光偏高怎么办发布：2023-08-31 21:02:12 浏览：1367

学而思初中英语和语文怎么样发布：2023-08-31 20:59:29 浏览：1701

下列哪个水飞蓟素化学结构发布：2023-08-31 20:50:46 浏览：1457

化学理学哪些专业好发布：2023-08-31 20:46:41 浏览：1513

数学中的棱的意思是什么发布：2023-08-31 20:45:44 浏览：1098