Hbase——JavaAPI操作笔记

2022-09-18 19:49:29

写在前面

这篇文章上接Hbase搭建和Shell命令，咕咕咕了好久，最近终于有空歇下来总结一下了。

基本API——增删改

导入依赖

首先新建一个maven项目，导入如下的依赖：

<dependencies>    
<dependency>
        <groupId>org.apache.hbase</groupId>
        <artifactId>hbase-server</artifactId>
        <version>1.3.1</version>
    </dependency>

    <dependency>
        <groupId>org.apache.hbase</groupId>
        <artifactId>hbase-client</artifactId>
        <version>1.3.1</version>
    </dependency>
    </dependencies>

这里的版本要和服务器里的版本相对应。

准备工作

为了方便以后的连接，我们直接把连接HBase的配置写到静态代码块里，这样每次这个类运行的时候都会执行这些代码：

    private static Connection connection = null;
    private static Admin admin = null;
    static {
        try {
            // 1.获取配置信息
            Configuration configuration = HBaseConfiguration.create();
            configuration.set("hbase.zookeeper.quorum","hadoop03,hadoop04,hadoop05");

            // 2.创建连接对象
            connection = ConnectionFactory.createConnection(configuration);

            // 3.创建admin对象
            admin = connection.getAdmin();

        } catch (Exception e) {
            e.printStackTrace();
        }
    }

这里的configuration里set的值要换成你自己的hbase地址。我这里是在windows里配置了hosts文件映射，所以可以直接写主机名。建议都去配一下映射，不然好像会报错。

检验表是否存在

先来看代码：

    /**
     * 1.判断表是否存在
     * @return
     */
    public static boolean isTableExist(String tableName) throws IOException {
        // 1.判断表是否存在
        boolean exists = admin.tableExists(TableName.valueOf(tableName));
        // 2.关闭连接
        admin.close();
        // 3.返回结果
        return exists;
    }

这里要注意的点是，tableExists()方法只能传入一个TableName对象，我们可以通过TableName.valueOf()来获得一个TableName对象。

创建表

/**
 * 2. 创建表
 */
public static void createTable(String tableName,String... cfs) throws IOException {
    // 1.判断是否存在列族信息
    if(cfs.length <=0){
        System.out.println("请设置列族信息！");
        return;
    }
    // 2.判断表是否存在
    if(isTableExist(tableName)){
        System.out.println(tableName + "表已存在！");

        return;
    }
    // 3.创建表描述器
    HTableDescriptor hTableDescriptor = new HTableDescriptor(TableName.valueOf(tableName));
    // 4.循环添加列族信息
    for (String cf : cfs) {
        // 5.创建列族描述器
        HColumnDescriptor hColumnDescriptor = new HColumnDescriptor(cf);
        // 6.添加具体的列族信息
        hTableDescriptor.addFamily(hColumnDescriptor);

    }
    // 7.创建表
    admin.createTable(hTableDescriptor);
}

这里要注意的点是，我们通过面向对象的思想来创建一个表，首先创建一个表描述器，然后对表描述器添加列族描述器。这里只是一个例子，可以传入的类型不止这些，可以再细看API。

删除表

删除表，就跟我们用shell操作一样，先让表失效，再去删除表：

    /**
     * 3.删除表
     */
    public static void dropTable(String tableName) throws IOException {
        // 1.判断表是否存在
        if(!isTableExist(tableName)){
            System.out.println(tableName + "表不存在！！");
            return;
        }
        // 2.使表下线
        admin.disableTable(TableName.valueOf(tableName));

        // 3.删除表
        admin.deleteTable(TableName.valueOf(tableName));
    }

向表插入(修改)数据

向表插入或者修改数据，我们使用Put对象即可。创建一个Put对象，然后对其赋值即可：

    /**
     * 5.向表插入数据
     */
    public static void putData(String tableName,String rowKey,String cf,String cn,String value) throws IOException {
        // 1.获取表对象
        Table table = connection.getTable(TableName.valueOf(tableName));
        // 2.创建put对象
        Put put = new Put(Bytes.toBytes(rowKey));
        // 3.给Put对象赋值
        put.addColumn(Bytes.toBytes(cf),Bytes.toBytes(cn),Bytes.toBytes(value));
        // 4.插入数据
        table.put(put);
        // 5.关闭表连接
        table.close();
    }

删除表中数据

/**
     * 8.删除数据
     */
    public static void deleteData(String tableName,String rowKey,String cf,String cn) throws IOException {
        // 1.获取表对象
        Table table = connection.getTable(TableName.valueOf(tableName));
        // 2.构建删除对象
        Delete delete = new Delete(Bytes.toBytes(rowKey));

        // 2.1设置删除的列
//        delete.addColumn(Bytes.toBytes(cf),Bytes.toBytes(cn));
//        delete.addColumns(Bytes.toBytes(cf),Bytes.toBytes(cn));
        // 2.2 删除指定的列族
        delete.addFamily(Bytes.toBytes(cf));
        // 3.执行删除操作
        table.delete(delete);

        // 4.关闭连接
        table.close();
    }

这里我们在删除时，可以指定删除的列或者列族，进而达到指定的列或者列族的目的。

查询API——get和scan

get

/**
 * 6.获取数据 (get)
 */
public static void getData(String tableName,String rowKey,String cf,String cn) throws IOException {
    // 1.获取表对象
    Table table = connection.getTable(TableName.valueOf(tableName));
    // 2.创建get对象
    Get get = new Get(Bytes.toBytes(rowKey));
    // 2.1指定获取的列族
    get.addFamily(Bytes.toBytes(cf));
    // 2.2指定列族和列
    get.addColumn(Bytes.toBytes(cf),Bytes.toBytes(cn));
    // 2.3设置获取数据的版本数
    get.setMaxVersions();
    // 3.获取数据
    Result result = table.get(get);
    // 4.解析result并打印
    for (Cell cell : result.rawCells()) {
        // 5.打印数据
        System.out.println("cf:" + Bytes.toString(CellUtil.cloneFamily(cell)) +
                "，CN:" + Bytes.toString(CellUtil.cloneQualifier(cell)) +
                "，Value:" + Bytes.toString(CellUtil.cloneValue(cell)));
    }
    // 6.关闭表连接
    table.close();
}

get查询方法和scan查询方法的区别在于，get查询方法获得指定的值，而scan方法获得某一范围内的值。

scan

/**
 * 7.获取数据(scan)
 */
public static void scanTable(String tableName) throws IOException {
    // 1.获取表对象
    Table table = connection.getTable(TableName.valueOf(tableName));

    // 2.构建Scan对象 左闭右开
    Scan scan = new Scan(Bytes.toBytes("1001"),Bytes.toBytes("1003"));
    // 3.扫描表
    ResultScanner scanner = table.getScanner(scan);
    // 4.解析scanner
    for (Result result : scanner) {
        // 5.解析Result并打印
        for (Cell cell : result.rawCells()) {
            // 6.打印数据
            System.out.println("RoleKey:" + Bytes.toString(CellUtil.cloneRow(cell))+
                    "，cf:" + Bytes.toString(CellUtil.cloneFamily(cell)) +
                    "，CN:" + Bytes.toString(CellUtil.cloneQualifier(cell)) +
                    "，Value:" + Bytes.toString(CellUtil.cloneValue(cell)));
        }
    }
    // 7.关闭连接
    table.close();

}

进阶查询——过滤器和比较器

这里我通过一个案例来举例：

假设现在有这样一个需求：根据用户输入的对应字段来做一个多条件查询，例如目前要查询的字段有jgmc(机构名称)，szdy(所在地域)，jsxqmc(技术需求名称)。假设已经把数据存入Hbase(一个列族名为dcwjxx，字段名为对应列)，如何使用Hbase实现该查询？

案例中的需求十分明确，我们要根据用户输入的各个字段来拼接查询条件。这种事用mysql十分容易实现，那么用hbase呢？还是先来看代码：

    public List<Dcwjxx> searchByCondition(String jgmc, String szdy,String jsxqmc) {
        // 根据条件是不是空来封装过滤器
        Scan scan = new Scan();
        // 按或条件查询
        FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ONE);
        if (!TextUtils.isEmpty(jgmc)) {
            SubstringComparator jgmcSubstringComparator = new SubstringComparator(jgmc);
            SingleColumnValueFilter jgmcFilter = new SingleColumnValueFilter(Bytes.toBytes("dcwjxx"),Bytes.toBytes(
                    "jgmc"), CompareFilter.CompareOp.EQUAL,jgmcSubstringComparator);
            filterList.addFilter(jgmcFilter);
        }
        if (!TextUtils.isEmpty(szdy)) {
            SubstringComparator szdySubstringCom = new SubstringComparator(szdy);
            SingleColumnValueFilter szdyFilter = new SingleColumnValueFilter(Bytes.toBytes("dcwjxx"),Bytes.toBytes(
                    "szdy"), CompareFilter.CompareOp.EQUAL,szdySubstringCom);
            filterList.addFilter(szdyFilter);
        }
        if (!TextUtils.isEmpty(jsxqmc)) {
            SubstringComparator jsxqmcSubstringCom = new SubstringComparator(jsxqmc);
            SingleColumnValueFilter jsxqmcFilter = new SingleColumnValueFilter(Bytes.toBytes("dcwjxx"),Bytes.toBytes(
                    "jsxqmc"), CompareFilter.CompareOp.EQUAL,jsxqmcSubstringCom);
            filterList.addFilter(jsxqmcFilter);
        }
        scan.setFilter(filterList);
        return (List<Dcwjxx>) getResult(scan);
    }

这里的getResult方法把返回的结果封装成了我们需要的对象，不需要在意这个方法，我们来看看如何用HBase的API拼接条件查询。

首先我们要明确，我们这是一个多条件的过滤，且是或的关系。
我们先定义一个FilterList对象，这个对象可以存储多个过滤器，这样我们就可以存储多个过滤条件了。这里传入一个或运算符
之后，根据条件是否为空来拼接filter，这里我们使用了SubstringComparator比较器，这是Hbase自带的比较器中的一种，其作用在类名上写的十分明确了，即判断传入的字符串是不是要查询的字符串的子串。
然后我们定义一个SingleColumnValueFilter过滤器，代表我们要对一个单元格数据进行处理，传入列族，列名和比较器运算符以及比较器，最后添加到filterList即可。
这样一来，我们就实现了类似mysql中的where语句的查询了。

总结

总的来说，Hbase作为一个非关系型分布式数据库和mysql这类关系型数据库差别还是比较大的，操作起来也有诸多不适应。还是希望能多多理解。

码农公寓