File _service:obs_scm:README.md of Package hudi

# hudi

#### 介绍
Apache Hudi是一个Data Lakes的开源方案，Hudi是Hadoop Updates and Incrementals的简写，它是由Uber开发并开源的Data Lakes解决方案。Hudi具有如下基本特性/能力：
Hudi能够摄入（Ingest）和管理（Manage）基于HDFS之上的大型分析数据集，主要目的是高效的减少入库延时。
Hudi基于Spark来对HDFS上的数据进行更新、插入、删除等。
Hudi在HDFS数据集上提供如下流原语：插入更新（如何改变数据集）；增量拉取（如何获取变更的数据）。
Hudi可以对HDFS上的parquet格式数据进行插入/更新操作。
Hudi通过自定义InputFormat与Hadoop生态系统（Spark、Hive、Parquet）集成。
Hudi通过Savepoint来实现数据恢复。

#### 软件架构
软件架构说明
与Kudu相比，Kudu是一个支持OLTP workload的数据存储系统，而Hudi的设计目标是基于Hadoop兼容的文件系统（如HDFS、S3等），
重度依赖Spark的数据处理能力来实现增量处理和丰富的查询能力，Hudi支持Incremental Pulling而Kudu不支持。
Hudi能够整合Batch和Streaming处理的能力，这是通过利用Spark自身支持的基本能力来实现的。一个数据处理Pipeline通常由Source、Processing、Sink三个部分组成，
Hudi可以作为Source、Sink，它把数据存储到分布式文件系统（如HDFS）中。Hudi能够与Hive、Spark、Presto这类处理引擎一起工作。
Hudi有自己的数据表，通过将Hudi的Bundle整合进Hive、Spark、Presto等这类引擎中，使得这些引擎可以查询Hudi表数据，
从而具备Hudi所提供的Snapshot Query、Incremental Query、Read Optimized Query的能力。

#### 安装教程

1.  xxxx
2.  xxxx
3.  xxxx

#### 使用说明

1.  xxxx
2.  xxxx
3.  xxxx

#### 参与贡献

1.  Fork 本仓库
2.  新建 Feat_xxx 分支
3.  提交代码
4.  新建 Pull Request

#### 特技

1.  使用 Readme\_XXX.md 来支持不同的语言，例如 Readme\_en.md, Readme\_zh.md
2.  Gitee 官方博客 [blog.gitee.com](https://blog.gitee.com)
3.  你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解 Gitee 上的优秀开源项目
4.  [GVP](https://gitee.com/gvp) 全称是 Gitee 最有价值开源项目，是综合评定出的优秀开源项目
5.  Gitee 官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help)
6.  Gitee 封面人物是一档用来展示 Gitee 会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)