hdp程序怎么样(hdp程序)(程序hd是什么意思)

大家好！今天让小编来大家介绍下关于hdp程序怎么样(hdp程序)的问题，以下是酷知号的小编对此问题的归纳整理，让我们一起来看看吧。

小贴士：如果用电脑看不清楚图片，可以用手机打开文章，点击文章中的图片，放大查看原高清图片。

费森的Github:

https://github.com/fayson/cdhproject

提示：代码块可以左右滑动查看。

7月13日，Hortonworks在官网宣布发布HDP3.0，包括Ambari2.7和SmartSense1.5，包括下载仓库和支持文档都是正式GA。

1.更新摘要

HDP3.0是大数据生态系统的一次飞跃，整个技术栈发生了很大的变化，扩展了周围的生态系统(深度学习和第三方Docker应用)。HDP3.0支持物理本地部署和主要的公共云部署，包括AWS、Azure和Google Cloud。HDP3.0的许多新功能都基于Apache Hadoop3.1，包括容器化、GPU支持、擦除代码和NameNode联邦。为了提供可信和安全的数据湖，HDP3.0的默认安装包括Apache Ranger和Apache Atlas。为了简化栈，HDP3.0去掉了包括Apache Falcon、Apache Mahout、Apache Flume、Apache Hue在内的一些组件，将Apache Slider的功能引入到Apache纱中。

2.HDFS

2.1.冷数据的擦除代码

1.采用6个数据片和3个奇偶校验片的Reed Solomon编码，可以减少50%的存储开销，同时保证数据的可用性，类似于3个副本(HDP工具中包含可选的英特尔存储加速器库)。

2.2 .名称节点联盟

1.使用Ambari UI向导启用NameNode联盟，从而线性扩展HDFS命名空间，并支持Hive、Spark和Ranger。

2.3.强化云存储企业的功能

1.谷歌云存储连接器

2.在NFS网关的支持下，视图文件系统可以实现统一的全局视图。

3.每个命名空间有多个stanby NameNode可以提高可用性(Ambari UI不支持)。

4.在单个数据节点中，对于不同容量的磁盘，您可以平衡数据。

3.故事

3.1.纱线集装箱服务

1.纱支持运行Docker容器。

2.基于Docker的Spark作业在2.YARN上受支持

3.支持Slider功能，简化纱的REST API和DNS发现。

3.2.增强的可靠性、可用性和可维护性

1.更加用户友好和开发者友好的纱线用户界面。

2.可扩展应用时间线服务2.0支持基于流的应用性能管理(APM)。

4.储备

1.工作量管理1。LLAP

您可以在LLAP池中分配资源池，并按用户或组分配资源。这可以支持大型集群的多租户功能。

2.酸性v2和默认的开放酸性

我们正在发布ACID v2。随着存储格式和执行引擎性能的提高，我们看到了与非ACID表相同或更好的性能。因此，我们默认启用ACID，并完全支持数据更新。

3.火花的蜂巢仓库连接

器

Hive WarehouseConnector允许你将Spark应用程序与Hive数据仓库连接。连接器自动处理ACID表。这使数据科学工作负载能够很好地与Hive中的数据配合使用。

4.物化视图

物化视图允许你预先聚合和预先计算查询中使用的表。通常最适合子查询或中间表。如果这些中间结果可用，基于成本的优化程序将自动查询这些中间结果，从而大大加快查询速度。

5.Information schema

通MySQL类似，现在可以直接通过Hive SQL借口查询数据库的元数据（表，列等）。

6.JDBC存储连接器

你现在可以将任何支持JDBC的数据库映射到Hive的catalog。这意味着你现在可以使用Hive对其他数据库和Hive中的表进行join操作。

7.Kafka-Druid ingest

你现在可以将Kafkatopic映射到Druid表中。消息事件会自动抽取到Druid中，然后提供准实时的查询。这与Kafka-Hive ingest不同，Kafka-Hive ingest使用SQL合并定期将数据加载到Hive表中，数据延迟一般为5-10分钟。

5.机器学习与深度学习

主要包括Spark/Zeppelin/Livy

核心能力：

1.支持Apache Spark2.3.1

2.ORC支持Structured Streaming

3.Spark History Server支持安全与ACL

4.支持在Docker容器中运行Spark作业

5.将Spark/Zeppelin/Livy从HDP2.6更新到HDP3.0

6.与S3Guard/S3A的开发人员进行Spark测试

7.与Spark认证Staging Committer

8.集成新的Metastore Catalog特性

9.Spark thrift server的Beeline支持

10.在Ambari中配置LLAP模式

集成：

1.支持每个notebook解释器配置

2.Livy支持ACL

3.Knox代理Spark History Server UI

4.Hive流式库支持Structured Streaming

5.透明写入Hive仓库

6.Ranger支持Spark-LLAP连接器

深度学习：

1.TensorFlow 1.8（仅供技术预览）

6.流式处理引擎

主要包括Kafka和Storm

1.支持Kafka1.0.1

2.重大更新

KAFKA-6172 – TimeIndex中的Cache lastEntry以避免不必要的磁盘访问。

KAFKA-6175 – AbstractIndex会缓存索引文件以避免不必要的磁盘访问在resize()期间。

KAFKA-6258 – SSLTransportLayer会保持从socket读取，直到缓冲区已满或socket中没有更多数据。

3.支持Storm1.2.1，该Storm版本同时支持HDP3.0中其他更新组件包括Hadoop/HDFS3.0, HBase2.0和Hive3。

4.捕获producer和topic分区级别的指标，而不需要在客户端配置拦截器。这提供了一种非侵入性的方法来捕获producer的重要指标，而无需重构/修改现有的Kafka客户端。

7.操作型数据库

Apache HBase的新特性。

1.备份和恢复

HBase源生支持备份/恢复，包括全量和增量的备份/恢复支持。这是admin工具包中的一个重要工具，下一个版本将支持DLM，即UI。

2.Procedure V2

你现在可以使用Procedure V2（社区里也叫Proc-v2），这是一个更新的框架，用于在发生故障时执行多步骤的HBase管理操作。引入此功能是使用proc-v2来实现所有master操作，并在未来移除像hbck这种工具。使用proc-v2创建，修改和删除表。新的AssignmentManager等其他系统也会使用proc-v2实现。

3.Fully off-heap read/write path

当通过Put操作将数据写入HBase时，在将数据flush到HFile之前，cell对象不会进入JVM heap。这有助于减少RegionServer的总heap使用量，并且复制更少的数据，从而提高效率。

4.Use of Netty for RPC layer and Async API

将旧的Java NIO RPC服务替换为Netty RPC服务。Netty可以更容易的提供异步的Java客户端API。

5.In-memory compactions (Accordion)

Memstore中数据的定期重组可以减少整体I/O，即从HDFS写入和访问的数据。当我们在内存中保留更长时间的数据时，净性能会提高。

6.更好的依赖管理

HBase现在内部隐藏了通常不兼容的依赖，以防止出现问题。你也可以使用隐藏的客户端jars，这将减轻现有应用程序的负担。

7.重写Coprocessor和Observer API

对API进行了微小的更改，以消除模糊，误导和危险的调用。

Apache Phoenix的新特性

1.HBase2.0支持

2.Phoenix Query服务的Python驱动

这是引入到Apache Phoenix项目的社区驱动程序。它提供Python db 2.0 API实现。

3.查询日志

这是一个新的系统表“SYSTEM.LOG”，它捕获有关针对集群运行的查询的信息（客户端驱动的）。

4.列编码

这是HDP的新功能。你可以在HBase表中使用自定义数据编码方案来减少占用的空间。由于读取的数据较少，可以增加性能以及减少存储。稀疏表的性能增益为30％及以上。

5.Phoenix的Hive3.0支持

对于新的Hive版本提供新的phoenix-hive StorageHandler（技术预览）。

6.Spark 2.3支持Phoenix

对于新的Spark版本提供新的phoenix-spark驱动

7.支持GRANT和REVOKE命令

如果数据表或视图更改了访问权限，它会自动更改索引ACL。

8.引入对sampling tables的支持。

9.支持atomic update (ON DUPLICATE KEY)。

10.支持基于MR查询的snapshot扫描。

11.加强Local和Global的二级索引。

8.安全和治理

8.1.Apache Ranger

8.1.1.核心策略引擎和审计功能增强

1.可调度策略：策略生效日期，以支持有时间限制的授权策略和临时策略

2.覆盖策略以支持临时资源访问，覆盖特定用户的masking/row filtering

3.Auditor和KMS Auditor角色，支持对服务，策略，用户/组，审核和报告的只读访问。

4.在access audits UI中显示Hive查询。

5.在Ranger Admin UI中审计用户同步操作

6.用于分组和组织策略以及按标签filter/search的策略标签

7.Ranger Admin UI中显示的组中的用户成员身份

8.1.2.生态系统覆盖和增强

1.为Atlas通过细粒度授权实现Metadata安全性。

2.Atlas Tag Sync service性能提升。

3.Hive UDF执行和使用授权。

4.Hive工作负载管理授权。

5.通过Hive Information_schema支持entitlement mapping。

6.HDFS NameNode联邦支持

7.通过Solr 7支持，改进了索引基础架构。

8.Ranger插件兼容HDP3.0其他的组件包括Hive，HDFS，Storm，HBase，Kafka和YARN。

8.1.3.适用于企业

1.能够在Ranger安装期间为管理员帐户指定密码

2.所有受支持的DB flavor的合并db schema脚本

3.在安装HDP3.0时，默认安装Ranger和Atlas。

8.2.Apache Atlas

8.2.1.核心元数据功能

1.新的Glossary和Business Catalog

使业务用户能够捕获自然业务术语并提供业务词汇管理（术语分类，业务术语 – 资产关联，语义术语关系，层次结构）

2.Classification (tag)Propagation

通过对传播进行细粒度控制的分类（标签）传播到相关或衍生资产，改进监管链

3.Metadata Security

对data catalog中元数据的细粒度授权（对元数据操作的特定标签授权，数据资产/类型/管理操作授权，如元数据导入/导出）

4.有时间限制的分类或业务目录映射

8.2.2.生态系统覆盖和增强

1.新的Spark Hook（技术预览），用于在Atlas中捕获Spark SQL，Dataframe和模型元数据以及数据溯源。

2.新的HBase hook以捕获元数据和数据溯源。

3.通过Solr 7支持，改进了索引基础架构。

4.使用JanusGraph DB提供Tinkerpop 3标准兼容性的图形后端，提升可扩展性以及性能。

5.更新了用于HDP3.0生态系统兼容性的Atlas Hook（Hive，Storm / Kafka，Sqoop）

6.使用新的v2样式通知改进了元数据加载性能

7.通过大规模的DSL重构提高搜索性能。

9.AMBARI 2.7 & SMARTSENSE 1.5.0

9.1.Ambari2.7

1.可用性

新的Ambari UI改动很大，更易于大规模导航，使用和执行。

2.管理性和扩展性

Ambari 2.7支持最多管理5000个节点的集群。

3.简化安全配置

单点登录是安全性和与数据平面服务（DPS）集成的必要条件，因此我们简化了DPS服务的SSO设置。FreeIPA是一种广受欢迎的IDM工具，我们现在正式支持在启用Kerberos时与FreeIPA集成。

4.自动化

Ambari拥有强大的API，我们新的REST API资源管理器可帮助团队发现并理解它所提供的一切。

5.可扩展性

与EMC紧密合作，以改善Ambari和HDP与Isilon OneFS的集成。现在，你可以轻松配置集群使用OneFS。

6.Papercuts

新功能非常棒，主要帮助你的Ambari的日常生活。

9.2.SmartSense1.5.0

1.诊断捕获

SmartSense现在可以捕获NiFi Registry，Schema Registry，Streaming Analytics Manager，Ambari Infra和Data Analytics Studio诊断信息。

2.活动分析

对于使用新的HDFS联邦功能的用户，每个namespace都可以使用活动数据。常用的过滤器也已全局化，以简化过滤和数据探索，现在可以看到LLAP查询。此外，还添加了三个新的活动资源管理器仪表板：作业比较，用户摘要和工作负载趋势。

3.Ambari视图

SmartSense视图包含对捕获内容的完整描述，以增强透明度并简化与安全团队的交流。

原文地址：

https://zh.hortonworks.com/blog/announcing-general-availability-hortonworks-data-platform-3-0-0-ambari-2-7-0-smartsense-1-5-0/

提示：代码块部分可以左右滑动查看噢

为天地立心，为生民立命，为往圣继绝学，为万世开太平。

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操，第一时间，分享更多Hadoop干货，欢迎转发和分享。

以上就是小编对于hdp程序怎么样(hdp程序)问题和相关问题的解答了，hdp程序怎么样(hdp程序)的问题希望对你有用！

文章来自互联网，只做分享使用。发布者：酷知号，转转请注明出处：https://www.kuzhihao.com/article/357812.html

hdp程序怎么样(hdp程序)(程序hd是什么意思)

关于作者

酷知号

相关推荐