标签: 大数据

5 篇文章

数据血缘之 Apache Atlas
Apache Atlas 是一款开源的元数据管理和治理工具,并且提供了 REST API 对外接口,可以非常方便地接入到相应的数据平台系统中。Atlas 也提供 web 界面对元数据进行管理,企业可以对数据库元数据建立资产目录,并对这些资产进行分类和治理,为数据分析,数据治理提供高质量的「元数据」(可以理解成描述数据的数据)信息。 Atlas 主要…
快速搭建 Apache Hive Docker 测试环境
在某些场景下,需要快速构建自己的 Hive 测试环境来调试和学习 Hive 相关的语法和分析执行语句。本文介绍了和种免除分布式Hadoop配置的复杂过程。能够快速构建自己的Hive环境,并介绍构建在远程主机情况下,客户端访问Hive与执行SQL。 基本条件 本文参考的基本安装配置如下, Linux(本文采用Debian,开放ssh远程访问) Doc…
阿里巴巴高级技术专家章剑锋:大数据发展的 8 个要点-云栖社区-阿里云
章剑锋(简锋),开源界老兵,Apache Member,曾就职于 Hortonworks,目前在阿里巴巴计算平台事业部任高级技术专家,并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ,以及 Apache Pig 的 Committer。 来源: 阿里巴巴高级技术专家章剑锋:大数据发展的 8 个要点-云栖社区-…
KMeans 算法应用于 RGB 图像压缩
KMeans算法可以应用于图像压缩,这种压缩实质上是一种有损压缩,实质上是将原本的色彩空间进行聚类,当所聚类的数据增长时,压缩后的质量也随之增加。 关于聚类算法的的介绍和具体处理步聚就是在这里细讲,主要是讲解关于 KMeans 应用于图像压缩的实质和实现 ...