Flume是什么框架

fanly 问答 2019-07-22 17:00:57 阅读(...)

Apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。flume 具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到 HDFS,HBase 等集中存储器中。

Flume

flume 是由 cloudera 软件公司产出的可分布式日志收集系统,后与 2009 年被捐赠了 apache 软件基金会,为 hadoop 相关组件之一。尤其近几年随着 flume 的不断被完善以及升级版本的逐一推出,特别是 flume-ng;同时 flume 内部的各种组件不断丰富,用户在开发的过程中使用的便利性得到很大的改善,现已成为 apache top 项目之一。

Flume 应用场景

比如我们在做一个电子商务网站,然后我们想从消费用户中访问点特定的节点区域来分析消费者的行为或者购买意图. 这样我们就可以更加快速的将他想要的推送到界面上,实现这一点,我们需要将获取到的她访问的页面以及点击的产品数据等日志数据信息收集并移交给 Hadoop 平台上去分析.而 Flume 正是帮我们做到这一点。现在流行的内容推送,比如广告定点投放以及新闻私人定制也是基于次,不过不一定是使用 FLume,毕竟优秀的产品很多,比如 facebook 的 Scribe,还有 Apache 新出的另一个明星项目 chukwa,还有淘宝 Time Tunnel。

Flume 的优势

1.  Flume 可以将应用产生的数据存储到任何集中存储器中,比如 HDFS,HBase

2.  当收集数据的速度超过将写入数据的时候,也就是当收集信息遇到峰值时,这时候收集的信息非常大,甚至超过了系统的写入数据能力,这时候,Flume 会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供一共平稳的数据.

3.   提供上下文路由特征

4.   Flume 的管道是基于事务,保证了数据在传送和接收时的一致性.

5.   Flume 是可靠的,容错性高的,可升级的,易管理的,并且可定制的。

4. Flume 具有的特征:

1. Flume 可以高效率的将多个网站服务器中收集的日志信息存入 HDFS/HBase 中

2. 使用 Flume,我们可以将从多个服务器中获取的数据迅速的移交给 Hadoop 中

3. 除了日志信息,Flume 同时也可以用来接入收集规模宏大的社交网络节点事件数据,比如 facebook,twitter,电商网站如亚马逊,flipkart 等

4. 支持各种接入资源数据的类型以及接出数据类型

5. 支持多路径流量,多管道接入流量,多管道接出流量,上下文路由等

6. 可以被水平扩展

收藏 0个人收藏
走进科技生活方式

发表评论

登录后参与评论