NiFi用户使用指南笔记

NiFi 用户使用指南笔记

  1. 组件具有版本依赖关系

处理器设置

  1. pelnalty duration:组件发生故障,是数据在此刻没法处理但之后还可以处理时,处理器可以选择搁置缓存该FlowFile,在指定时间过后再处理。
  2. yield duration:当处理器发生故障,无论花多长时间,数据无法再得到进一步的处理时,启用yield duration,这段时间过后放弃任务。
  3. Automatically Terminate Relationships:为了使处理器被视为有效且能够运行,处理器定义的每个关系必须连接到下游组件自动终止;如果关系是自动终止的,则将从流中删除任何路由到该关系的FlowFile,并将其处理视为完成。此外,对于选择自动终止的任何关系,必须首先从使用它的任何Connection中删除关系。
  4. 处理器调度策略:
      定时器驱动(Timer driven):默认模式,处理器将安排定期运行。
      事件驱动(Event driven):处理器由事件驱动运行,并且仅当FlowFiles进入连接此处理器的Connections时事件才会发生。
      CRON驱动(CRON driven):当使用CRON驱动的调度模式时,处理器被安排定期运行,类似于定时器驱动的调度模式。然而,CRON驱动模式以增加配置的复杂性为代价提供了显着更大的灵活性。CRON驱动的调度值是由六个必需字段和一个可选字段组成的字符串,每个字段由空格分隔。字段内容如下:
    在这里插入图片描述
    在这里插入图片描述
  5. 并发任务(concurrent tasks):这可以控制处理器将使用的线程数。换句话说,它控制此处理器应同时处理多少个FlowFiles。
  6. 执行(execution):执行设置用于确定处理器将被调度执行的节点。选择“所有节点”将导致在集群中的每个节点上调度此处理器。选择“主节点”将导致此处理器仅在主节点上进行调度。
  7. 执行事件长度(Run Duration):处理器完成运行后,必须更新存储库才能将FlowFiles传输到下一个Connection。更新存储库的成本很高,因此在更新存储库之前可以立即完成的工作量越多,处理器可以处理的工作量就越多(吞吐量越高)。但是,这意味着在上一个Process更新此存储库之前,下一个Processor无法开始处理这些FlowFiles。结果是,延迟时间会更长(从开始到结束处理FlowFile所需的时间会更长)
  8. comment(注释/说明):可选的,使用户可以对此组件自主的做任何注释

Controler Service

可以为process Group 右键添加Controler Service,并选择类型种类

Connection

  1. 选项卡还提供了选择此Connection中应包含哪些关系的功能。必须至少选择一个关系。如果只有一个关系可用,则会自动选择它。
  2. FlowFile到期(FlowFile Expiration):自动从流中删除无法及时处理的数据。到期可以与优先级排序器一起使用,以确保首先处理最高优先级数据,然后可以丢弃在特定时间段(例如,一小时)内无法处理的任何内容。到期时间基于数据进入NiFi实例的时间。换句话说,如果给定连接上的文件到期时间设置为“1小时”,并且已经在NiFi实例中一小时的文件到达该连接,则该文件将过期。
  3. 背压(Back Pressure):提供的第一个选项是“背压对象阈值”。这是在应用背压之前可以在队列中的FlowFiles的数量。第二个配置选项是“背压数据大小阈值”。这指定了在应用反压之前应排队的最大数据量(大小)。
  4. 负载均衡(Load Balancing):在这里插入图片描述 在这里插入图片描述在这里插入图片描述
  5. 弯曲连接:双击连接线,出现黄点,拖动即可

未完待续。。。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章