Fork me on GitHub
最新文章

【算法】编程语言的sort方法实现

算法 2022-03-12 算法

sort实现

  • PHP
  • JAVA
  • Python
  • Golang
显示全文

【web】xdebug调试和性能分析

web 2022-03-11 php

xdebug

phpstorm配置xdebug

  • PhpStorm 2021.3.2
  • PHP 7.2.34
  • Xdebug v2.7.2

https://www.jetbrains.com/help/phpstorm/configuring-xdebug.html

https://xdebug.org/

显示全文

【bigdata】Flink State状态以及Checkpoint机制

bigdata 2022-03-08 bigdata

问题

  1. 什么是状态?状态有什么作用?
  2. Flink状态类型有哪几种?
  3. State Backends?
  4. 什么是checkpoint与savepoint?
  5. 如何使用checkpoint与savepoint?
  6. checkpoint原理是什么?
  7. checkpoint API
显示全文

【bigdata】Flink Broadcast State

bigdata 2022-03-08 bigdata

广播流

广播流可以通过查询配置文件,广播到某个 operator 的所有并发实例中,然后与另一条流数据连接进行计算。 广播的数据结构

  • 使用广播状态,operator task 之间不会相互通信。使用广播流,实现数据流的动态配置(taskSlot是内存隔离的,所以broadcast是在Taskslot都有一份)。
  • 广播状态中事件的顺序在各个任务之间可能有所不同
  • 所有任务都会检查其广播状态
  • 没有RocksDB状态后端
显示全文

【bigdata】kafka-producer

bigdata 2022-03-03 bigdata

Kafka源码01(Producer)

导入代码

idea导入 -> idea自动处理 gradle

https://github.com/apache/kafka

Kafka 版本 2.11-2.4.0 切换到 2.4 分支

Producer 数据发送流程

Producer发送消息核心流程概述

显示全文

【bigdata】kafka-broker

bigdata 2022-03-03 bigdata

Kafka源码02(Broker)

kafka-server-1

超高并发的网络架构

显示全文

【bigdata】kafka

bigdata 2022-03-02 bigdata

Kafka 是什么?为什么需要Kafka?

Apache Kafka is an open-source distributed event streaming platform used by thousands of companies for high-performance data pipelines, streaming analytics, data integration, and mission-critical applications.

流式数据平台

  1. 类似消息系统,提供事件流的发布和订阅,数据注入功能
  2. 存储事件流数据的节点具有故障容错的特点,数据存储功能
  3. 能够对实时的事件流进行流式的处理和分析,流处理功能
显示全文

【bigdata】华为云配置

bigdata 2021-09-08 bigdata

华为云配置

  • kudu
  • impala
  • yarn
  • flink
显示全文

【bigdata】kudu-sink

bigdata 2021-05-22 bigdata

通过Flink从Kafka订阅数据入库到Kudu

显示全文

【bigdata】kudu

bigdata 2021-03-01 bigdata

kudu是什么

https://kudu.apache.org/docs/

kudu 是一个针对 Apache Hadoop 平台而开发的列式存储管理器。支持水平扩展,高可用。

  • OLAP 工作的快速处理
  • 与 MapReduce,Spark 和其他 Hadoop 生态系统组件集成
  • 与 Apache Impala(incubating)紧密集成,使其与 Apache Parquet 一起使用 HDFS 成为一个很好的可变的替代方案
  • 强大而灵活的一致性模型,允许您根据每个 per-request(请求选择)一致性要求,包括 strict-serializable(严格可序列化)一致性的选项
  • 针对同时运行顺序和随机工作负载的情况性能很好。
  • High availability(高可用性)Tablet server *和 *Master 使用 Raft Consensus Algorithm 来保证节点的高可用,确保只要有一半以上的副本可用
  • 结构化数据模型
显示全文