当前位置: 首页 > news >正文

Doris支持的数据导入方式

1、Broker load

     通过 Broker 进程访问并读取外部数据源(如 HDFS)导入到 Doris。用户通过 Mysql协议提交导入作业后,异步执行。通过 SHOW LOAD 命令查看导入结果。

    源数据在 Broker 可以访问的存储系统中,如 HDFS。数据量在几十到百 GB 级别。

   创建导入的详细语法执行 HELP BROKER LOAD 查看语法帮助。这里主要介绍 Broker
load 的创建导入语法中参数意义和注意事项。

    1)label

        导入任务的标识。每个导入任务,都有一个在单 database 内部唯一的 Label。Label 是用户在导入命令中自定义的名称。通过这个 Label,用户可以查看对应导入任务的执行情况。

        Label 的另一个作用,是防止用户重复导入相同的数据。强烈推荐用户同一批次数据使用相同的 label。这样同一批次数据的重复请求只会被接受一次,保证了 At-Most-Once 语义
当 Label 对应的导入作业状态为 CANCELLED 时,可以再次使用该 Label 提交导入作业。

    2)  导入示例

Doris 中创建表

create table student_result

(

id int ,

name varchar(50),

age int ,

score decimal(10,4)

)

DUPLICATE KEY(id)

DISTRIBUTED BY HASH(id) BUCKETS 10;

LOAD LABEL test_db.student_result

(

DATA INFILE("hdfs://hadoop1:8020/student.csv")

INTO TABLE `student_result`

COLUMNS TERMINATED BY ","

(c1, c2, c3, c4)

set(

id=c1,

name=c2,

age=c3,

score=c4

)

)

WITH BROKER broker_name

(

#开启了 HA 的写法,其他 HDFS 参数可以在这里指定

"dfs.nameservices" "my_cluster",

"dfs.ha.namenodes.my_cluster" "nn1,nn2,nn3",

"dfs.namenode.rpc-address.my_cluster.nn1" "hadoop1:8020",

"dfs.namenode.rpc-address.my_cluster.nn2" "hadoop2:8020",

"dfs.namenode.rpc-address.my_cluster.nn3" "hadoop3:8020",

"dfs.client.failover.proxy.provider" =

"org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProx

yProvider"

)

          

2、Stream load  

用户通过 HTTP 协议提交请求并携带原始数据创建导入。主要用于快速将本地文件或
数据流中的数据导入到 Doris。导入命令同步返回导入结果

3、insert

类似 MySQL 中的 Insert 语句,Doris 提供 INSERT INTO tbl SELECT ...; 的方式从
Doris 的表中读取数据并导入到另一张表。或者通过 INSERT INTO tbl VALUES(...); 插入单
条数据。

4、Multi load

用户通过 HTTP 协议提交多个导入作业。Multi Load 可以保证多个导入作业的原子生
效。

5、Routine load

用户通过 MySQL 协议提交例行导入作业,生成一个常驻线程,不间断的从数据源(如
Kafka)中读取数据并导入到 Doris 中。

6、通过 S3 协议直接导入

用户通过 S3 协议直接导入数据,用法和 Broker Load 类似。
Broker load 是一个异步的导入方式,支持的数据源取决于 Broker 进程支持的数据源。
用户需要通过 MySQL 协议创建 Broker load 导入,并通过查看导入命令检查导入结果。

http://www.dtcms.com/a/585705.html

相关文章:

  • 【SpringCloud(10)】Alibaba旗下微服务开发:Nacos注册中心和配置中心使用、安装Nacos、Nacos部署、集群部署
  • Font Awesome 文件类型图标
  • 细说 ASP.NET控制HTTP缓存
  • 高新区网站建设 意义搜索大全搜索引擎
  • S32K146 -CAN(FlexCAN)收发-经验教训
  • MCU学习Day24——STM32G030多路ADC DMA采集深度解析:完全可配置序列器与不完全可配置序列器的陷阱与抉择
  • dedecms 网站栏目管理寺庙网站素材
  • 东莞网站建设seo优化办公室现代简约装修效果图
  • 服务间通信模式
  • 如何用Python实现飞机大战小游戏
  • 做注塑机的网站wordpress导出出错
  • Rust 练习册 :Proverb与字符串处理
  • 做国际贸易需要网站吗关键词优化排名费用
  • SpringBoot 集成 RabbitMQ
  • 有做公司网站潍坊关键词优化软件
  • Linux 管道(pipe/FIFO)全指南:概念、语义、原子性、阻塞规则、实战代码与最佳实践
  • Servlet的基本使用和作用
  • openEuler上安装高版本的docker
  • 【办公类-123-02】20251108AI照片合成《证件照蝴蝶结》
  • PostgreSQL SELECT 语句详解
  • 16_FastMCP 2.x 中文文档之FastMCP服务端高级功能:代理服务器详解
  • 住房住房和城乡建设部网站首页网络营销的特点与优势
  • 免费公司网站模板站长工具seo查询5g5g
  • AI黑客来袭:Strix如何用大模型重新定义渗透测试游戏规则
  • 系统规划与管理师学习--论文case
  • linux部署confluence7.19.7
  • 工业视觉中的白平衡,为何是色彩准确性的基石
  • Delphi跨平台开发中为Linux开发的优劣分析
  • 凡科网站源码下载做零售外贸网站有哪些
  • KVStore 多行文章型键值扩展解析:切片存储与客户端多行交互