SparkSQL对于批流支持的特性及批流一体化支持框架的难点
二、基于SparkSQL-Flow的
分析框架
何为 SparkSQL-Flow
1.一个由普元技术部提供的基于 SparkSQL 的开发模型;
2.一个可二次定制开发的大数据开发框架,提供了灵活的可扩展 API;
3.一个提供了 对文件,数据库,NoSQL、流处理等统一的数据开发模式;
4.基于 SQL 的开发语言和 XML 的模板配置,支持 SparkSQL UDF 的扩展管理;
5.支持基于 Spark Standlone,Yarn,Mesos 资源管理平台;
6.支持多种平台Kerberos认证(开源、华为、星环)等平台统一认证;
SparkSQL Flow XML 概览
用户只需要定义 Source,Transformer,Target 几个核心组件:
1.Source 数据源:支持Data、DB、File、NoSQL、MQ 等众多源;
2.Transformer 为上述定义的数据源和已有的Transformer 间的组合操作,一般为SQL;
3.Target 为输出目标,支持show、DB、File、NoSQL、MQ 等众多目标,支持类型基本和源相同;
4.用户可以在Properties定义一些变量,作为Source/Transformer/Target 的宏替换;
SparkSQL Flow 适合的场景
1.批量 ETL;
2.非实时分析服务;
3.流式 ETL;
支持从多种获得数据源:
1.支持文件:JSON、TextFile(CSV)、ParquetFile、AvroFile
2.大数据:Hive、HDFS
3.支持RDBMS数据库:PostgreSQL、 MySQL、Oracle
4.支持 NOSQL 数据库:Hbase、MongoDB、Redis
5.Streaming:JMS、AMQP、Kafka、Socket
最新活动更多
-
即日-11.13立即报名>>> 【在线会议】多物理场仿真助跑新能源汽车
-
11月20日火热报名中>> 2024 智能家居出海论坛
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论