永洪社区

标题: sql [打印本页]

作者: yhdata_MB5fOVHS    时间: 2022-3-5 09:41
标题: sql
请问永洪关于sql有没有具体的学习文档,比如数据集里可以写sql,计算列里也可以写sql,那区别和联系以及计算列的sql的写法具体是什么,谢谢呀

作者: 永洪tech-joey    时间: 2022-3-5 09:47
永洪运行sql的原理是,将你写的sql直接下推到数据库里面进行执行

基本语法:sql的语法是和你当前连接的数据库有关的,你连接的是Oracle的就用Oracle的语法,连接的是MySQL的就用MySQL的语法;具体sql的学习可以上网去找一些相关的学习材料

计算列和数据集中sql的区别:本质上没什么区别,在计算列里面写好sql之后,如果应用到图形里面,那会产品会将计算列拼接到下推的语句中
作者: 永洪tech-leo    时间: 2022-3-5 09:48
本帖最后由 永洪tech-leo 于 2022-3-5 09:50 编辑

您好,补充一下:
以下链接都可以看看,脚本相关介绍。把常用脚本、基本脚本总结出来了。
https://club.yonghongtech.com/fo ... hread&tid=16617
https://club.yonghongtech.com/fo ... thread&tid=1645


作者: 永洪tech-leo    时间: 2022-3-5 09:49
链接更新一下:
https://club.yonghongtech.com/fo ... hread&tid=16617
https://club.yonghongtech.com/fo ... thread&tid=1645


作者: yhdata_MB5fOVHS    时间: 2022-3-5 10:04
永洪tech-joey 发表于 2022-3-5 09:47
永洪运行sql的原理是,将你写的sql直接下推到数据库里面进行执行

基本语法:sql的语法是和你当前连接的数 ...

“列拼接到下推的语句中”是指“select嵌套”嘛,计算列的sql好像不用写select?具体的我没有查到,所以想请教一下
作者: yhdata_MB5fOVHS    时间: 2022-3-5 10:05
永洪tech-leo 发表于 2022-3-5 09:49
链接更新一下:
https://club.yonghongtech.com/forum.php?mod=viewthread&tid=16617
https://club.yonghon ...

感谢感谢,请问desktop自带的数据集有那个是有两个时间的嘛,例如“开始时间”“结束时间”
作者: 永洪tech-leo    时间: 2022-3-5 10:09
计算列的【计算类型】,可以选择“基础函数”“SQL语句”,若选择基础函数,可以使用产品内置的多种计算函数完成计算,例如聚合、类型转换等;若选择SQL语句,写入支持的SQL语句,会直接拼入最终执行的SQL语句的Select子句中。
作者: 永洪tech-leo    时间: 2022-3-5 10:16
yhdata_MB5fOVHS 发表于 2022-3-5 10:05
感谢感谢,请问desktop自带的数据集有那个是有两个时间的嘛,例如“开始时间”“结束时间” ...

您是说咖啡销售数据集吗?有1个交易时间的字段。
作者: yhdata_MB5fOVHS    时间: 2022-3-5 10:20
永洪tech-leo 发表于 2022-3-5 10:09
计算列的【计算类型】,可以选择“基础函数”“SQL语句”,若选择基础函数,可以使用产品内置的多种计算函 ...

对于亿级的数据库(具体多少不清楚,至少亿级),关于性能“写在数据集的sql”>“写在计算列的sql”>“”“永洪函数计算出来的”是嘛,因为最近一个项目关于统计计算,客户那边要求的是用sql实现,之前是用永洪实现的,结果被骂了
作者: yhdata_MB5fOVHS    时间: 2022-3-5 10:22
永洪tech-leo 发表于 2022-3-5 10:16
您是说咖啡销售数据集吗?有1个交易时间的字段。

不是还有其他的数据集嘛,我想找的是有类似“开始测试时间”“结束测试时间”一个数据集里有两个时间维度的这种
作者: 永洪tech-Felix    时间: 2022-3-5 10:31
本帖最后由 永洪tech-Felix 于 2022-3-5 10:40 编辑

您好,自带的数据集没有两个时间维度的哦,您可以连接自己的数据源测试
作者: 永洪tech-joey    时间: 2022-3-5 10:31
关于亿级别的数据性能怎么优化问题,分几种方式
1. 下推到数据库里面计算的
- 不建议直接拿亿级别的数据来直接汇总计算,不管什么数据库都卡,应该在数仓层面处理好,BI层拿汇总后的数据来进行分析
- 如果是BI层连接亿级别的数据,那可以采取你说的方式,页面上有个开始和结束时间的参数,在SQL数据集中引用到这两个参数来进行过滤,这样保障我单次查询的只是一个区间的数据; -> 但就算这种方式还是会存在一定的性能损耗,毕竟从亿级别的数据中查数据本身就很消耗性能,优先考虑第一种方式,BI拿汇总后的数据

2. 入vootldb/MPP集市:如果有购买了这个模块的话,可以将数据入到永洪的高性能引擎中,然后再做后续的分析,性能上会快很多


作者: yhdata_MB5fOVHS    时间: 2022-3-5 10:38
永洪tech-joey 发表于 2022-3-5 10:31
关于亿级别的数据性能怎么优化问题,分几种方式
1. 下推到数据库里面计算的
- 不建议直接拿亿级别的数据来 ...

嗯嗯,明白了,十分感谢
作者: 永洪tech-leo    时间: 2022-3-5 10:39






欢迎光临 永洪社区 (https://club.yonghongtech.com/) Powered by Discuz! X3.4