presto、hive、sql工作中犯的一些错误总结

presto、hive、sql工作中犯的一些错误总结,很多低级错误,不足为看,丢人hhhhhh

1.日期错误
etl_dt = '20200520’写成了‘202005200’,多一个0得出错误结果,不细心,差点犯了大错。
解决办法:按照流程检查,必要时候double check!

2.用错表格,虽然都有student_id这个标签,但表a left join 表b后,表b的很多字段都是空的。说明两个表格没有交集,一定要用对表格,熟悉业务逻辑和流程。严重影响工作效率,应该先问开发人员,我应该用什么表格呀,别自己瞎摸索

3.刚刚开始工作的时候,没有筛选distinct 的id,导致一个id对应多条信息。你给一个客户反复打电话,他不投诉你才怪,老板不批评你才怪

4.inner join,left join 不熟悉,影响工作逻辑和效率

5.没事喜欢group,特别是求sum avg时结果容易出错,得到不符合要求的结果。sum(a)或者count(a) 就不要group by a,真想可以再写个循环,sum(f.a) as a_f

6.一个用户可能有很多个单号,我想取最大的那个,十好几位的数用了max,那可不是一般的好max的,计算量必然巨大啊,就卡死了

7.经常忘记英文逗号, 所以,最好放在新的一行行首,更加醒目

未完待补充

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章