重要链接汇总

linux:
1)Shell脚本中$0、$?、$!、$$、$*、$#、$@等的意义以及linux命令执行返回值代表意义 https://blog.csdn.net/helloxiaozhe/article/details/80940066
2)linux 下shell中if的“-e,-d,-f”是什么意思 https://blog.csdn.net/superbfly/article/details/49274889
3)Linux性能优化实战 https://time.geekbang.org/column/intro/140
4)用sed命令怎么打印文件中的最后一行
https://zhidao.baidu.com/question/1431848772803799419.html
5)split命令详解 https://www.cnblogs.com/machangwei-8/p/9570866.html
6)Linux系统下删除乱码文件或者目录,rm删除不了
https://blog.csdn.net/llbacyal/article/details/24411803
7)yum 运行时提示There was a problem importing one of the Python modules required to run yum. The error lead
https://blog.csdn.net/lingdaz/article/details/40542537
8)请问下在shell命令行怎样定位到行尾啊。 http://bbs.chinaunix.net/thread-4176195-1-1.html
9)CentOS7 安装Ansible - No package ansible available
https://blog.csdn.net/downing114/article/details/52220496
10)CentOS7安装Nmon(linux性能监控工具) https://www.cnblogs.com/mingerlcm/p/7748539.html
//用 yum 安装nmon 没有安装包 参考此链接 可行
11)Centos7 cache/buff过高处理方法 https://blog.51cto.com/13578154/2150303?source=dra
12)如何从Zabbix数据库中获取监控数据 https://zhidao.baidu.com/question/391817367920441565.html
13) Linux date命令的用法(转) https://www.cnblogs.com/asxe/p/9317811.html
14) 使用jiacrontab搭建一个可视化的定时任务 https://www.xiaoz.me/archives/11640/comment-page-1
15) HAProxy从零开始到掌握 https://www.jianshu.com/p/c9f6d55288c0
16) 运维实战案例之文件已删除但空间不释放问题解析 https://blog.csdn.net/weixin_34175509/article/details/90071517
17) 解决ganglia中无法删除不用图像的方法 https://www.xuebuyuan.com/968126.html
18) 我想使用linux的crontab每天对crontab内容备份 https://zhidao.baidu.com/question/38195391.html
19) Windows主机与Linux服务器之间传输文件-xftp4软件实现 https://blog.csdn.net/qq_28093585/article/details/78759002
20) 【Linux安全】查看是否存在特权用户以及是否存在空口令用户 https://blog.csdn.net/qq_41781322/article/details/90517199
如何查询linux系统中所有用户的用户名和密码 https://zhidao.baidu.com/question/264138406146792045.html
21) Jenkins的数据迁移这块的内容 通过 备份文件 恢复/迁移 gitlab https://www.cnblogs.com/straycats/p/7702271.html
22) 基于 Python3 的开源堡垒机 Jumpserver v1.0正式发布 http://www.178linux.com/92454
jumpserver 官方文档 https://docs.jumpserver.org/zh/docs/introduce.html
23) Linux 下清空或删除大文件/大量文件的几种方法 https://blog.csdn.net/sd4493091/article/details/80414053
24) 在python中执行shell命令的6种方法 https://cloud.tencent.com/developer/news/257058
25) shell里的md5sum生成的结果为什么与程序生成的不一样 https://blog.csdn.net/liuxiao723846/article/details/51555530
26) 使用awk和sed获取文件奇偶数行的方法总结 https://www.cnblogs.com/kevingrace/p/10540374.html
27) linux下迁移用户home下主目录 https://www.iteye.com/blog/tdcq-2026567 有用
28) centos 6.5安装glances https://www.cnblogs.com/cyq19860102/articles/5732225.html
yum install -y epel*
yum install python-pip python-devel -y
yum install –y glances -y

centos7 安装 glances 直接 yum -y install glances

29) 调用 ganglia的接口
http://10.10.2.156:8080/ganglia/api/v2/metrics
Ganglia api接口安装(python版) https://blog.csdn.net/u010180815/article/details/77499015

30) 分享一个实用脚本--一键获取linux内存、cpu、磁盘IO等信息 https://www.toutiao.com/i6754887380399849998/
31) mikoomi -Zabbix监控Apache Hadoop插件/模板 (翻译)
https://blog.51cto.com/songknight/1374152
32) 端口状态 LISTENING、ESTABLISHED、TIME_WAIT及CLOSE_WAIT详解,以及三次握手,滑动窗口
https://blog.csdn.net/zzhongcy/article/details/38851271
33)


sql:
1)30条书写高质量SQL的建议 https://www.toutiao.com/i6808037495419175438/
2)SQL必知必会 https://time.geekbang.org/column/intro/192
3)Sqlite和mysql的区别及优缺点 https://www.cnblogs.com/zgq123456/p/10129052.html
4) mysql连接数过多 解决方案 https://www.cnblogs.com/lazytomato/p/7428100.html
5) mysql查看没有主键的表 https://blog.csdn.net/gxk1992/article/details/78983486
6) 查询mysql中没有主键的表 https://blog.csdn.net/qq_35440040/article/details/88185508
7) 数据仓库到底需不需要主键? https://blog.csdn.net/qq_39425846/article/details/101370412
数据仓库到底需不需要主键? https://wenku.baidu.com/view/df1461a1be23482fb5da4cc2.html
9) 数仓概念 https://blog.csdn.net/root1994/article/details/93406935
10) tidb Tidb分布式数据库 https://blog.csdn.net/sdmxdzb/article/details/81461777 今天开会到了这个数据库
TiDB 集群安装 https://my.oschina.net/dmdgeeker/blog/718564
10分钟了解TiDB https://blog.csdn.net/aa1215018028/article/details/81387554
11) 为什么代码规范要求SQL语句不要过多的join? https://www.toutiao.com/i6807028762090144267/


hadoop:
1)hadoop集群客户端/tmp目录下临时文件夹处理 https://www.jianshu.com/p/e8401b05c738
2)hive产生很多.staging_hive文件 https://my.oschina.net/cjun/blog/800603?utm_medium=referral
3)spark 参数调优9-Scheduling调度 https://blog.csdn.net/zyzzxycj/article/details/82256244
4)现在url: http://archive.apache.org/dist/hive/ 选择相应的版本 这里面有很多的hive的老版本
5)HIVE 2.3.3安装 https://blog.csdn.net/xinjichenlibing/article/details/87802152
6)linux top命令%st值高是怎么回事 http://www.wufangbo.com/linux-top-st/
7)clickhouse内存溢出 ClickHouse开源数据库 https://www.cnblogs.com/davygeek/p/8018292.html
8)clickhouse 内存不够 https://blog.csdn.net/weixin_42618907/article/details/88557687
9)永辉的线上用的cdh tarball的方式安装的
https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh_package_tarball_54.html#concept_h44_r1n_h5
10)CDH 安装配置指南(Tarball方式) //这个链接很重要
https://www.cnblogs.com/fanshudada/p/10024909.html
11)Hadoop CDH四种安装方式总结及实例指导
https://blog.csdn.net/xfg0218/article/details/52490971
12)hadoop的启动和停止命令 https://blog.csdn.net/xianpanjia4616/article/details/87696925
13)CDH6离线安装 https://www.cnblogs.com/mylovelulu/p/10384732.html
14)一篇文章学会使用 nmon https://blog.csdn.net/gorky1112/article/details/80848611
15)clush命令 https://blog.csdn.net/fanren224/article/details/73320743
16)在apache社区提问题 如何向开源社区提问题 https://blog.csdn.net/weixin_34356310/article/details/90101161
17)hadoop论坛: http://www.aboutyun.com/forum-53-1.html
18)Hadoop性能调优总结(一)https://blog.csdn.net/chndata/article/details/46003399
19)DataX介绍 https://www.cnblogs.com/shujuxiong/p/9253455.html
20)Hadoop Shell命令 http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html#get
我们用 -ignoreCrc 去忽略 选项复制CRC校验失败的文件
21)Mondrian开源OLAP引擎详解 https://blog.csdn.net/zyc88888/article/details/80311014
22)什么情况下kafka消费者组的状态会为dead死亡状态?如何避免? https://www.orchome.com/1367
23)broker存放offset是kafka从0.9版本开始,提供的新的消费方式。原因是zookeeper来存放,还是有许多弊端,不方便灵活控制,效率不高。
https://blog.csdn.net/camel84/article/details/82433075
24)王义飞的 博客 https://blog.csdn.net/bluedraam_pp
里面有些 sql 的实验场景
25)Hadoop集群下线节点 https://blog.csdn.net/bigdatahappy/article/details/9330873
26)Hadoop集群datanode磁盘不均衡的解决方案 https://www.cnblogs.com/Richardzhu/p/5807917.html
27)ClickHouse概述 https://www.jianshu.com/p/350b59e8ea68
28)中文官方文档 https://clickhouse.yandex/docs/zh/
Clickhouse初体验 https://www.jianshu.com/p/80ce4136fdce
clickhouse 基础知识 https://www.jianshu.com/p/a5bf490247ea
29)kafka开启JMX https://www.jianshu.com/p/de4b4cbb0f3c
30)Spark:部署和standalone配置调优 https://www.cnblogs.com/xuejianbest/p/10285014.html
31)Apache Kafka监控与调优 https://baijiahao.baidu.com/s?id=1610644333184173190&wfr=spider&for=pc
32)Hdfs的数据磁盘大小不均衡如何处理 https://blog.csdn.net/rlnLo2pNEfx9c/article/details/79545436
33)在spark导入数据的时候报错,因为导入数据为压缩文件 这样的话,需要修改配置文件
https://blog.csdn.net/stark_summer/article/details/48375999
34)ClickHouse 用户名密码设置 https://www.jianshu.com/p/e339336e7bb9
35)Impala shell详解 https://www.cnblogs.com/zlslch/p/6785596.html
36)Kylin介绍 (很有用) https://www.cnblogs.com/honey01/p/8351145.html
37)CLICKHOUSE创建zabbix监控 https://www.jianshu.com/p/de0c9b3bb40c
Prometheus + Clickhouse + Grafana 架构安装 https://www.jianshu.com/p/4f3c6bbbbfa9
38)CDH 6系列(CDH 6.0.0、CHD 6.1.0等)安装和使用 https://blog.csdn.net/With__Sunshine/article/details/88632359 此贴超神
CDH6.0.0详细安装教程及所遇到的问题 https://blog.51cto.com/pizibaidu/2174297?cid 安装的很详细
CentOS7安装部署CDH6.1.0 https://blog.csdn.net/ITshu/article/details/87165409 这个也不错
39)Palo 是百度自研的基于 MPP 的交互式 SQL 数据仓库,主要用于解决报表和多维分析。 https://baijiahao.baidu.com/s?id=1605927162987940647&wfr=spider&for=pc
40)【解决】Spark运行时产生的临时目录的问题 https://blog.csdn.net/kwu_ganymede/article/details/49094881
https://www.cnblogs.com/linxuezhang/p/6008122.html
https://www.cnblogs.com/huaxiaoyao/p/5085511.html
41) Centos7.6部署CDH6.1.0大数据平台教程 https://www.jianshu.com/p/f804bd587d95
42) kafka rebalance 部分分区没有owner https://www.cnblogs.com/dongxiao-yang/p/6234673.html?utm_source=itdadao&utm_medium=referral
43) 集群突发流量部分kafka broker不可用排查 https://blog.csdn.net/softwareyyb/article/details/84076166
44) Hadoop之MR的调优性能 https://blog.csdn.net/liao272549164/article/details/40654425
45) hadoop 程序在运行时 reduce过程卡在某个进度不动的问题 https://blog.csdn.net/xp152167/article/details/52886111
46) 一次因为数据问题引起的reduce被卡住streaming作业问题排查 https://blog.csdn.net/bigdatahappy/article/details/44514219
47) yarn中资源调度fair schedule详解 https://blog.csdn.net/sinat_29581293/article/details/58143159
48) HadoopWeb界面:Hadoop Non DFS Used concept https://blog.csdn.net/u014297175/article/details/48679321
49) hive把本地的数据文件load导入到表 https://blog.csdn.net/u010002184/article/details/89605107
50) spark 资源大小分配与并行处理 https://www.jianshu.com/p/7029a39cefc2
51) 带你涨姿势的认识一下 Kafka https://www.toutiao.com/i6748686597241176588/ // 这个链接中,有很多的对参数的新的解释,准备一下,放到我的笔记中
52) presto的安装部署 https://blog.csdn.net/weixin_41008393/article/details/90269228
Presto架构及原理 https://www.cnblogs.com/tgzhu/p/6033373.html
53) presto web查询页面 yanagishima 安装 https://blog.csdn.net/weixin_40809627/article/details/86023000
https://github.com/zhaolianchao/yanagishima
54) Spark Web UI详解 http://blog.csdn.net/qq_27639777/article/details/81069893
55) Clickhouse优缺点及性能情况 https://blog.csdn.net/lovewebeye/article/details/102739939
56) Hive之——Thrift服务 https://blog.csdn.net/l1028386804/article/details/88636689
优先级高
https://blog.51cto.com/2951890/2170588
57) ClickHouse学习笔记 https://www.cnblogs.com/grapelet520/p/11280972.html
58) hive on tez 的安装 https://blog.csdn.net/weixin_41753664/article/details/86525828
Hive 2.x集成Tez0.9.0引擎指南(Hive-on-Tez) https://blog.csdn.net/gobitan/article/details/85109644
Hive,Hive on Spark和SparkSQL区别 https://www.cnblogs.com/lixiaochun/p/9446350.html
CDH环境下安装Tez(Hive on Tez ) https://www.jianshu.com/p/3c9f1963ac02
59) kafka集群选择多少topic和partition最合适 https://blog.csdn.net/shijinghan1126/article/details/88373882
60) Phoenix 4.14.0 hbase的 由于HBase数据库只提供了Java和shell两种接口,并不支持SQL,所以诞生了Phoenix 工具。 // 这个必须要会 后面需要在测试环境自己测试
HBase表结构和Phoenix 使用 https://www.jianshu.com/p/2bde63414659
Phoenix的安装使用与SQL查询HBase https://www.cnblogs.com/frankdeng/p/9536450.html
Phoenix安装与使用文档超详细步骤 https://www.cnblogs.com/pigdata/p/10305585.html
Phoenix安装与两种方式使用 https://blog.csdn.net/wangpei1949/article/details/79563549
HBase表结构和Phoenix 使用 https://www.jianshu.com/p/2bde63414659
61) Zeppelin初体验: https://www.jianshu.com/p/ed26b373f0b5
Apache Zeppelin是什么? https://www.cnblogs.com/wangsongbai/p/9116146.html 如果还可以写Hive-SQL,Spark-SQL呢?
62) Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行。airflow提供了丰富的命令行工具用于系统管控,而其web管理界面同样也可以方便的管控调度任务,并且对任务运行状态进行实时监控,方便了系统的运维和管理。
https://www.cnblogs.com/cord/p/9450910.html
63) hbase Region split policy 分区 分裂策略 算法 https://blog.csdn.net/fei33423/article/details/78023614
64) dr.elephant 环境搭建及使用详解 https://blog.csdn.net/xwc35047/article/details/73614657 ***** 这个也很重要 要看看
Dr-elephant安装说明文档 https://www.jianshu.com/p/a1c2c2efe792 金灿按照这个来的 成功了 默认来的
65) hive 中文字符集乱码的问题 commit 的时候 https://www.cnblogs.com/qingyunzong/p/8724155.html
66) dr.elephant 环境搭建及使用详解 https://blog.csdn.net/xwc35047/article/details/73614657
开源项目Dr.Elephant http://wenda.chinahadoop.cn/question/2950
Hadoop和Spark性能监控工具Dr. Elephant的编译、部署及使用 https://www.jianshu.com/p/7bd9a507d21e
67) Tez学习笔记 --- Tez与MapReduce原理与分析 https://blog.csdn.net/u012965373/article/details/77749690
68) 记一次SNN回放EditsLog异常后的宕机恢复过程(上) https://sq.163yun.com/blog/article/172825993223573504
记一次SNN回放EditsLog异常后的宕机恢复过程(上) https://sq.163yun.com/blog/article/172825993223573504
记一次SNN回放EditsLog异常后的宕机恢复过程(下) https://sq.163yun.com/blog/article/172826660353007616
hadoop namenode启动失败 https://www.cnblogs.com/yjt1993/p/10476933.html
Hadoop运维笔记 之 Namenode异常停止后无法正常启动 https://blog.csdn.net/xiaoshunzi111/article/details/50625061
Hadoop运维笔记 之 Namenode异常停止后无法正常启动 https://www.php.cn/mysql-tutorials-134747.html
69) hive(七)hive-运行方式、GUI接口、权限管理 https://www.cnblogs.com/benjamin77/p/10297544.html
70) Apache Ranger及Hive权限控制 https://www.jianshu.com/p/d9941b8687b7
71) Hadoop datanode隔一段时间就挂掉 报错:java.lang.OutOfMemoryError: GC overhead limit exceeded
https://blog.csdn.net/dehu_zhou/article/details/81557950
72) hadoop namenode启动失败 https://www.cnblogs.com/yjt1993/p/10476933.html
// 从报错来看,,是获取edit log日志出错。说白点,就是namenode元数据破坏了,需要修复。
73) Kafka跨集群同步工具——MirrorMaker https://blog.csdn.net/gdutliuyun827/article/details/55263245
74) Presto存活监控脚本 https://blog.csdn.net/hjw199089/article/details/94493376
75) Presto安装完成之后需要做的 https://www.cnblogs.com/jixin/p/11234861.html
Presto On Yarn 部署示例 http://www.imooc.com/article/286313
Presto必知必会 https://www.2cto.com/net/201609/546062.html
76) Spark动态资源分配 https://blog.csdn.net/maydaysar/article/details/82997106
77) hadoop集群监控总结 https://blog.csdn.net/lin443514407lin/article/details/82797042
78) 对于每个RPC服务监控指标
http://uhadoop-mzwc2w-master2:50070/jmx?qry=Hadoop:service=NameNode,name=RpcActivityForPort8020
79)
目前已经把 hivemetastore的连接数监控起来了,具体见: http://zabbix.yonghuivip.com/charts.php?sid=e9474eb68b56e53c&form_refresh=1&fullscreen=0&groupid=0&hostid=10390&graphid=95396
80) https://cloud.tencent.com/edu/learning/live-1950 讲了整个Clickhouse的历史. 在第40分钟专门讲了MergeTree表引擎, 第60分钟有Replicated 和 普通MergeTree 在实现层面的关系;有兴趣额同学可以看一下
81) HBase二级索引建设方案分析比较 https://www.toutiao.com/i6808314863178220036/
82)


工作中的其他工具
1)2016版WPS office怎么控制它自动更新
https://jingyan.baidu.com/article/9158e0000e1f78a25412282b.html
2)镜像下载地址:https://msdn.itellyou.cn/ //这个专门下载windows的
3)教你windows x64和x86区别是什么 http://www.windows7en.com/jiaocheng/29804.html
4)参考连接 https://www.cnblogs.com/AryaZ/p/8404767.html 完全解决 crt连mac本地 出现中文乱码问
5)https://freefilesync.org/download.php FreeFileSync mac 官方下载地址 免费的
6)亿图图示(Edraw Max) for mac v9.4 中文特别版(附安装教程) https://www.jb51.net/softs/592396.html?&_=1524190554030#downintro2
7)安装 Navicat Premium for Mac v12.0.22.0完全免费激活方法之完美破解 https://blog.csdn.net/marswill/article/details/79808416 //完成参考此记录
Navicat Premium Mac版安装及破解攻略 https://www.jianshu.com/p/cbca4016217b
8)eclipse关闭无用启动项、降低eclipse内存占用 https://jingyan.baidu.com/article/925f8cb8f4c328c0dce0566d.html
如何优化eclipse https://jingyan.baidu.com/article/ce09321b2667712bff858f00.html
9)DBeaver之连接hive初体验 https://www.cnblogs.com/haopengchen/p/11269202.html
通过数据库客户端界面工具DBeaver连接Hive https://blog.csdn.net/dkl12/article/details/81381122
// 本人没有测试成功,想连生产上的hive2 但是 hiveserver2 在生产上的后台是可以操作的 DBeaver就不可以操作
10) Mac怎么创建txt文件?教你设置新建txt的快捷键 https://zhuanlan.zhihu.com/p/93009851
11) itellij 使用 maven 打jar包,你百度这个就可以了
https://www.cnblogs.com/acm-bingzi/p/6625303.html
12) CentOS7搭建Shadowsocks服务器 https://www.jianshu.com/p/817813c2ede2
shadowsocks服务器部署实现 https://blog.51cto.com/leoheng/2142850
13) 一键安装 guge BBR 加速 https://zhuanlan.zhihu.com/p/54655414
只需要一个命令 使用root用户登录服务器,执行以下命令:
wget --no-check-certificate https://github.com/teddysun/across/raw/master/bbr.sh && chmod +x bbr.sh && ./bbr.sh
14) Tair学习 Tair是一个高性能、分布式、可扩展、高可靠的Key-Value nosql结构存储系统,专注于高速缓存场景。
https://blog.csdn.net/qwssd/article/details/99716987
https://www.arabidopsis.org
15)


博客链接
1)哥不是小萝莉 kafka 系列也是可以看看的 https://www.cnblogs.com/smartloli/category/694246.html
2)ucloud 的kafka 的 讲解 https://docs.ucloud.cn/analysis/ukafka/index
3) IOPS:每秒读写次数。
吞吐量:每秒读写IO流量。
IO时延:IO提交到IO完成的时间。
理论上, IOPS与吞吐量越大越好,时延越低越好。
https://docs.ucloud.cn/storage_cdn/udisk/introduction/performance/account
5) 香飘叶子博客 中写的spark也是挺不错的 https://blog.51cto.com/xpleaf
6) 从入门到精通 - Fayson带你玩转CDH https://mp.weixin.qq.com/s/XtL6y9J_sbOgX2BYfgTtYA ***** 王金灿推荐的很重要的一个链接 上面基本上都是讲解的cdh的知识点
7) 扎心老铁 博客 https://www.cnblogs.com/qingyunzong/
8)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章