前面安装这个玩意填了个坑。
同事大佬只给了个单个数据库的数据下拉,没说怎么数据库之间怎么拉取关联数据。我搜搜
没找到啊。hive -e这种写法怎么不支持在sh文件中写入文件呢???懵逼
desc formatted student;
查看表详细信息,包括hdfs位置,但是查到了我也懵逼啊,如何他们之间进行关联呢??
问题又重现了,如何让查到的数据直接存储到文件
正如下面的,这句话在python中执行脚本是不存入的,换成sh脚本也不行啊。woc
hive -e"select * from student;">student.txt
可以的,但是下面多出了两行无关的内容,如下:怎么去掉呢?
WARN: The method class org.apache.commons.logging.impl.SLF4JLogFactory#release() was invoked.
WARN: Please see http://www.slf4j.org/codes.html#release for an explanation.
直接df后[:-2]就可以解决,小明哥还是厉害啊。
至此,拉取数据(点击日志)的部分已经结束,下面需要写个定时任务。不难。每天更新log
在每天凌晨下拉昨天的日志记录,然后进行模型训练,召回。
For Video Recommendation in Deep learning QQ Group 277356808
For Speech, Image, Video in deep learning QQ Group 868373192
I'm here waiting for you