前面安裝這個玩意填了個坑。
同事大佬只給了個單個數據庫的數據下拉,沒說怎麼數據庫之間怎麼拉取關聯數據。我搜搜
沒找到啊。hive -e這種寫法怎麼不支持在sh文件中寫入文件呢???懵逼
desc formatted student;
查看錶詳細信息,包括hdfs位置,但是查到了我也懵逼啊,如何他們之間進行關聯呢??
問題又重現了,如何讓查到的數據直接存儲到文件
正如下面的,這句話在python中執行腳本是不存入的,換成sh腳本也不行啊。woc
hive -e"select * from student;">student.txt
可以的,但是下面多出了兩行無關的內容,如下:怎麼去掉呢?
WARN: The method class org.apache.commons.logging.impl.SLF4JLogFactory#release() was invoked.
WARN: Please see http://www.slf4j.org/codes.html#release for an explanation.
直接df後[:-2]就可以解決,小明哥還是厲害啊。
至此,拉取數據(點擊日誌)的部分已經結束,下面需要寫個定時任務。不難。每天更新log
在每天凌晨下拉昨天的日誌記錄,然後進行模型訓練,召回。
For Video Recommendation in Deep learning QQ Group 277356808
For Speech, Image, Video in deep learning QQ Group 868373192
I'm here waiting for you