原创 機器學習--Logistic迴歸之梯度上升算法

一、Logistic迴歸與梯度上升算法 Logistic迴歸是衆多分類算法中的一員。通常,Logistic迴歸用於二分類問題,例如預測明天是否會下雨。當然它也可以用於多分類問題,不過爲了簡單起見,本文暫先討論二分類問題。首先,讓我們來了解

原创 大數據類面試題二

一、關係型數據庫和非關係型數據庫比較 關係型數據庫:Mysql,Oracle 非關係型數據庫:Redis,MongoDB,HBASE 類SQL數據庫:hive 關係型數據庫(Mysql和Oracle) 1.表和表、表和字段、數據和數據存在

原创 談談MySQL中常用的強制性操作

對於經常使用oracle的朋友可能知道,oracle的hint功能種類很多,對於優化sql語句提供了很多方法。同樣,在mysql裏,也有類似的hint功能。下面介紹一些常用的。 一、強制索引 FORCE INDEX SELECT * F

原创 數據分析報告包含哪些指標?

1、首先你需要根據活動目標確定你的目標達成率,完成百分比,提升百分比。這是這次活動取得的成果,在一開始就寫。如: 本次活動 uv 24w(20w,↑ 20%),uv價值 3.6(3,↑ 20%) 2、如果是發週報、月報之類的數據,接下來就

原创 進行數據分析時如何提高留存?

一、留存與流失       用戶留存率,這同樣是互聯網創業者們不得不共同關注的一大核心指標。互聯網產品的“留存用戶”是相對於“流失用戶”的一個概念。歸根到底,真正的用戶增長就是增長與流失的差值。 造成用戶留存率低的原因可能是以下幾種: 1

原创 如何創造正確的產品?

一、什麼是PMF?         PMF(Produce Market Fit),探尋產品與市場的完美契合。        有些人,創業的目標就是“把我腦海中的那個產品做出來”。在他們的想象中,這必將是一個全世界人人想要的產品。似乎接下

原创 認識PV、UV、UV價值

   PV(訪問量):即Page View, 具體是指網站的是頁面瀏覽量或者點擊量。    UV(獨立訪客):即Unique Visitor,訪問您網站的一臺電腦客戶端爲一個訪客。根據IP地址來區分訪客數,在一段時間內重複訪問,也算是一個

原创 Python中insert、append、extend函數的分析

insert()、append()、extend()都是在列表的尾部插入數據。 但是insert()不可對二維的列表進行操作。 一、insert() 1、函數描述 insert() 函數用於將指定對象插入列表的指定位置。 2、函數語法

原创 SQL去重:distinct和row_number()over()的區別

1  前言 在咱們編寫 SQL 語句操作數據庫中的數據的時候,有可能會遇到一些不太爽的問題,例如對於同一字段擁有相同名稱的記錄,我們只需要顯示一條,但實際上數據庫中可能含有多條擁有相同名稱的記錄,從而在檢索的時候,顯示多條記錄,這就有違咱

原创 什麼是增長黑客?

一、什麼是增長黑客? 增長黑客,這是一羣以數據驅動營銷、以市場指導產品,通過技術化手段貫徹增長目標的人。他們通常既瞭解技術,又深諳用戶心理,擅長髮揮創意、繞過限制,通過低成本的手段解決初創公司產品早起的增長問題。 二、增長目標 增

原创 大數據類面試題一

一、面試中linux常見的20個命令 1.查找文件 find / -name filename.txt 根據名稱查找/目錄下的filename.txt文件。 2.查看一個程序是否運行 ps –ef|grep tomcat 查看所有有關to

原创 大數據類面試二

一、關係型數據庫和非關係型數據庫比較 關係型數據庫:Mysql,Oracle 非關係型數據庫:Redis,MongoDB,HBASE 類SQL數據庫:hive 關係型數據庫(Mysql和Oracle) 1.表和表、表和字段、數據和數據存在

原创 HDFS dfs常用命令大全

根據官方文檔的提示我們能夠知道可以通過shell的方式訪問hdfs中的數據,對數據進行操作。那麼首先讓我們看一下hdfs的版本,使用命令hdfs version。 -mkdir 創建目錄 Usage:hdfs dfs -mkdir [-

原创 SQLite的系統表SQLITE_MASTER

  一、SQLITE_MASTER的簡介        SQLite數據庫中有一個內置表,名爲SQLITE_MASTER,此表中存儲着當前數據庫中所有表的相關信息,比如表的名稱、用於創建此表的sql語句、索引、索引所屬的表、創建索引的s

原创 數據處理時如何解決噪聲數據?

一、什麼是噪聲        在機器學習中我們在獨立隨機抽樣的時候會出現一些搞錯的信息,這些錯誤的數據我們稱之爲雜訊(或者噪音  noise),一般可以歸結爲一下兩種(以二分爲例): 輸出錯誤: 1.同樣的一筆數據會出現兩種不同的評判