大數據應用概述

1.UGC:用戶生成內容
2.大數據的特徵:
體量大(volume)、多樣性(variety)、價值密度低(value)、速度快(velocity)
3.搜索引擎的分類
大搜索
垂直搜索
基於語義的搜索
也可以分爲元搜索引擎和集成搜索引擎
4.搜索引擎的基本步驟
爬取網頁信息→信息獲取→分詞→外鏈分析→數據存儲→結果獲取→相關度排序
5.爬蟲的要求
全面、快速、非重
爬蟲的限制
有限的帶寬和無限的網絡、無法確定更新狀態、不斷變化的內容和URL、需要有禮貌的訪問(不能給人家的服務器帶來太大壓力)
6.推薦系統的基本算法
CF協同過濾算法
①基於用戶的過濾
易於實現但頻繁計算
②基於物品的過濾
不需要頻繁計算,不容易實現
聚類及相似度算法
①聚類算法:聚類的結果使同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大
關聯規則算法
7.輿情繫統架構
輿情規劃→輿情采集→數據存儲→輿情分析→形成輿情報告
8.社交網絡的特點
海量用戶、實時數據、完整數據
社交網絡存在的挑戰
自然語言的處理技術

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章