基於Map-Reduce的大規模分詞服務搭建

原創

着凉的石头

2020-02-22 10:11

目前項目中，分詞的主要工作方式可以分爲online和offline，online的方式主要是提供服務接口供應用程序來進行調用，比較側重併發和速度，offline的工作方式主要是一次性的，調用完成就釋放，適合一次處理大量文章，較online的工作方式，省去了網絡傳輸的代價，效率要高一些，但是不是很靈活，不能實現良好的易用性。

在數據挖掘任務中，在語料庫龐大的條件下，比如千萬或者億級別的文檔，單機處理基本不能滿足所需要的性能，需要進行並行化處理，但是一般分詞程序會比較依賴詞庫或者其它的鏈接庫等，部署起來會稍微麻煩點，所以爲了方便部署，採用了online的方式來提供分詞服務，系統簡單的設計如下：

分詞服務

分詞服務由thrift封裝，後臺由c++實現，對外提供java和python的接口，客戶端主要採用java實現並封裝成jar方便部署和調用，分詞服務可以根據Map節點的數量部署到多臺機器上。

語料

語料庫存放在hdfs上，按照路徑進行存取，可以根據需求調整hdfs塊的大小，數據格式爲：docId,content

MR調用

在Map起始階段，新建一個客戶端，然後對讀取的文檔進行分詞、統計詞頻，輸出docId^Aword^Bfreq^Aword^Bfreq，最後再釋放客戶端的連接。

Reduce階段也可以作進一步的處理，比如詞頻統計、詞典構建等，也可以直接將Map的結果直接輸出。

着涼的石頭

發佈了45 篇原創文章 · 獲贊 16 · 訪問量 11萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Hive存儲過程實現-hpsql

1. 什麼是hpsql 目前版本的hive中沒有提供類似存儲過程的功能，使用Hive做數據開發時候，一般是將一段一段的HQL語句封裝在Shell或者其他腳本中，然後以命令行的方式調用，完成一個業務或者一張報表的統計分析。好消息是，

2023-08-01 00:03:02

Zeppelin Interpreter 模式設置 shared', 'scoped', 'isolated

問題場景：再運行spark任務的時候一直是一個yarn資源，如果允許多個任務的時候會有影響！怎麼樣變成每個note允許有單獨的資源了。這就是Zeppelin Interpreter 模式設置 shared', 'scoped', 'is

2023-03-31 00:04:02

Milvus Committer 嵇斌：參與開源是一種對自己的投資

✏️ 編者按： 2022 年 3 月，嵇斌在社區一致投票通過後正式加入了 Milvus committer 的行列。在過去 3 個月的時間裏

2022-04-30 06:31:18

RPC框架實現(一) Protobuf的rpc實現

概述 RPC框架是雲端服務基礎框架之一，負責雲端服務模塊之間的項目調用，類似於本地的函數調用一樣方便。常見的RPC框架配帶的功能有：編解碼協議。比如protobuf、thrift等等。服務發現。指服務提供者更新接口後，服務使用者如何知

2021-12-25 21:21:19

美團跨端一體化富文本管理技術實踐

爲了減少產品和前端開發人員之間的矛盾，不斷降本提效，美團醫藥技術部構建了跨端一體化富文本管理平臺Page-佩奇。本文系統介紹了該平臺的定位、設計思路、實現原理以及取得的成效。希望這些實戰經驗與總結，能給大家帶來一些啓發或幫助。一、引

2021-12-25 21:20:25

Python鏈接Hive讀取數據的幾種方式

以下有幾種鏈接方式, 標題均包含了官方鏈接, 詳情大家可點擊查看注意: Python鏈接Hive和Python版本和包版本有很大關係, 建議大家通過Anaconda進行管理, 歡迎閱讀Mac下Anaconda的安裝和使用 thrift,

2021-09-28 09:27:13

解析 Nebula Graph 子圖設計及實踐

本文首發於 Nebula Graph 公衆號 NebulaGraphCommunity，Follow 看大廠圖數據庫技術實踐。前言在先前的 Query Engine 源碼解析中，我們介紹了 2.0 中 Query Engine 和

2021-06-25 21:39:16

造成thrift 編譯構建項目失敗的原因之一：thrift環境變量沒設置

造成thrift 編譯構建項目失敗的原因之一：thrift環境變量沒設置參考文章：（1）造成thrift 編譯構建項目失敗的原因之一：thrift環境變量沒設置（2）https://www.cnblogs.com/jingping/

2021-06-23 09:26:58

Zetta：HBase 用戶的新選擇 —— 當知乎遇上 TiDB 生態

本篇文章整理自知乎在線基礎架構負責人白瑜慶在 PingCAP Infra Meetup 上的演講實錄。本文講述了知乎與 TiDB 的淵源，介紹了一款基於 TiDB 生態研發的開源產品 Zetta，能夠在規避 HBase 性能問題同時，減小

2021-05-26 21:09:13

Java高併發學習筆記（三）：類加載

1 來源來源：《Java高併發編程詳解多線程與架構設計》，汪文君著章節：第九、十、十一章本文這三章的筆記整理。 2 類加載簡介類加載的過程可以簡單分爲三個階段：加載階段：主要負責查找並且加載類的二進制數據文件連接階段：可

2021-05-15 21:24:46

如何在沒有hive-site.xml的情況下將Spark SQL連接到遠程Hive Metastore

For Spark 1.x, you can set with : System.setProperty("hive.metastore.uris", "thrift://METASTORE:9083");

2021-04-09 21:23:52

日拱一卒系列（聊一聊jdk序列化）

1.引子我們在開發一些網絡應用，客戶端服務器模式應用場景，需要考慮數據如何在網絡中進行傳遞；應用微服務化以後，需要考慮請求報文、響應報文如何在服務之間傳遞。像這種跨進程的相互協作，那麼客戶端與服務器之間，服務與服務之間需要有一套彼此都

2021-04-05 21:18:43

[翻譯]微服務設計模式 - 5. 服務發現 - 服務端服務發現

原文地址：https://microservices.io/patterns/server-side-discovery.html 服務之間需要互相調用，在單體架構中，服務之間的互相調用直接通過編程語言層面的方法調用就搞定了。在傳統的分

2021-03-22 21:22:03

Spring Cloud整合Thrift RPC(一) - spring-cloud-thrift-

前言前面幾篇文章有對 ApacheThrift的使用和原理做了介紹。在微服架構流行的今天，自然而然就會想到 SpringBoot和 SpringCloud作爲微服務的基礎框架。然而， SpringCloud從誕生以來，就基於 HTTP

2021-02-06 09:16:13

頭條面試官：說一下RPC 調用和HTTP調用的區別？

很長時間以來都沒有怎麼好好搞清楚RPC（即Remote Procedure Call，遠程過程調用）和HTTP調用的區別，不都是寫一個服務然後在客戶端調用麼？這裏請允許我迷之一笑~Naive！本文簡單地介紹一下兩種形式的C/S架構，先說

php開源社區

2021-02-01 21:26:31

24小時熱門文章

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

最新文章

最新評論文章