原创 百分點認知智能實驗室:如何打造工業級的機器翻譯

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

原创 政務數據安全管理實踐

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

原创 基於數據驅動的銷量預測模型建構

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

原创 百分點大數據技術團隊:萬億級大數據監控平臺建設實踐

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

原创 百分點認知智能實驗室:基於不完全標註樣本集的信息抽取實踐

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

原创 百分點認知智能實驗室:智能對話技術應用和實踐

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

原创 互聯網 輿情繫統的架構實踐

1. 輿情分析的業務特點1.1 信源覆蓋廣輿情分析的數據源幾乎覆蓋所有互聯網公開信息,如常見的資訊網站和社交媒體:新華網、騰訊新聞、百度貼吧、論壇、新浪微博、微信、博客等,近幾年興起的自媒體平臺和短視頻等流媒體應用:小紅書、抖音、快手等,人

原创 NLP模型開發平臺在輿情分析中的設計和實踐(下)

一、背景介紹本文中重點介紹NLP模型開發平臺在百分點輿情洞察系統(MediaForce)中的設計和實踐。MediaForce是一款面向政企客戶,提供信息監測、智能分析等多功能的一款SaaS產品。從2014年發展至今,客戶標準化的建立以及數據

原创 信息抽取在知識圖譜構建中的實踐與應用

編者按 坦率地講,各行各業對如何落地知識圖譜這個問題,或多或少都心存一絲疑惑。人類知識和機器可理解的知識有什麼區別?知識圖譜如何突破自身侷限性,從“萬事通”轉爲“科學家”?百分點認知智能實驗室在實踐探索中,通過利用自然語言處理技術獲取結構

原创 基於深度遷移學習的多語種NLP技術原理和實踐

編者按 百分點是國內最早佈局國際市場、併成功探索出一條海外之路的數據智能技術企業,目前百分點已服務海外多個國家,向亞洲、非洲、拉美等多個國家和地區提供國家級數據智能解決方案,幫助當地政府實現數字化和智能化轉型,對當地產生深遠影響。全球存在

原创 基於動態知識圖譜的大規模數據集成技術

編者按 數據煙囪、信息孤島已成爲政府、企業在數據應用中不可迴避的問題,都在尋求各種方案打破現狀,實現數據融合已成當務之急。百分點在經歷多個大型數據集成項目洗禮後,已經達到了業界領先水平,通過利用動態知識譜圖技術,將模型與數據進行解耦,在業

原创 智能問答中的對抗攻擊及防禦策略

編者按 深度學習模型應用廣泛,但其自身有一定的“脆弱性”,即模型輸入的微小改動,在不影響人判斷的情況下,可能使模型的輸出出錯,這個過程被稱爲對模型的對抗攻擊。針對對抗攻擊的研究,早期集中在圖像領域,近幾年,文本領域也逐漸增多。2019年,

原创 機器翻譯是如何煉成的(下)

2013年~2014年不溫不火的自然語言處理(NLP)領域發生了翻天覆地的變化,因爲谷歌大腦的Mikolov等人提出了大規模的詞嵌入技術word2vec,RNN、CNN等深度網絡也開始應用於NLP的各項任務,全世界NLP研究者歡欣鼓舞、躍躍

原创 機器翻譯是如何煉成的(上)

語言的分歧是使人類大家庭破裂、分化成敵對陣營的唯一原因,或至少是主要原因。 ——語言學家柴門霍夫 文字,是人類爲了表達信息而創建的一套符號系統。文字的使用,使人類知識更新的速度產生了翻天覆地的變化,人類通過文字來表達信息、交換信息,一代一代

原创 BERT的正確使用姿勢

自2018年google發佈開源預訓練模型BERT之後,一時席捲業內十餘項任務的state-of-art,引得無數NLPer聚焦於此。對於自然語言處理領域而言,BERT的出現,徹底改變了預訓練詞向量與下游具體NLP任務的關係,因此BERT被