原创 STI比賽任務二:【答案檢驗基線方案以及思路分享】

完整代碼:https://aistudio.baidu.com/aistudio/projectdetail/5194830 子任務 2:答案檢驗 任務概述 子任務1涉及的答案抽取過程主要依賴答案片段與搜索query間語義相關性,卻無法

原创 百度搜索首屆技術創新挑戰賽:搜索模型推理優化

比賽鏈接:https://aistudio.baidu.com/aistudio/competition/detail/674/0/task-definition 賽題背景 近年來基於Transformer模型結構的預訓練語言模型技術快速

原创 文本分類微調技巧實戰2.0

訊飛比賽答辯結束,筆者和小夥伴們參加了一些訊飛的比賽,今年訊飛文本分類比賽相比去年更加多元化,涉及領域、任務和數據呈現多樣性,聽完各位大佬的答辯之後,結合之前經驗和以下賽題總結下文本分類比賽的實戰思路。 1 訊飛文本分類賽題總結 1.1 非

原创 Kaggle 專利匹配比賽賽後總結

比賽簡介 在專利匹配數據集中,選手需要判斷兩個短語的相似度,一個是anchor ,一個是target ,然後輸出兩者在不同語義(context)的相似度,範圍是0-1,我們隊伍id爲xlyhq,a榜rank 13,b榜ran12,非常感謝@

原创 【CCF2022】Web攻擊檢測與分類識別 baseline

線下cv acc:0.97 線上 應該0.6+ 1 賽題介紹 賽題名稱: Web攻擊檢測與分類識別 賽程規劃: 參賽報名:2022年8月20日(10點)-10月10日(24點) 線上參賽:2022年8月27日(10點)-10月16日(2

原创 字節跳動安全Ai挑戰賽-基於文本和多模態數據的風險識別總結

本次比賽是最近比較火熱的多模態比賽,業務和數據比較接近真實場景,任務比較有趣。我們隊伍“石碑村”,隊員有華仔、致Great,最終決賽取得第五名成績,下面主要給大家分享下我們隊伍的建模思路和方案,希望能夠對大家有所幫助。 1 初賽方案 1.1

原创 基於Trie 樹實現簡單的中文分詞

中文分詞簡介 中文分詞是中文自然語言處理的基礎,中文分詞的正確率如何直接影響後續的詞性標註(也有些詞性標註算法不需要事先分詞,但標註效果往往比先分詞後標註差),實體識別、句法分析、語義分析。常用的分詞方法主要有依賴詞典的機械分詞和序列標註方

原创 NLP比賽推送

1 CCL漢語學習者文本糾錯比賽 比賽簡介 (Chinese Learner Text Correction,CLTC)旨在自動檢測並修改漢語學習者文本中的標點、拼寫、語法、語義等錯誤,從而獲得符合原意的正確句子。近年來,該任務越來越受到關

原创 【NLP基礎】英文關鍵詞抽取RAKE算法

RAKE簡介 RAKE英文全稱爲Rapid Automatic keyword extraction,中文稱爲快速自動關鍵字提取,是一種非常高效的關鍵字提取算法,可對單個文檔進行操作,以實現對動態集合的應用,也可非常輕鬆地應用於新域,並且在

原创 芒果TV商品意圖識別top3思路分享

比賽簡介 主辦方提供了商品名稱和用戶query數據供選手進行模型訓練,希望選手能夠設計出一套高效、精準的商品意圖識別模型,以幫助提升電商搜索的效果,改善顧客的購買體驗。 其中提供了兩份數據,一個是goods_data.csv是商品名稱數據,

原创 中文文本糾錯任務簡介

任務簡介 中文文本糾錯是針對中文文本拼寫錯誤進行檢測與糾正的一項工作,中文的文本糾錯,應用場景很多,諸如輸入法糾錯、輸入預測、ASR 後糾錯等等,例如: 寫作輔助:在內容寫作平臺上內嵌糾錯模塊,可在作者寫作時自動檢查並提示錯別字情況。從

原创 librosa音頻處理教程

Librosa簡介 Librosa是一個 Python 模塊,用於分析一般的音頻信號,是一個非常強大的python語音信號處理的第三方庫,根據網絡資料以及官方教程,本文主要總結了一些重要且常用的功能。 # 安裝 !pip install l

原创 年度最高獎金【雙百萬】:2021年全國人工智能大賽開賽啦 賽道一:AI+無線通信 一、初賽階段 賽道二:AI+視覺特徵編碼

點擊閱讀原文可到大賽官網:https://naic.pcl.ac.cn/landingpage/2021/index.html 賽道一:AI+無線通信 賽題鏈接:https://www.heywhale.com/home/competi

原创 機器學習 Fbeta-Measure 指標詳解

在江西VTE風險預測和山東案件自動分發比賽中,筆者見到了F2-Score評估指標,此類指標與以往F1-Score不同,出題方選擇使用不同的beta權重來更加側重Precision或者Recall某一指標,所以在實際中常常需要根據具體情況做

原创 時間序列入門

時間序列定義 時間序列(英語:time series)是一組按照時間發生先後順序進行排列的數據點序列。通常一組時間序列的時間間隔爲一恆定值(如1秒,5分鐘,12小時,7天,1年),因此時間序列可以作爲離散時間數據進行分析處理 時間序列特性