Coding and Paper Letter(七十一)

這個系列有點久沒更新,最近事情比較多。後面會繼續堅持資源整理。

文章目錄

1 Coding:

1.R語言包ggcorrplot2,ggplot2的拓展包,類似於corrplot包的功能,用於繪製相關係數圖。在這個系列的第十七篇裏有另一個相關的包,有興趣的同學可以做下比較。

ggcorrplot2

2.R代碼的分析,可重現研究與審查。

CodeDepends

3.簡化你的ONNX模型,ONNX在本系列的六十二篇裏有提到相關的平臺。ONNX是指Open Neural Network Exchange(ONNX,開放神經網絡交換)格式,是一個用於表示深度學習模型的標準,可使模型在不同框架之間進行轉移。

onnx simplifier

4.R語言包quizlite,目標是生成輕量級測驗。

quizlite

5.開放研究網絡(OTN)是一個全球性的,分散的研究人員和機構團體,歡迎任何致力於標準化和整合所有生物特徵數據的人員。 我們以開放科學的原則爲指導,特別是開放方法,開放源代碼和開放數據。

open traits network.github.io

6.其目的是記錄以前在OzUnconf事件中創建的數據集,以及其他有趣且獨特的澳大利亞數據集和資源。

OZdatasets

7.構建一個模型用於識別衛星影像中的作物損失。Python代碼。

crop loss EPAR

8.機器學習用於全球發展。Radiant Earth Foundation是一個非營利組織,其使命是改善開放地理空間資源的發現,訪問,交付和應用,以支持全球開發社區(GDC)。 通過與開發社區,商業和學術專家合作,Radiant Earth Foundation通過集成和利用最新的Earth Observation(EO)和Machine Learning(ML)技術來實現這些目標。

ml4gd

9.regl通過刪除儘可能多的共享狀態來簡化WebGL編程。 爲此,它將WebGL API替換爲兩個基本抽象,資源和命令。

regl

10.R語言包Metrics,用於評估機器學習算法精度的各類指標計算。

Metrics

11.R語言包cgraph,允許在R中創建,評估和區分計算圖。計算圖是通過其(基本)運算分解的多元函數的圖形表示。 圖中的節點表示數組,而邊表示數組之間的依存關係。 將功能表示爲計算圖的優點在於,這可以通過自動微分來區分功能。 “ cgraph”軟件包支持各種功能,包括基本算術,三角函數和線性代數函數。 它通過反向自動微分來區分計算圖。 該軟件包的靈活體系結構使其可用於解決各種問題,包括局部靈敏度分析,基於梯度的優化和機器學習。

cgraph

12.可以在git提交信息中心插入表情。

gitmoji

13.R語言包cubelyr,數據立方體dplyr後端。

cubelyr

14.一個實現數據和ML管道軟件工程最佳實踐的Python庫。

kedro

15.使用樸素貝葉斯,SVM,CNN,LSTM等對推文進行情感分析。

twitter sentiment analysis

16.pygeoapi提供了地理空間數據的API。

pygeoapi

17.pkuseg:一個多領域中文分詞工具包。

pkuseg python

18.R語言包d3.format,R的d3格式接口。

d3.format

19.斯坦福地震數據集(STEAD):用於AI的地震信號全球數據集。

STEAD

20.AGU 2019秋季會議的研討會材料“Best Practices for Developing and Sustaining Your Open-Source Research Software”。

2019 agu oss

21.這些課程材料涵蓋了2019年秋季在哥本哈根大學下半年IT課程。

introdatasci

22.R語言包agroenv,使用各種數據源從地理座標中反演土壤和氣候數據。

agroenv

23.PyTorch Elastic(torchelastic)是一個框架,使分佈式培訓作業能夠以容錯和彈性的方式執行。 它提供了原語和接口供您編寫分佈式PyTorch作業,以便可以彈性地在多臺機器上運行; 也就是說,只要存在最小數量的工作人員,您的分佈式工作就可以啓動,並且可以增長到最大數量的工作人員而無需停止或重新啓動。

elastic

24.R語言包tvthemes,基於您喜歡的電視節目的ggplot2主題和調色板。

tvthemes

25.Colby R用戶組午餐會演講。

rug 2019 12

26.包含NeurIPS 2019論文《使用貝葉斯原理的實踐深度學習》的代碼。

dl with bayes

27.R語言包hdme,包含針對高維測量誤差問題(變量誤差)的懲罰迴歸方法。

hdme

28.R語言包Polymer,目標是提供靈活且直觀的overlay方法(熟悉GIS工作流),但具有任意數量的輸入層。

polymer

29.用於深度學習的AutoML工具包。

autogluon

30.R語言包writexl,便攜式,輕量級的數據框,用於xlsx導出器以用於R

writexl

31.OpenGL教程。

ogl

32.R語言包networkdata,該軟件包包含各種不同的網絡數據集(全部爲igraph格式)。

networkdata

33.帶有Runcharter for Performance信號項目的Shiny App。

RunCharter Shiny

34.二維碼生成器。

qrcode

35.本項目用於存放論文:基於遠程監督的人物屬性抽取研究 的實驗數據。

Distant Supervision for Person Attribute Extraction

36.R語言包googlesheet4,Google Spreadsheets R API(重新啓動googlesheets程序包)。

googlesheets4

37.可視化工具箱,用於精美且發表的圖片。

see

38.柵格數據工具,包括地球物理應用程序和數字高程模型。

gridfour

39.PySAL項目的Docker容器。

docker

40.爲Leaflet提供漂亮的動畫標記聚類功能,Leaflet是用於交互式地圖的JS庫。

Leaflet.markercluster

41.用於Intake的Geopandas插件。

intake geopandas

42.libpysal的網絡測試數據集。

newHaven

43.pysal-mgwr的測試數據集。

clearwater

44.R語言包causalTree,causalTree函數可建立迴歸模型並返回一個rpart對象,該對象是rpart包派生的對象,在由Breiman,Friedman,Olshen和Stone編寫的CART(分類和迴歸樹)中實現了許多想法。 像rpart一樣,causalTree分兩個階段構建二進制迴歸樹模型,但着重於估計異構因果效應。

causalTree

45.“ Python機器學習(第3版)”書代碼存儲庫。

python machine learning book 3rd edition

46.EPFL碩士課程“數據科學網絡之旅”的材料,2019年版。

ntds 2019

47.R語言包ggfittext,ggfittext提供了一個ggplot2 geom,用於將文本放入框中。

ggfittext

48.“使用R學習統計信息”的源文件。

rbook

49.Beamer風格的幻燈片模板集。包含了PowerPoint和Keynote兩套格式。

BeamerStyleSlides

50.使用句法依存分析抽取事實三元組。

fact triple extraction

51.這實現了用於NLU任務的聯合意圖檢測和空缺填充的循環模型。

multiLSTM

52.基於法律裁判文書的事件抽取及其應用。

Event Extraction

2 Paper:

1.Land Use Regression models for 60 volatile organic compounds: Comparing Google Point of Interest (POI) and city permit data/60種揮發性有機物的土地利用迴歸模型:比較Google Point of Interest(POI)和城市許可數據

揮發性有機化合物(VOC)的土地使用迴歸(LUR)模型通常關注土地使用(例如工業區)或運輸設施(例如道路);在這裏,我們結合了城市許可數據和Google Point of Interest(POI)數據中的區域來源(例如加油站),以比較模型的效果。我們使用了來自美國明尼蘇達州明尼阿波利斯市的50個基於社區的採樣地點(2013-2015年)的測量結果,爲60個VOC建立了LUR模型。我們使用了三組自變量:(1)具有土地利用和運輸變量的基本案例模型;(2)從本地營業許可數據中添加區域源變量的模型;(3)使用Google POI數據作爲區域源的模型。帶有Google POI數據的模型效果最好;例如,與許可數據模型(0.42; 0.37)相比,總VOC(TVOC)模型具有更好的擬合優度和基本模型。在小規模緩衝區大小(例如25 m–500 m)的60個VOC中,在超過三分之二的模型中選擇了區域源變量。我們的工作表明,可以使用基於社區的抽樣來開發VOC LUR模型,並且可以通過添加根據業務許可和Google POI數據衡量的區域來源來改進模型。分析VOC的LUR模型,VOC事實上是很難進行遙感反演和站點監測,但是同時VOC又是各類空氣污染的來源之一,這篇文章基於當前的地圖大數據結合城市許可(這裏沒有詳細看具體數據,猜測可能類似國內的規劃許可)進行LUR建模。對於未來的空氣污染製圖研究很有意義。

2.A Novel Framework to Automatically Fuse Multiplatform LiDAR Data in Forest Environments Based on Tree Locations/基於樹位置的森林環境中自動融合多平臺LiDAR數據的新框架

新興的近地光探測和測距(LiDAR)平臺[例如,地面,揹包,移動和無人機(UAV)]已顯示出巨大的森林資源潛力。但是,不同的LiDAR平臺在數據覆蓋範圍或捕獲樹冠下信息方面都有侷限性。多平臺LiDAR數據的融合是該問題的潛在解決方案。由於森林的複雜性和不規則性以及森林林冠下的定位信息不準確,當前的多平臺數據融合仍需要大量的人工工作。在本文中,我們基於每個森林都有唯一的樹分佈模式的假設,提出了一個自動的多平臺LiDAR數據校正框架。提議的框架包括五個步驟,即,單個樹分割,不規則三角網(TIN)生成,TIN匹配,粗校正和精校正。 TIN匹配是從多平臺LiDAR數據中找到相應樹對的必要步驟,它使用基於由單個樹位置組成的三角形相似度的投票策略。通過融合揹包和無人機LiDAR數據以及融合針葉林中的多掃描陸地LiDAR數據來驗證所提出的框架。結果表明,兩種配準實驗均可以達到令人滿意的數據配準精度。此外,當單個樹的分割精度高於80%時,提出的框架對單個樹的分割錯誤不敏感。我們認爲,提出的框架有可能提高在森林環境中準確註冊多平臺LiDAR數據的效率。索引-森林,多平臺光檢測和測距(LiDAR),校正,樹木位置。植物所郭慶華老師團隊的成果,關於新的多平臺LiDAR數據融合校正。LiDAR數據將在未來發揮更多作用。

3.Spatial association between outdoor air pollution and lung cancer incidence in China/中國室外空氣污染與肺癌發病率的空間聯繫

背景:肺癌是中國最常見的癌症。先前的研究表明,肺癌的發病率表現出顯着的空間異質性,並且肺癌與室外空氣污染有關。然而,中國室外空氣污染與肺癌發病率之間的非線性空間聯繫仍不清楚。方法:本研究分析了2013年中國207個縣市男性和女性肺癌發病率與每年PM2.5,PM10,SO2,NO2,CO和O3濃度之間的關係。 GeoDetector q統計量用於檢查室外空氣污染與肺癌發生率之間的非線性空間關聯。結果:在室外空氣污染與肺癌發病率之間的空間關聯中發現了明顯的空間和人口性別異質性。在六種選定的污染物中,二氧化硫對華北地區的肺癌影響最大(女性爲q = 0.154)。在南部,每種污染物對男性或女性的影響均顯着,南部的平均q值爲0.181,大於北部的平均q值(q = 0.154)。此外,污染物對肺癌有明顯的非線性相互作用。在華北地區,SO2和PM2.5之間的相互作用是主要的相互作用,男性的q值爲0.207,女性的q值爲0.334。在南部,主要的交互作用因子在男性的SO2和O3之間以及在女性的SO2和CO之間,q值分別爲0.45、0.232。在華南或華北地區,吸菸是導致男性肺癌的重要因素,其q值分別爲0.143和0.129,吸菸與空氣污染物之間的相互作用增加了這種風險。結論:這項研究表明,在中國北方應該關注SO2和PM2.5對肺癌的影響,而在南方,應該更加關注O3和CO的影響以及它們與SO2的相互作用。在華北和華南地區,吸菸(尤其是男性)仍然是肺癌的重要危險因素。地理所王勁峯老師團隊的成果,分析了空氣污染與肺癌發病率的研究。交互因子以及性別對於肺癌的影響有明顯的異質性。

4.The lag effect of water pollution on the mortality rate for esophageal cancer in a rapidly industrialized region in China/水污染對中國快速工業化地區食管癌死亡率的滯後效應

淮河流域(位於中國東部)擁有1.8億人口,是中國食道癌(EC)死亡的最高風險。一些研究發現,飲用水中的污染物是消化系統癌症的主要危險因素。但是,歷史時期的水污染對當前歐共體死亡率的影響尚不清楚。收集了2004年淮河流域11個縣的EC死亡率數據,並使用了1987年至2004年該地區的地表水質量數據。分別從線性和非線性角度,採用Pearson相關性和GeoDetector q統計量來探討不同滯後時段水污染與EC死亡率之間的關係。該研究表明該地區EC死亡率的空間異質性。下游的EC死亡率顯着高於其他地區。在中游,主流以北地區的平均死亡率低於該地區以南地區。在上游,主流以北地區的死亡率高於南部地區。歷史格局是在水污染的影響下形成的。 1996年,1997年和1998年對EC死亡率具有最強的線性或非線性影響,其中Pearson相關係數和q統計量最高,分別爲0.79和0.89。在過去的20年中,快速的工業化已經引起了環境問題,並帶來了相關的健康風險。研究表明,目前的EC死亡率主要是由前8年的水污染引起的。這些發現提供了關於污染對EC死亡率造成影響的滯後時間的知識,並且可以有助於控制和預防食道癌。地理所王勁峯老師團隊的成果,分析了污染對健康和死亡率的滯後效應,是一個非常有意思的研究。

5.Spatial Lifecourse Epidemiology Reporting Standards (ISLE-ReSt) statement/空間生命過程流行病學報告標準(ISLE-ReSt)聲明

空間生命過程流行病學是一個跨學科領域,它利用先進的空間,基於位置的人工智能技術來研究環境,行爲,社會心理和生物學因素對健康相關狀態和事件及其潛在機制的長期影響。隨着越來越多的研究報告來自該領域的研究結果,以及迫切需要基於最強科學的公共衛生和政策決策,在空間生命週期流行病學研究報告中的透明度和清晰度至關重要。由國際空間生命歷程流行病學倡議(ISLE)支持的工作隊確定了在這一領域的指導需求,並制定了《空間生命歷程流行病學報告標準》(ISLE-ReSt)聲明。目的是提供一份建議清單,以改善和更一致地報告空間生命歷程流行病學研究。加強針對隊列研究的流行病學觀察研究報告(STROBE)聲明被確定爲提供考慮納入的初始項目的適當起點。然後整合了空間數據和方法的報告標準,以形成報告建議的單個綜合清單。我們的方法的優勢在於,我們的國際和跨學科團隊由內容專家和貢獻者組成,他們代表各種相關的科學慣例,並且我們遵守制定報告準則的國際準則。隨着在空間生命過程流行病學中使用的基於空間,基於位置的人工智能技術的迅速發展,從發佈之日起至少每隔2至3年就要重新審視和適應ISLE-ReSt。團隊的成果,關於ISLE的標準聲明。

6.Global urban expansion offsets climate-driven increases in terrestrial net primary productivity/全球城市擴張抵消了氣候驅動的陸地淨初級生產力的增長

全球城市化速度正在加快; 然而,數據限制遠遠不能對全球城市擴張或其對地面淨初級生產力(NPP)的影響做出可靠的估計。 在此,我們使用高分辨率的全球土地利用/覆蓋數據集(GlobeLand30),顯示了2000年至2010年期間,全球城市區域平均每年以5694 km2的速度增長。過去十年中,城市的快速擴張反過來又減少了全球 陸地NPP,每年淨損失22.4 Tg碳(Tg C year-1)。 儘管與全球陸地NPP和化石燃料碳的總排放量相比很小,但城市化導致的NPP減少抵消了同期氣候驅動的增加(73.6 Tg C year-1)的30%。 我們的發現突出表明,迫切需要制定全球戰略來應對城市擴張,增加自然碳匯和提高農業生產率。中山大學劉小平教授團隊成果,分析了城市化對於NPP影響的分析,這一塊也是全球變化生態學的重點研究對象。發表在NC上的牛文。後期有機會將詳細介紹。

7.Introduction to the Water‐Soil‐Air‐Plant‐Human Nexus: Modeling and Observing Complex Land Surface Systems at River Basin Scale/水,土壤,空氣,植物,人的聯繫簡介:流域尺度上覆雜的地表系統的建模和觀測

複雜的人類-自然系統的雙向耦合可以稱爲水-土壤-空氣-植物-人類的聯繫,並且這種聯繫的綜合研究已經在世界許多流域中進行。 本期專刊報道了在流域尺度上對水,土壤,空氣,植物,人的關係的建模,觀察和理解的貢獻,特別是來自“黑河流域生態水文過程綜合研究”計劃的貢獻。 本文重點介紹了主要結果,作爲對本期特刊的介紹。西北院、青藏所李新老師團隊的成果,分析多要素耦合的流域尺度地表系統建模分析。是一個很不錯的樣例研究。

8.Combining Measurements of Built-up Area, Nighttime Light, and Travel Time Distance for Detecting Changes in Urban Boundaries: Introducing the BUNTUS Algorithm/結合建築面積,夜間光和出行時間距離的測量值,以檢測城市邊界的變化:BUNTUS算法的引入

本文介紹了一種新的算法(BUNTUS-累積,夜間照明和城市規模出行時間),該算法使用遙感技術來劃定城市邊界。該論文是對城市化在改變化石燃料排放中的作用的更大研究的一部分。該方法結合了土地覆蓋,夜間照明和行進時間的估計,以對連續的城市區域進行分類。該方法是自動的,全局的,並使用具有足夠持續時間的數據集來建立趨勢。使用來自Landsat-8 OLI圖像的地面真實場進行的驗證顯示,總體準確度爲60%至95%。因此,這種方法能夠描述空間分佈並給出城市範圍的詳細信息。我們以澳大利亞布里斯班,澳大利亞墨爾本和中國北京爲例演示了該方法。新方法符合研究城市排放總體趨勢的標準。ASU的Gurney團隊的研究,利用工農多源遙感數據來進行城市分類,以支撐後續的碳排放研究。

9.The Vulcan Version 3.0 High-Resolution Fossil Fuel CO2Emissions for the United States/美國的Vulcan版本3.0高分辨率化石燃料CO2排放

在考慮到減少溫室氣體排放的機會時,除了向決策者提供相關信息外,在精細的空間和時間尺度上量化的溫室氣體排放估算已經成爲新的多約束通量信息系統的重要組成部分。 Vulcan項目致力於估算整個美國景觀在空間和時間尺度上自下而上的化石燃料排放量和水泥生產中的CO2排放量(FFCO2)同時滿足科學和政策需求。在這裏,我們報告了Vulcan排放的3.0版,該版本量化了美國在FFCO2的排放量,其空間分辨率爲1 km×1 km,每小時的時間分辨率爲2010-2015年。我們提供了更新方法,數據源,結果以及與全局網格化FFCO2數據產品的比較的完整描述。我們估計2011年的FFCO2排放爲1589.3 TgC,95%的置信區間爲1299/1917 TgC(+18.3%/ − 20.6%),這意味着~~ 10的單西格瑪不確定性%。我們發現,在以電力生產和工業爲主的州,人均FFCO2排放較大,而在以道路和住宅/商業建築爲主的州,人均FFCO2排放較小。美國FFCO2排放的質心(CoM)位於密蘇里州,其平均季節性沿NE / SW近橢圓路徑移動。與ODIAC相比,全球有網格的FFCO2排放量估算值顯示出總排放量(2011年爲100.1 TgC)和空間格局都有很大差異。兩個數據乘積之間的空間相關性爲0.38,單個網格單元規模的平均絕對差爲80.04%。 Vulcan v3.0 FFCO2排放數據產品可立即對美國每個城市的排放進行高分辨率估算,爲計劃開發自我報告的城市節省了大量時間和精力城市清單。可以從Oak Ridge國家實驗室的數據存儲庫下載Vulcan v3.0年度網格化排放數據產品(https://doi.org/10.3334/ORNLDAAC/1741,Gurney等,2019)。ASU的Gurney團隊的研究,知名碳排放產品Vulcan的3.0版本,並進行了大量分析。數據是開放的,同時這套數據質量非常高,以後有機會來介紹。

10.Construction of the Scale-Specific Resilience Index to Facilitate Multiscale Decision Making in Disaster Management: A Case Study of the 2015 Nepal Earthquake/特定尺度恢復力指數的構建,以促進災害管理中的多尺度決策:以2015年尼泊爾地震爲例

許多學者主張使用經驗證據來評估跨尺度和隨時間變化的恢復力。因此,我們使用2015年尼泊爾地震發生後不久從2015年8月至2015年12月每月收集的有關個人對救災觀念的調查數據進行案例研究。我們基於一組變量構建了特定尺度的恢復力指數(SSRI),這些變量在不同的空間規模上以及隨時間推移針對調查數據進行了單獨驗證。迴歸結果表明,與家庭結構,產業多樣性,社區資本,可及性和緊急服務相關的變量均已通過地區和街道兩級的調查數據,與種族多樣性和應急能力相關的變量進行了驗證。營地僅在地區級別得到驗證,地震經歷變量僅在分區級別得到驗證。因此,爲了獲得最佳模型,我們使用六個經過驗證的變量在地區一級構建SSRI,並使用七個變量(包括與家庭財產的脆弱性和平均海拔高度相關的變量)在分區一級構建SSRI。通過2015年尼泊爾地震後調查的救濟分數,通過多級迴歸模型驗證了SSRI分數。結果表明,基於已驗證變量的SSRI得分與地區和分區級別的調查數據具有良好的相關性和預期關係,並且勝過綜合應變能力指數,後者考慮了所有變量,無論其單獨的驗證結果如何。用於構造SSRI的方法有助於在實際案例中識別跨空間尺度和隨時間變化的多維彈性指標的貢獻,還提供易於理解並適用於多尺度決策過程的特定尺度的彈性的指標得分。恢復力是近些年來生態學和災害學方面一個重要的理念,可以理解爲從受破壞狀態恢復到常規狀態所需要的時間或者相關指標。這是一個典型的案例研究,對這個恢復力的測算,有相關的研究可以進行參考。

11.Towards feasibility of photovoltaic road for urban traffic-solar energy estimation using street view image/利用街景圖像估算光伏道路在城市交通太陽能中的可行性

一個可持續發展的城市依賴可再生能源,從而促進了電動汽車的發展。爲了支持電動車輛,提出了在行駛時對車輛充電的概念。在這種情況下,在城市道路上建造太陽能電池板是一項具有巨大益處的創新選擇,而準確計算道路光伏發電量是前提。在本文中,我們提出了一種新穎的框架,用於預測和計算可從道路收集的太陽輻射和電能。收集Google街景圖像以測量道路的天空障礙,並將其與太陽輻射模型集成在一起以估計輻射接收能力。除天空障礙外,我們在計算中還考慮了交通狀況和天氣情況的影響。根據我們的工作,可以得出一年中不同時間的輻射圖,以分析道路的光伏分佈。爲了測試我們框架的可行性,我們以波士頓爲例。結果表明,波士頓的道路可以爲城市中所有未來的電動汽車產生大量的電力。而且,穿過波士頓的主要道路具有更好的發電潛力,並且交通狀況的影響是有限的。我們的計算框架證實,將太陽能電池板用作路面是城市電力的巨大補充,並具有爲行駛中的汽車充電的獨特功能。街景圖像分析的一個應用,估算光伏道路的可行性。非常有意思的研究。

發佈了146 篇原創文章 · 獲贊 135 · 訪問量 36萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章