Informatica神祕講師首秀：AI驅動的產品數據黑科技

新冠肺炎疫情依舊嚴峻，在這場生死時速的戰“疫”中，人工智能成爲一股不可或缺的力量。近日，在武漢市的各家醫院裏陸續出現了一批特殊的“工作人員”——機器人，它們靈活地穿梭在醫院的隔離區，擔負起爲醫護人員與患者送餐、送藥的職責。不僅降低了醫護人員被感染的風險，同時也提高了配送效率，節約了一次性防護用品。

在我們身邊，人工智能也無處不在。“拿了就走”的Amazon Go、迎賓和導購機器人、智能穿衣鏡、貨架監測和管理機器人、送Pizza的無人車……在炫酷黑科技的背後，是數字化時代中從生產製造到物流配送、從倉儲分撥到終端零售等各環節向着全渠道營銷和提升客戶體驗的不斷邁進。

傳統的信息化系統大都是基於單一目的而建立，例如之前建立的供應鏈管理、企業資源管理、生產計劃管理、客戶關係管理等難以滿足數字化時代對數據豐富度的要求，形成巨大的數據鴻溝，選擇通過人工智能技術驅動的產品信息管理，才能幫助企業更好地採集數據、實現數據標準化、增強數據豐富程度、對產品數據進行分類發佈，最終真正實現全渠道管理。

Informatica數據管理專家——數博士硬核登場，與你相約【Informatica雲課堂】，帶來首秀——《AI驅動的下一代智能產品信息管理》。

以下是雲課堂內容的精彩回顧

▼▼▼

機器學習：我讀故我在

人工智能的讀和思是指對自然語言的處理和機器學習。其中自然語言處理，包括文本生成、內容抽取、話題分類和機器翻譯。而機器學習則可以分爲監督學習、無監督學習和深度學習。

機器學習不同於人。人類通常從他人或自身經驗裏學習，獲得知識；而機器卻機械遵循發給它們的指令。他們需要通過編程、訓練才能完成工作。而機器學習則把兩樣東西緊密的結合在一起，它通過數據來學習。準確可信的數據是機器學習成功的關鍵。

對於有監督學習，你必須把一些特性和屬性結合起來——應用這些數據建模並不斷採用分類和迴歸的方法來訓練這個模型；而對於無監督學習，你需要藉助降維和聚類的方法，找到數據中存在的某些相似性。

人工智能在自然語言中的處理是我們非常常見的。不論是亞馬遜的Echo智能音箱，或者小度智能音箱，或是蘋果的SIRI語音助手，它們都運用了自然語言處理技術。例如你可以直接用日常交流所用的語言提問：最大的動物是什麼？

這時候那些自然語言處理程序就會研究拆解剛纔說的句子，試圖從中獲得元信息。例如“最大的動物是什麼”這個問題。首先句子裏有一個特定的維度：最大的；還有一個名詞：動物。收集到這些信息後，他們會連入Google或百度，搜索相應的答案，再把答案返回給你。

不同於機器學習，自然語言處理主要不是訓練數據，而是直接對語言進行解析，這要複雜的多。當你將所有的短語從句子中抽取出來，進行自然語言處理時，解析樹就形成了。機器學習通過解析樹來提取出元信息，進而理解句子的真正含義。

AI驅動的產品信息管理

機器學習與自然語言處理在產品信息管理中有許多應用，常見的包括：分類、屬性提取、屬性創建以及圖像分類：

▼

產品分類

機器學習可以幫助一家擁有海量SKU的零售商進行產品分類，例如將一臺擁有複雜配置信息的筆記本電腦分類到各類目錄中去。

不過，爲了能夠使用機器學習來幫助分類，我們需要準備和創建大量的訓練數據，即標籤的數據。在準備每個類別的訓練數據後，就可以使用樸素貝葉斯算法將這個特定的產品進行分類，歸到多個層次結構中的某個特定的類別裏。其背後的邏輯在於對大量的文本進行分類、匹配、比較：統計出不同的單詞在文本中出現的頻次，進而得到數據字典。通過機器學習，系統會發現某段文本和“筆記本電腦”這個類別100%匹配，和“配件”這個類別是30%的匹配度。通過這樣的訓練數據，以後就可以基於類似的文本數據，自動實現產品的分類。

在實際應用場景中，有些客戶每天會收到一萬多種產品，並且品種會不斷的變化。通過採用包含AI技術的Informatica PIM解決方案，他們的效率提升了80%到90%。這就是AI在產品分類中的價值。

▼

屬性提取

機器學習可以採用自然語言處理算法來解析文本，識別文本中包含的產品特徵，比如這裏的型號、CPU、內存等特徵，然後將這些特徵與庫裏的“筆記本電腦”這個產品類別進行匹配，自動獲得這些信息。

對零售商來說這尤其有用，許多零售商內部系統有很好的產品數據，需要手工從其中提取所有不同的特性，進行簡單的複製粘貼操作。

自然語言處理算法可以解析文本，識別文本中包含的產品特徵，比如這裏的型號、CPU、內存等特徵，然後將這些特徵與庫裏的“筆記本電腦”這個產品類別進行匹配，自動獲得信息。此外，還可以通過標準化，對提取的特徵值進行規範和補充，確保內部數據的一致性。

▼

屬性創建

基於屬性提取我們已經將一臺筆記本分門別類，並獲得了型號、CPU、內存、硬盤等各種信息。此外還能做什麼呢？如何在現有的信息基礎上進一步豐富產品信息？這時候K-Nearest Neighbor(kNN)算法就可以大顯身手了。

仍以筆記本電腦爲例。在“筆記本電腦”這個類別裏，還可以從其它類似的產品中得到一些附加屬性，比如電池待機時長、保修期，或者電商分類。然後根據這些不同屬性和屬性值進行統計。在這裏例子裏，可以看到幾個頻數較高的屬性：比如83.3%的產品電池待機時長是六個小時；83.3%的產品提供兩年的保修期；100%的電商分類是“筆記本電腦”。

這些從類似產品上獲得的額外信息，可以成爲非常有用的採購決策判斷。

▼

圖像分類

機器學習可以幫助一家擁有海量SKU的零售商進

通過從供應商那裏獲得一張筆記本電腦圖片，藉助現有的工具，我們可以對許多標籤進行分類統計，比如有96%的匹配度是筆記本電腦，90%的匹配是科技，90%的匹配是黑色的。這些標籤都是基於機器學習算法自動創建的。在PIM中，可以利用這些技術處理來自不同供應商的不同產品。

除此之外，自然語言處理與機器學習還能用於採用自然語言生成（NPG）生成文本、使用聚類法查找產品中的差異、尋找交叉銷售和增值銷售機會，以及基於內容或銷售數據自動生成SEO關鍵字等領域。

Informatica PIM提升全渠道體驗

基於Informatica的AI引擎Claire，構建在智能數據平臺之上，Informatica的下一代PIM解決方案將化解諸多產品信息管理過程中所面臨的挑戰：

● 產品數據的多樣性和不均衡性，以及參差不齊的數據質量。

● 每位客戶都有獨特的品類結構和特徵集。

● 自然語言的描述中，產品描述遵循不同的語法規則。

● 產品數據或許要有多個不同的語言版本。

● ……

AI驅動的下一代智能產品信息管理

產品數據通過供應商、業務用戶等多項來源，形成產品數據的中央倉庫，爲企業內外需要運用產品數據的部門提供了一個智能平臺，包括電子商務、數字化營銷、產品管理、類別管理、採購等各個部門，以及外部的供應商和合作夥伴。

通過PIM解決方案，各部門與內外部合作伙伴可以更方便的協作，豐富產品的信息，爲電商網站、第三方平臺、產品目錄、社交媒體、線下零售等前端各種銷售和市場渠道提供更好的支持。

幫助業務用戶以可信、豐富和相關的產品數據做好產品信息管理，實現和內外部夥伴的高效協作，Informatica PIM將致力於提升全渠道的產品體驗。

Informatica是PIM解決方案的行業領導者

《2020 年 Gartner 主數據管理解決方案魔力象限報告》是 Gartner 第四次發佈該報告，也是Informatica 第四次在前瞻性和執行力方面均位居首位。

而在IDC MarketScape報告中，Informatica同樣收穫肯定，報告中所提及的Informatica優勢如下：

● 技術集成：當被問及與外部系統（如ERP、CRM和數字商務）建立技術集成有多容易時，受訪客戶對Informatica的評價均高於平均水平。

● 數據管理專業知識：Informatica在數據管理領域有很強的影響力，這是其PIM方法的支柱。

● 人工智能戰略：受訪客戶認爲Informatica的人工智能/自動化戰略遠遠高於市場平均水平。該公司的CLAIRE人工智能產品旨在實現PIM特定用例的自動化。

該報告還向客戶指出：“當您尋找在市場上具有長期業績的企業級PIM產品、智能數據平臺、混合業務模式、廣泛的全球PIM/MDM生態系統和本地支持時，推薦考慮Informatica。”

Informatica PIM解決方案已在全球 2,000 多家企業成功實施，使許多大型企業及著名品牌能夠進行更爲智能高效的產品信息管理。在未來，Informatica還將繼續基於數據治理，在AI持續發力，助力更多企業邁向數字化轉型的成功。

想了解更多相信信息，請關注Informatica數據管理（微信號：InformaticaChina）

Informatica神祕講師首秀：AI驅動的產品數據黑科技

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

618 酣戰之下，什麼是線上業務成功的關鍵？

DataOps三原則，數據平臺運營必讀！

拿什麼拯救AI時代的數據科學家？

8次點擊，30秒創建連接器，Ta竟然做到了！

發掘女性“數”能量，綻放科技新魅力

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結