本講義出自Karanjeet Singh與Thamme Gowda Narayanaswamy在Spark Summit East 2017上的演講,主要介紹了利用了分佈式計算和信息檢索領域的最新發展技術並且組合了像Spark, Kafka, Lucene/Solr, Tika, 和Felix等各種Apache項目的爬蟲程序——Sparkler,Sparkler是一個具有高性能、高擴展性以及高性能的網絡爬蟲程序,並且是運行在Spark上Apache Nutch的進化。
本講義出自Karanjeet Singh與Thamme Gowda Narayanaswamy在Spark Summit East 2017上的演講,主要介紹了利用了分佈式計算和信息檢索領域的最新發展技術並且組合了像Spark, Kafka, Lucene/Solr, Tika, 和Felix等各種Apache項目的爬蟲程序——Sparkler,Sparkler是一個具有高性能、高擴展性以及高性能的網絡爬蟲程序,並且是運行在Spark上Apache Nutch的進化。