網頁抓取

網頁抓取

原創

1501220038

2020-02-25 21:32

上數據挖掘課，數據準備部分考慮這樣做：根據配置文件打開相應的網址並保存。之後再對這些文件進行內容解析、文本提取、矩陣轉換、聚類等。

public static void main(String[] args){
	    final int THREAD_COUNT=5;
	    String baseUrl=null;  
	    String searchBlogs=null;  
	    String blogs[]=null;  
	    String fileDir=null;  
	    //String category=null;
	    InputStream inputStream =CsdnBlogMining.class.getClassLoader().getResourceAsStream("config.properties");  
	    Properties p = new Properties(); 
	    
	    try {  
	        p.load(inputStream);  
	        baseUrl=p.getProperty("baseUrl");  
	        fileDir=p.getProperty("fileDir");  
	        searchBlogs=p.getProperty("searchBlogs");  
	        if(searchBlogs!=""){  
	            blogs=searchBlogs.split(";");  
	        }
	        ExecutorService pool=Executors.newFixedThreadPool(THREAD_COUNT);
	        
	        for(String s:blogs){
	        	pool.submit(new SaveWeb(baseUrl+s,fileDir+"/"+s+".html"));
	        }  
	        pool.shutdown();
	        
	        //category=new String(p.getProperty("category").getBytes("ISO-8859-1"),"UTF-8");  
	    } catch (IOException e) {  
	        e.printStackTrace();  
	    }
	}

打開網頁並保存模塊：

public class SaveWeb implements Runnable{
    private String url;  
    private String filename;
    
    public SaveWeb(String url,String filename){
    	this.url=url;  
        this.filename=filename;
    }
    
	@Override
	public void run() {
		HttpClient httpclient = new DefaultHttpClient();  
        HttpGet httpGet = new HttpGet(url);  
            httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");  
            try{  
            HttpResponse response = httpclient.execute(httpGet);  
            HttpEntity entity = response.getEntity();  
            BufferedOutputStream outputStream = new BufferedOutputStream(new FileOutputStream(filename));          
            if(response.getStatusLine().getStatusCode() == HttpStatus.SC_OK){  
                if (entity != null) {     
                    String res=EntityUtils.toString(entity,"UTF-8");  
                    outputStream.write(res.getBytes("UTF-8"));  
                    outputStream.flush();  
                }  
            }  
            outputStream.close();  
        }catch(IOException e){  
            e.printStackTrace();  
        }  
	}
}

後續：

作業完成了，但幾乎和上面的內容沒啥關係，本來想全刪了。再想也不算寫錯，只是沒用上而已，還是留着吧。

最終，用java代碼循環加併發去獲得一個地址列表存到文件裏。而採用R語言去做的挖掘工作。包括獲取網頁、解析正文、分詞、聚類、結果輸出等。R語言真是省事，幾十行代碼全搞定了。但最終分類的結果不理想。看來基於全文的計算特徵不明顯，劃分出來的類也很不準確，還得考慮改進。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Android啓動過程-萬字長文(Android14)

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺

iNeuOS工業互聯網操作系統，增加電力IEC104協議

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

kbgressdb之數據結構V0.2

JavaScript示例十（表單序列化）

JavaScript作用域、上下文環境、函數對象的定義與調用、匿名函數的定義與調用、閉包

使內嵌式jetty服務器支持jsp

統計學上的幾個概念

網頁抓取

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結