mahout_xb的專欄

http://blog.csdn.net/mahout_xb/article/details/7341477

第一章，介紹：挖掘twitter的數據

分類： data mining2012-03-11 11:36 1362人閱讀評論(4) 收藏舉報


twittergraphvizpythondependenciessearchimport

雖然我們可以從討論社交網絡的APIs, schemaless的設計，或者許多其它的事開始，但是讓我們直接進入一些介紹性的例子，以此來說明去收集和分析社交網站的數據。這是一篇入門章節，目的是激發你的興趣，讓你思索一些問題，而餘下的章節會涉及到細節。我們將先將開發環境搭建個，然後馬上開始收集個分析一些twitter的數據。

安裝Python開發環境

這本書的示例以用python語言來寫的，如果你已經安裝了新版本的python和easy_install在你的系統上，那你可以跳過本節。如果你沒有安裝python,壞消息是你可能不是一個python hacker。但是不用擔心，你很快就是了，因爲python很容易上手。用戶在任何的平臺都能去下載和安裝python在：http://www.python.org/download/,但是強烈建議windows用戶安裝ActivePython,它自動將python加入到你的系統路徑下並且已經帶有easy_install。本書的代碼在python2.7上測試的。

一旦安裝好了python, 你就可以在命令行敲下python, 啓動其交互模式。嘗試以下示例1－1

示例1－1，第一個python交互會話

[python]view
plaincopy

>>> print "Hello World"  

Hello World  

>>> #this is a comment  

...  

>>> for i in range(0,10): # a loop  

...     print i, # the comma suppresses line breaks  

...  

0 1 2 3 4 5 6 7 8 9  

>>> numbers = [ i for i in range(0,10) ] # a list comprehension  

>>> print numbers  

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]  

>>> if 10 in numbers: # conditional logic  

...     print True  

... else:  

...     print False  

...  

False

另外一個工具easy_install,類似linux上的安裝包管理工具，它能讓你很方便安裝python的庫，而不用去下載，編譯，再安裝。你可以下載最新的版本在http://pypi.python.org/pypi/setuptools, 針對不同的平臺有相關的介紹。一般來說，*nix用戶可能要用sudo easy_install在安裝，使很系統中所有用戶都能用到安裝的庫，而windows用戶，如果按照建議安裝了ActivePython，只需要用easy_install命令就好了。

你配置好了easy_install後，就可以用它來安裝NetworkX了--用來構建和分析圖的工具，整本書都會用到它。安裝時能看到類似的輸出：

[plain]view
plaincopy

$ easy_install networkx  

Searching for networkx  

...truncated output...  

Finished processing dependencies for networkx  

有了NetworkX後，你可能用在解析器下直接引入它，但有可能會出錯：

[python]view
plaincopy

>>> import networkx  

Traceback (most recent call last):  

... truncated output ...  

ImportError: No module named numpy  

當出現ImportError時，意味着缺少相應的庫。networkx信賴於numpy, 一個高度優化的科學計算庫，執行easy_install numpy解決此問題。安裝完numpy後，你應該可以運行示例１-２:

示例1－2,　用networkx來創建一個圖的點和邊

[python]view
plaincopy

>>> import networkx  

>>> g=networkx.Graph()  

>>> g.add_edge(1,2)  

>>> g.add_node("spam")  

>>> print g.nodes()  

[1, 2, 'spam']  

>>> print g.edges()  

[(1, 2)]

現在，你已經安裝了一些核心的python開發工具了，準備好去做一些有趣的任務了。如果你覺得這一節有多要學的，那麼很有必要去看看官網的python介紹，在進入下一節之前。

收集和運用twitter的數據

幾乎不可能你不知道twitter, 它是一個社會化的微博服務，你可能輸入140個字符以下的信息，這些信息被稱作tweets。不像社交網絡如Facebook和LinkedIn, 在那裏連接是雙向的，twitter有一個不對稱的基礎框架，叫做“朋友”和“粉絲”。假設你有一個twitter賬號，你的朋友是你正關注的人，而你的粉絲是那些關注你的人。當然，你可以去關注所有那些關注你的人，然而，這一般是不會發生的，因爲你僅僅想讓你的Home Timeline中包含你感興趣的內容。twitter作爲一個重要的現象，因爲它龐大的用戶數量，以及作爲市場動向分析工具，和大量的第三方客戶端。它提供了廣泛的APIs,雖然你可以用其中的很多，而不用註冊，但是它會更有趣去建立和挖掘你自己的社交網絡。發點時間去看看twitter的服務條款，API文檔，以及API的約束條件。這本書餘下的部分假設你有一個twitter的賬號，並且有足夠多的朋友和粉絲來作爲數據去挖掘。

注：這本書的twitter賬號是＠SocialWebMining

運用twitter的API

twitter的一小部分網絡API包裝在一個名爲twitter的包中，可以通過easy_install來安裝：

[python]view
plaincopy

$ easy_install twitter  

Searching for twitter  

...truncated output...  

Finished processing dependencies for twitter  

這個包還包含一個方便的命令行工具以及網絡聊天機器人，因此當你安裝了這個模塊後，你就可以在shell中敲入“twitter"來得到使用幫助。然而，我們將主要關注python的交互解釋器。我們將操作幾個實例，但是請注意，你可以跳過文檔，因爲可以用pydoc再次查看這些文檔。＊nix用戶可以簡單的敲入pydoc twitter.Twitter來查看Twitter類的文檔，而widows用戶需要用python -mpydoc twitter.Twitter.如果你發現你經常查看某個模塊的文檔，你可以選擇傳遞一個-w選項給pydoc,這樣就可以輸出爲HTML文件來保存或由瀏覽器收藏爲書籤。當然，也可以在解釋器中鍵入help來完成同樣的功能，如help(twitter.Twitter).

該進入主題了，我們來找出人們正在談論什麼，利用twitter的搜索api來觀察趨勢。讓我們先準備好解釋器，初始化一個搜索。嘗試示例1－3，如果有疑問，用help()來查看相關文檔。

示例1－3，檢索twitter的搜索趨勢

[python]view
plaincopy

>>> import twitter  

>>> twitter_search = twitter.Twitter(domain="search.twitter.com")  

>>> trends = twitter_search.trends()  

>>> [ trend['name'] for trend in trends['trends'] ]  

[u'#ZodiacFacts', u'#nowplaying', u'#ItsOverWhen', u'#Christoferdrew',  

u'Justin Bieber', u'#WhatwouldItBeLike', u'#Sagittarius', u'SNL', u'#SurveySays',  

u'#iDoit2']

你可能在想，使用twitter的api非常之簡單：初始化Twitter類用一個URL，然後調用這個對象上的方法。例如，twitter_search.trends()初始化了一個HTTP請求去得到 http://search.twitter.com/trends.json,你也可以鍵入這個url到瀏覽器中得到同樣的結果。作爲前面解釋器章節的進一步，這一節完稿在週六的晚上，因此，SNL（週六夜場秀，一美國娛樂節目）出現在趨勢列表中不是巧合。現在可能是一個很好的時機去看看twitter的api文檔，後面會多次用到。

得出SNL是一個趨勢，下面就是去獲取一些關於它的搜索結果，用twitter的搜索api來探索包含SNL的tweets,然後以json的格式將它們打印出來，如示例1－4描述的：

示例1－4，分頁顯示twitter的搜索結果

[python]view
plaincopy

>>> search_results = []  

>>> for page in range(1,6):  

...     search_results.append(twitter_search.search(q="SNL", rpp=100, page=page))  

以上代碼獲取和存儲結果爲5個連續的片斷（頁），每頁100條記錄。它是很有意義的去看一個相應的REST查詢 http://search.twitter.com/
search.json?&q=SNL&rpp=100&page=1。在REST API和twitter模塊之間的映射使得我們很容易用python代碼來和twitter服務交互。在執行完這個搜索後，search_results包含了5個對象，每個有100條結果記錄，你能夠將這些結果用易讀的形式打印出來，用python 2.6以後自帶的json模塊，如示例1－5：

示例1－5，易讀的twitter數據以json格式

[python]view
plaincopy

>>> import json  

>>> print json.dumps(search_results, sort_keys=True, indent=1)  

[  

  {  

    "completed_in": 0.088122000000000006,  

    "max_id": 11966285265,  

    "next_page": "?page=2&max_id=11966285265&rpp=100&q=SNL",  

    "page": 1,  

    "query": "SNL",  

    "refresh_url": "?since_id=11966285265&q=SNL",  

    "results": [  

     {  

       "created_at": "Sun, 11 Apr 2010 01:34:52 +0000",  

       "from_user": "bieber_luv2",  

       "from_user_id": 106998169,  

       "geo": null,  

       "id": 11966285265,  

       "iso_language_code": "en",  

       "metadata": {  

        "result_type": "recent"  

       },  

       "profile_image_url": "http://a1.twimg.com/profile_images/809471978/DSC00522...",  

       "source": "<a href="http://twitter.com/">web</a>",  

       "text": " ...truncated... im nt gonna go to sleep happy unless i see @justin...",  

       "to_user_id": null  

     }  

               ... output truncated - 99 more tweets ...  

    ],  

    "results_per_page": 100,  

    "since_id": 0  

  },  

       ... output truncated - 4 more pages ...  

]

注意，據2010年下半年的通知，在搜索結果中from_user_id字段不對應真實的twitter用戶id,查看Twitter API Issue #214得到更多細節，這個缺點到本書的章節沒有任何影響，但是如果你要自己創建一些應用就要注意這點了（值得特別關注）

到本書的後面纔會仔細推敲這些結果中的細節（請看第5章），這時候要注意的是返回的結果以results作爲關鍵字，我們能提取這500個tweets的文本到列表中，用下面的方法。示例1－6
用一個雙列表推導式，縮進以表明它與嵌套循環沒什麼區別。

示例1－6，一個簡單的python列表推導式

[python]view
plaincopy

>>> tweets = [ r['text'] \  

...     for result in search_results \  

...         for r in result['results'] ]  

列表推導式被經常用到在這本書中，雖然它們很容易產生迷惑如果寫在一行，但是將它們以嵌套循環打印出來意思就明瞭了。這個結果tweets相當於定義一個空的列表tweets,然後調用tweets.append(r['text'])在嵌套循環中。參見“Data Structures"一節在python的官網教程中。列表推導是非常有用的，它們有時候能提供更高的效率比嵌套循環，且更簡潔。

頻率分析和詞彙多樣性

對於非結構化文本一個最直接的度量就是詞彙豐富性（lexical diversity),即不重複的單詞數除以總的單詞數目。如示例1－7

示例1－7， tweets的詞彙豐富性

[python]view
plaincopy

>>> words = []  

>>> for t in tweets:  

...     words += [ w for w in t.split() ]  

...  

>>> len(words) # total words  

7238  

>>> len(set(words)) # unique words  

1636  

>>> 1.0*len(set(words))/len(words) # lexical diversity  

0.22602928985907708  

>>> 1.0*sum([ len(t.split()) for t in tweets ])/len(tweets) # avg words per tweet  

14.476000000000001

詞彙豐富性值0.23表明四個單詞中約有一個是唯一的。已知每條tweet的單詞數量是14, 也就是說僅有3個單詞是唯一的在每條tweet中，不考慮其他因素，也就是說每條tweet載有20％的唯一信息。對於這點，有趣的是tweets中有多少噪音是由於五毛黨所造成，有哪些常用單詞，又有哪些不常用的單詞。單詞和它們的頻率分佈就能解決此問題。雖然這不難解決，我們還是安裝一個工具，它提供了內置的頻率分佈以及其它一些文本分析工具。

自然語言工具集（NLTK）是一個非常受歡迎的模塊，這本書中我們將經常用到。它包含大量的文本分析工具，如一般向量計算，信息提取，自然語言處理（NLP）等，雖然說它在商業上和學術上不是最先進的，但它提供了堅實的和廣泛的基礎，如果這是你第一次來嘗試做自然語言處理的話。如果你的項目對質量或效率要求很高的話，NLTK不能滿足你的需求，這種情況有三個選擇,取決於你能花在這上面的時間和金錢: 1.從開源項目中找替代品，做大量的實驗和測試來對比它們的性能 2.白手起家自己製造工具集 3.買一個商業的產品。其中任何一種都不便宜（如果你相信時間就是金錢）或容易。

NLTK能通過easy_install來安裝，但你需要重啓解釋器才能用它。你能夠用cPickle模塊來保存你的工作會話在重啓前。如示例1－8

示例1－8，保存數據

[python]view
plaincopy

>>> f = open("myData.pickle", "wb")  

>>> import cPickle  

>>> cPickle.dump(words, f)  

>>> f.close()  

>>>  

$ easy_install nltk  

Searching for nltk  

...truncated output...  

Finished processing dependencies for nltk

在安裝了NLTK後，你可能想要看一看它的官網，那裏有它的文檔，也包含Natural Language Processing with Python(O'Reilly)整部書的電子版。

人們正在談論什麼？

嘗試去回答人們正在談論什麼是挖掘twitter數據最引人入勝的理由。一個最簡單的技術用來解決這個問題的就是頻率分析。NLTK簡化了這個問題，它提供了文本分析的API,因此讓我們減輕工作量，讓NLTK來處理細節吧。示例1－9演示了這個查找過程，通過創建頻率分佈，找出50個最常用的和最不常用的詞。

示例1－9，用NLTK來執行最基本的頻率分析

[python]view
plaincopy

>>> import nltk  

>>> import cPickle  

>>> words = cPickle.load(open("myData.pickle"))  

>>> freq_dist = nltk.FreqDist(words)  

>>> freq_dist.keys()[:50] # 50 most frequent tokens  

[u'snl', u'on', u'rt', u'is', u'to', u'i', u'watch', u'justin', u'@justinbieber',  

u'be', u'the', u'tonight', u'gonna', u'at', u'in', u'bieber', u'and', u'you',  

u'watching', u'tina', u'for', u'a', u'wait', u'fey', u'of', u'@justinbieber:',  

u'if', u'with', u'so', u"can't", u'who', u'great', u'it', u'going',  

u'im', u':)', u'snl...', u'2nite...', u'are', u'cant', u'dress', u'rehearsal',  

u'see', u'that', u'what', u'but', u'tonight!', u':d', u'2', u'will']  

>>> freq_dist.keys()[-50:] # 50 least frequent tokens  

[u'what?!', u'whens', u'where', u'while', u'white', u'whoever', u'whoooo!!!!',  

u'whose', u'wiating', u'wii', u'wiig', u'win...', u'wink.', u'wknd.', u'wohh', u'won',  

 u'wonder', u'wondering', u'wootwoot!', u'worked', u'worth', u'xo.', u'xx', u'ya',  

u'ya<3miranda', u'yay', u'yay!', u'ya\u2665', u'yea', u'yea.', u'yeaa', u'yeah!',  

u'yeah.', u'yeahhh.', u'yes,', u'yes;)', u'yess', u'yess,', u'you!!!!!',  

u"you'll", u'you+snl=', u'you,', u'youll', u'youtube??', u'youu<3',  

u'youuuuu', u'yum', u'yumyum', u'~', u'\xac\xac']

快速的掃一下示例1－9的結果，你會發現最常用的詞比最不常用的詞載有更多有用的信息。雖然進一步的工作是讓機器來識別，但常用詞涉及的實體如人，時間，事件，而不常用的詞則大都是噪音其中得不出任何有用信息。

第一點你發現的關於常用詞的可能就是SNL排在了第一位，既已知這是基於原始的搜索結果，這就不足爲奇了。有趣之處上往後面的詞看：有很多談論是關於Justin Bieber，有以下詞爲證，@justinbieber, justin, 和 bieber。任何人熟悉SNL的也應該知道“tina”和“fey"的出現決非巧合，鑑於Tina Fey和該節目的長期合作關係。也不難從這些詞中推斷出Justin Bieber是個有名的人，由於他要上週六晚上的節目，所以許多人非常激動的去搜索他。

這時候，你可能會想， “這樣啊，那我可以瀏覽一些tweets,來推斷出結論“，也許的確可以這樣，但你想7＊24小時來做這件事吧，或是僱傭別人來做。那麼如果是在其他領域，僅靠瀏覽隨機的幾條文本是得不出可靠的結論呢？要點是頻率分析是非常容易，也很有用的工具，它是如此顯而易見而不應被忽略。另外，這種技術一個基本的作用就是能讓你回答這個問題，"人們正在談論什麼？”

作爲最後觀察到的一點，“rt"的出現對於話題的繼續是很重要的線索。詞“RT”是一個特殊的符號，出現在一條tweet之前代表你正轉發某人的tweet.從這個詞的高頻率，可以推斷有大量重複的或是相近的tweet.事實上，這個觀察是我們下面分析的基礎。

從tweets中抽取關係

因爲社交網絡是第一個也是最重要的一個關於人們之的聯繫，一個方便的存儲社交網絡數據的形式就是圖。讓我們用NetworkX來構建一個轉發tweet的人們的關係圖。我們將在圖中直接表明信息的流向，更準確的來說，它是雙向圖。雖然twitter的API有一些能力去判別和分析轉發的狀態，但對於下面的例子不太適合，因爲我們要向服務器作大量的請求，這將是對有限額的API請求的浪費。

除此之外，我們能通過tweet本身的線索以正則表達式來抽取這些信息。按規定，twitter的人名符號以@符號開頭，僅能包含字母，數字和下劃線。因此，按轉發的規定，我們只需要探索下而的樣式：

RT 後接用戶名
via 後接用戶名

雖然第5章介紹來一個模塊來解析tweets中的實體，示例1－10表明你可以用re模塊來編譯一個樣式，以輕量級的方式來抽取tweet的發起人，而不用其它的庫。

示例1－10，用正則表達式來找到轉發者

[python]view
plaincopy

>>> import re  

>>> rt_patterns = re.compile(r"(RT|via)((?:\b\W*@\w+)+)", re.IGNORECASE)  

>>> example_tweets = ["RT @SocialWebMining Justin Bieber is on SNL 2nite. w00t?!?",  

...     "Justin Bieber is on SNL 2nite. w00t?!? (via @SocialWebMining)"]  

>>> for t in example_tweets:  

...     rt_patterns.findall(t)  

...  

[('RT', ' @SocialWebMining')]  

[('via', ' @SocialWebMining')]

以防不太明顯，調用findall返回一個元組列表，每一個元組包含一個匹配的字符串或是空字符串，注意這個正則表達式留一個空格在開頭，可以很容易的用strip()來解決，如示例1－11。因爲示例的tweets中沒有一個包含這兩種樣式，因此，在每一個元組中包含一個空字符串。

已知，這些由twitter API返回的tweet數據結構中包含發tweet的人，以及上面所示獲取轉發人的方法，很容易將這些信息載入到NetworkX的圖中。讓我們創建一個圖，結點代表用戶，兩個結點間的有向邊代表一個用戶轉發的另一個用戶的tweet,邊本身包含tweet的id和tweet的文本。

示例1－11演示了圖創建的過程，基本步驟是，首先概括出一個方法來抽取轉發中的用戶名，再將每一頁的tweets數據放入一個列表中，最後，循環掃描每頁的tweets並將邊加入圖中。雖然我們在後面能將圖畫出來，但即使不可視化它，我們也很從圖的特性中得到很多東西。

示例1－11，建立和分析一個圖表明瞭誰轉發了誰的tweet

[python]view
plaincopy

>>> import networkx as nx  

>>> import re  

>>> g = nx.DiGraph()  

>>>  

>>> all_tweets = [ tweet  

...                for page in search_results  

...                     for tweet in page["results"] ]  

>>>  

>>> def get_rt_sources(tweet):  

...     rt_patterns = re.compile(r"(RT|via)((?:\b\W*@\w+)+)", re.IGNORECASE)  

...     return [ source.strip()  

...              for tuple in rt_patterns.findall(tweet)  

...                  for source in tuple  

...                       if source not in ("RT", "via") ]  

...  

>>> for tweet in all_tweets:  

...     rt_sources = get_rt_sources(tweet["text"])  

...     if not rt_sources: continue  

...     for rt_source in rt_sources:  

...         g.add_edge(rt_source, tweet["from_user"], {"tweet_id" : tweet["id"]})  

...  

>>> g.number_of_nodes()  

160  

>>> g.number_of_edges()  

125  

>>> g.edges(data=True)[0]  

(u'@ericastolte', u'bonitasworld', {'tweet_id': 11965974697L})  

>>> len(nx.connected_components(g.to_undirected()))  

37  

>>> sorted(nx.degree(g))  

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,  

1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,  

1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,  

1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,  

1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,  

2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 5, 6, 6, 9, 37]

圖1－1，分佈圖表明了圖中結點的度數，揭露了圖的聯繫

NetworkX內置了非常有用的功能去開始分析twitter數據，但有一點很重要，我們要記住這裏分析的數據只很少的一部分關於SNL －－成千上萬中的500個tweets。從這個圖中我們知道，有160個人轉發過，但只有125條邊，160／125（約1.28）是一個很重要的線索，告訴我們點的平均度數接近1，意味着雖然一些結點與另外多個結點有聯繫，但平均是約一個聯繫一個結點。

調用connected_components顯示圖中包含了37個子圖，且不是完全連通的，輸出的度數可能起初看起來有點神祕，但是它實實在在的證明了我們獲得的一點：它能告訴我們圖的聯繫性怎麼樣，而不必去渲染出這個圖。在這個示例中，大部分的值是1，意味着大部分結點爲的度數是1，即僅與另外一個結點爲連接。一些值是在2到9之間，意味着與其他2到9個結點連接。特例是那個度數爲37的結點。圖中有沒有任何連接的結點，也有一個度數爲37的結點。圖1－1以直方圖來表明度數的分佈。這條趨勢線表明它近似冪律分佈(Power Law)，有一個很長的“尾巴”。雖然這個長尾的特性在本書中沒什麼用處，但我們會發現我們建立的很多圖中有這個特性，但是我強烈的建議你深入的去挖掘如果你有興趣的話。一個好的出發點是齊普夫定律（Zipf's Law).

在這本書中，我們將發更多的時間來用自動啓發式學習來分析數據。這章作爲介紹來激發你的頭腦，使得你來考慮用手邊簡單易行的辦法來挖掘數據。來結束這章之前，讓我們來可視化這個圖，以此確保我們的直覺將我們引向了正確的方向。

虛擬tweet圖

Graphviz是一個重要的工具在虛擬化社區。這一節介紹一個可行的方法來可視化tweet數據圖：把它們導出爲DOT語言，一個簡單的文本格式，能夠被Graphviz運用。Graphviz的二進制文件可以用於任意的平臺，在它的官網上可以下載，無論什麼平臺其安裝也是很方便的。當Graphviz被安裝後，*nix用戶就可以用easy_install pygraphviz來安裝其python接口，windows用戶安裝PyGraphviz很困難，這裏介紹一個簡單的方法生成DOT格式輸出。

示例1－12介紹了一個方法可用於任意平臺

[python]view
plaincopy

OUT = "snl_search_results.dot"  

try:  

     nx.drawing.write_dot(g, OUT)  

except ImportError, e:  

     # Help for Windows users:  

     # Not a general-purpose method, but representative of  

     # the same output write_dot would provide for this graph  

     # if installed and easy to implement  

     dot = ['"%s" -> "%s" [tweet_id=%s]' % (n1, n2, g[n1][n2]['tweet_id']) \  

         for n1, n2 in g.edges()]  

     f = open(OUT, 'w')  

     f.write('strict digraph {\n%s\n}' % (';\n'.join(dot),))  

     f.close()

DOT格式的輸出如示例1－13

示例1－13， DOT語言的輸出

[python]view
plaincopy

strict digraph {  

"@ericastolte" -> "bonitasworld" [tweet_id=11965974697];  

"@mpcoelho" -> "Lil_Amaral" [tweet_id=11965954427];  

"@BieberBelle123" -> "BELIEBE4EVER" [tweet_id=11966261062];  

"@BieberBelle123" -> "sabrina9451" [tweet_id=11966197327];  

}

有了DOT格式的輸出，下一步就將它轉換爲圖形了。Graphviz提供了各種佈局算法來虛擬化所導出的圖；circo, 一個工具能渲染圖爲圓形風格的佈局，適用於輻射狀的拓撲結圖，有一箇中心點與其它度數爲1的結點爲相連。*nix用戶，可以用下面的命令將snl_search_results.dot從NetworkX導出爲snl_search_results.dot.png，然後就可以用圖形查看器找開了。

[python]view
plaincopy

$ circo -Tpng -Osnl_search_results snl_search_results.dot  

Windows用戶可以用GVedit來渲染這個文本，如圖1－3.你可以讀到更多的選項關於Graphviz在線上文檔。圖的可視化證實了我們前面的分析，且度數最高的結點是@justinbieber，這個最多討論的話題。要明白一點的是，如果我們收集更多的tweets,我們將得到更多的內部相連的子圖。進一步的分析留給積極的讀者們了，這一章主要是準備好開發環境，並激發讀者們探索有趣話題的慾望。

Graphviz會出現在本書的其他章節，如果你認爲自己是一個數據分析科學家，它是一個你要掌握的工具。也就是說，我們也將用到其他可視化工具。接下來的章節，我們將涉及其它社交網絡數據及分析技術。

綜合：用Protovis來可視化轉發的tweets.

一個關鍵的示例腳本綜合了這一節的大部分內容，並且增加了一個可視化方法，這就是這一節要做的。另外輸出一些有用的信息到終端，它接受一個搜索關鍵字作爲參數，獲取，解析，並彈出瀏覽器來顯示可視化數據作爲一個可交互的基於html5的圖。可以從這本書的官方代碼中找到http://github.com/ptwobrussell/Mining-the-Social-Web/blob/master/python_code/introduction__retweet_visualization.py, 強烈建議你試一試。

我們將用再次提到Protovis －－這個示例中用到的可視化工具集，在這本書的後面幾章中。圖1－4是這個示例中Protovis的輸出，這只是一個開始，你可以用它做更多。

結束語

這一章是個開始，讓你認識到它是多麼容易用python的交互解釋器來挖掘和分析twitter的數據。在進入下一章之前，它是很重要的讓你感覺易於使用python的開發環境，並且強烈建議你熟悉twitter的API和Graphviz.如果你還想嘗試其它的，推薦canviz, 一個項目目的是將Graphviz的圖畫到瀏覽器中。你可能也想調查一個IPython,一個更好的python解釋器，提供tab補全，歷史追綜，以及其它更多功能。在這本書中許多的工作與可執行腳本有關，但是它是很重要的，你去多嘗試新主意，去調試等等。

圖1－2， Graphviz渲染的圖形佈局搜索結果

圖1－3，windows用戶用GVedit代替Graphviz

圖1－4，一個可交互的Protovis圖

第一章，介紹：挖掘twitter的數據

第一章，介紹：挖掘twitter的數據

01 穩定性（一）如何應對事故並做好覆盤？

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

Stream流常用方法總結

Ubuntu+Eclipse+Jboss+EJB3 搭建開發環境 and Ubuntu系統安裝安裝模擬器（Android SDK）的方法 and 安裝英漢詞典 and 中文輸入法

桌面圖標路徑 and 解壓WPS和啓動 and Oracle數據庫的System密碼、操作 and U盤變成只讀的解決辦法 and 編譯.java and 網易和搜狐的源地址

mysql生成sql語句 and 查看mysql歷史命令 and 查看mysql歷史命令 and 解壓命令 and 安裝WPS and 啓動Oracle服務

Oracle數據庫的各種授權

MyEclipse8.5自動提示功能的修改

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

第一章， 介紹：挖掘twitter的數據

第一章，介紹：挖掘twitter的數據