删除数据库中的重复记录(仅删除重复的)

背景:

今天在用crawler爬数据的时候,第一次爬的时候被我意外中止了,后来又重新开始,但却忘了清除一些垃圾数据,导致在wordlocation 表中产生了不少重复的记录。

wordlocation 表的定义如下 wordlocation(urlid, wordid, location),其中(urlid, wordid) 应该是唯一的。

要求:

从wordlocation 表中删除多余的重复数据

方案:

创建一个结构一模一样的表wl_new,然后执行下面的语句

    INSERT INTO wl_new SELECT * FROM wordlocation GROUP BY urlid, wordid

最后的GROUP BY 保证了(urlid, wordid)的唯一性

然后再删除wordlocation表中的所有数据,把wl_new的所有数据插入到wordlocation,最后删除wl_new即可     

发布了223 篇原创文章 · 获赞 19 · 访问量 27万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章