算法分析--统计大文本中字母的出现次数

原創

2020-06-24 16:59

春风如贵客，一到便繁华。各位看官点赞再看，养成好习惯(●´∀｀●)

gitee上已经开源 https://gitee.com/Li-Ren/blog 里面有一线大厂面试点脑图，欢迎Star和PR你认为重要的知识点。

前言：

在一台32核 64G内存的物理主机（RedHat7.4）上，存有2个大文件，每个文件大小约为1T，内容为英文单词组成的文档，现在需要统计每个英文大词在两个2文件中总共出现的次数，请描述你的实现方式。

分析：

如果你直接将两个大文件加载到内存中，如果是面试，或者日常工作中，这是很危险的。

没有直接分析问题，简单粗暴，为之后的工作埋线隐患。
遇事不知变通，缺乏学习能力。

下面说我个人的思路：

1T文件，64G内存，意味着该文件不能直接读到内存中。
我们可以采用分而治之的思想，将文件分片。
1T文件可以分成3000份，每份大小约300M。（这点也可以分成1000份，2000份）
单独统计每一份的文件中，每个英文单词出现的次数。
可以使用redis、或者变量、或者数据库保存每份文件的统计结果。
你以为这就算完事了吗？？？？
这是个io密集型场景，32核的cpu，注意并发和线程设置。
分片的时候可以采用二叉树排序查找，内存是够用的。

这个问题，只提供思路，各位可以有针对性的选择。仅供参考，如果你有更好的答案，请留言告诉我！

创作不易，各位的支持和认可，就是我创作的最大动力，

【转载请联系本人】如有问题，请联系我。欢迎斧正！不胜感激！

求点赞👍 求关注❤️ 求分享👥 求留言📪

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

分布式系统各个节点状态如何同步？浅谈一下

寫在前面：2020年面試必備的Java後端進階面試題總結了一份複習指南在Github上，內容詳細，圖文並茂，有需要學習的朋友可以Star一下！ GitHub地址：https://github.com/abel-max/Java-S

毛发旺盛的程序员

2020-07-08 12:27:30

阿里年薪破百架构师推荐：鸟哥的Linux私房菜，搭配面试题，真香

在Linux實操的過程中，你是否有過這些疑問：如何提取日誌中含有關鍵字的指定行，上一行或上幾行？ ln 做了符號鏈接，對符號鏈接進行權限修改，原文件是否會受到影響？ Shell 腳本里有很多特殊符號，到底該怎麼用？網上流傳的

毛发旺盛的程序员

2020-07-08 12:27:30

ZooKeeper 一致性协议 ZAB 原理，了解一下

一致性協議有很多種，比如 Paxos，Raft，2PC，3PC等等，在這講一種協議，ZAB 協議，該協議應該是所有一致性協議中生產環境中應用最多的了。爲什麼？因爲它是爲 Zookeeper 設計的分佈式一致性協議！ 1. 什麼是

毛发旺盛的程序员

2020-07-08 12:27:20

Spring中Transactional 失效的解决方案，让我们一起探讨一下

寫在前面：2020年面試必備的Java後端進階面試題總結了一份複習指南在Github上，內容詳細，圖文並茂，有需要學習的朋友可以Star一下！ GitHub地址：https://github.com/abel-max/Java-S

毛发旺盛的程序员

2020-07-08 12:27:20

太狠了,Spring全家桶笔记,一站式通关全攻略,已入职某厂涨薪18K

Spring 早已成爲 Java 後端開發事實上的行業標準，無數的公司選擇 Spring 作爲基礎的開發框架，大部分Java 後端程序員在日常工作中也會接觸到 Spring ，因此，如何用好 Spring ，也就成爲 Java

毛发旺盛的程序员

2020-07-08 12:27:20

面试准备季——MyBatis 面试专题（含答案）

寫在前面：2020年面試必備的Java後端進階面試題總結了一份複習指南在Github上，內容詳細，圖文並茂，有需要學習的朋友可以Star一下！ GitHub地址：https://github.com/abel-max/Java-S

毛发旺盛的程序员

2020-07-08 12:27:20

【JAVA】 try catch finally 中包含return的几种情况，及返回结果

第一種情況：在try和catch中有return，finally中沒有return，且finally中沒有對try或catch中要 return。這種情況，無論如何finally中的代碼塊都會執行，然後再執行try或者finall

2020-07-08 12:23:53

剑指Offer_编程题_二叉搜索树的后序遍历序列

題目描述輸入一個整數數組，判斷該數組是不是某二叉搜索樹的後序遍歷的結果。如果是則輸出Yes,否則輸出No。假設輸入的數組的任意兩個數字都互不相同。補充：二叉查找樹（Binary Search Tree）又：二叉搜索樹，二叉排序樹，它

2020-07-08 11:43:28

剑指Offer_编程题_树的子结构

題目描述輸入兩棵二叉樹A，B，判斷B是不是A的子結構。（ps：我們約定空樹不是任意一個樹的子結構）思路：將B與A，A的左子樹，A的右子樹分別進行判斷，如果元素不相等返回 false ,運用遞歸直到A子樹爲空此時返回 false /*

2020-07-08 11:43:28

java的二分查找源码分析

前言：之前用到二分查找的時候，都是自己手寫一個，雖然並不難，但是有的時候會忽略邊界條件，然後時間久了還會忘記，然後今天發現，Java其實已經實現了數組的二分查找，這裏就分析一下它的源碼 1:該方法在 Arrays.j

2020-07-08 11:07:50

android程序退出方案

在Android中退出程序比較麻煩，尤其是在多個Activity的程序中，在2.2之前可以採用如下代碼退出程序： Java代碼 ActivityManager am = (ActivityManager)getSystemS

2020-07-08 11:03:08

啥时候用interface，啥时候用abstract类？就一句话

有初學者問interface和abstract類該怎樣選擇的問題，不扯麪試題那些，其實就一句話：定義爲abstract類，就是爲了定義較多的已實現方法好讓人繼承；繼承者就不用寫這麼多的實現了，可以直接拿來用；定義爲interfa

2020-07-08 10:35:56

#idea#一个Java工程频繁被idea修改jdk版本问题

困擾。。。發現創建maven工程師pom.xml文件中編譯版本寫爲1.7了，修改後再沒出現。 <properties> <project.build.sourceEncoding>UTF-8</project.build.sou

2020-07-08 10:28:41

Head First Servlet/JSP 学习笔记(1)

一次在逛書店的時候，偶然發現這本書的，爲之驚豔，所以買了回來給學生看。過了幾個月，自己閒下來，也準備系統看看，雖然做了兩個Struts, Spring, Hibernate的項目，覺得知識還不是很系統。 1. servlet沒有

2020-07-08 09:39:41

【MAVEN】编译报错Perhaps you are running on a JRE rather than a JDK?

問題：mvn -e clean package 報錯log： [ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1:co

2020-07-08 09:18:10

24小時熱門文章

最新文章

最新評論文章