當(dāng)前位置：高考升學(xué)網(wǎng) > 筆試面試 > 正文

百度筆經(jīng)分享(二)

更新：2023-09-19 15:45:12 高考升學(xué)網(wǎng)

　　算法:

　　1.在字典中查找單詞

　　字典采用27叉樹組織,每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)字母,查找就是一個(gè)字母

　　一個(gè)字母匹配.算法時(shí)間就是單詞的長度k.

　　2.糾錯(cuò)算法

　　情況:當(dāng)輸入的最后一個(gè)字母不能匹配時(shí)就提示出錯(cuò),簡化出錯(cuò)處理，動(dòng)態(tài)提示可能處理方法:

　　(a)當(dāng)前字母前缺少了一個(gè)字母：搜索樹上兩層到當(dāng)前的匹配作為建議;

　　(b)當(dāng)前字母拼寫錯(cuò)誤：當(dāng)前字母的鍵盤相鄰作為提示;(只是簡單的描述，可以有更多的)

　　根據(jù)分析字典特征和用戶單詞已輸入部分選擇(a),(b)處理

　　復(fù)雜性分析：影響算法的效率主要是字典的實(shí)現(xiàn)與糾錯(cuò)處理

　　(a)字典的實(shí)現(xiàn)已有成熟的算法，改進(jìn)不大，也不會(huì)成為瓶頸;

　　(b)糾錯(cuò)策略要簡單有效 ,如前述情況，是線性復(fù)雜度;

　　(3)改進(jìn)

　　策略選擇最是重要，可以采用統(tǒng)計(jì)學(xué)習(xí)的方法改進(jìn)。

　　//////////////////////////////////////////////

　　4 題

　　(1)思路：用哈希做

　　(2) 首先逐次讀入查詢串，算哈希值，保存在內(nèi)存數(shù)組中，同時(shí)統(tǒng)計(jì)頻度(注意值與日志項(xiàng)對(duì)應(yīng)關(guān)系) my.chinahrlab.com 選出前十的頻度，取出對(duì)應(yīng)的日志串，簡單不過了。哈希的設(shè)計(jì)是關(guān)鍵。

　　//////////////////////////////////////////////////

　　5 題

　　(1)思路：先將集合按照大小排列后,優(yōu)先考慮小的集合是否與大的集合有交集。有就合并，如果小集合與所有其他集合都沒有交集，則獨(dú)立。獨(dú)立的集合在下一輪的比較中不用考慮。這樣就可以盡量減少字符串的比較次數(shù)。當(dāng)所有集合都獨(dú)立的時(shí)候，就終止。

　　(2)處理流程：

　　1.將集合按照大小排序，組成集合合并待處理列表

　　2.選擇最小的集合，找出與之有交集的集合，如果有，合并之;如果無，則與其它集合是獨(dú)立集合，從待處理列表中刪除。

　　3.重復(fù)直到待處理列表為空

　　算法：1。將集合按照大小從小到大排序,組成待處理的集合列表。 2。取出待處理集合列表中最小的集合，對(duì)于集合的每個(gè)元素，依次在其他集合中搜索是否有此元素存在：

　　1>若存在，則將此小集合與大集合合并，并根據(jù)大小插入對(duì)應(yīng)的位置。轉(zhuǎn)3。

　　2>若不存在，則在該集合中取下一個(gè)元素。如果無下一個(gè)元素，即所有元素都不存在于其他集合。則表明此集合獨(dú)立，從待處理集合列表中刪除。并加入結(jié)果集合列表。轉(zhuǎn)3。

　　3。如果待處理集合列表不為空，轉(zhuǎn)2。

　　如果待處理集合列表為空，成功退出，則結(jié)果集合列表就是最終的輸出。

　　算法復(fù)雜度分析：

　　假設(shè)集合的個(gè)數(shù)為n，最大的集合元素為m 排序的時(shí)間復(fù)雜度可以達(dá)到nlog(n) 然后對(duì)于元素在其他集合中查找，最壞情況下為(n-1)m 查找一個(gè)集合是否與其他集合有交集的最壞情況是mm(n-1) 合并的時(shí)間復(fù)雜度不會(huì)超過查找集合有交集的最壞情況。所以最終最壞時(shí)間復(fù)雜度為O(mmnn)

　　需要說明的是：此算法的平均時(shí)間復(fù)雜度會(huì)很低，因?yàn)闊o論是查找還是合并，都是處于最壞情況的概率很小，而且排序后優(yōu)先用最小集合作為判斷是否獨(dú)立的對(duì)象，優(yōu)先與最大的集合進(jìn)行比較，這些都最大的回避了最壞情況。

　　(3)可能的改進(jìn)：

　　首先可以實(shí)現(xiàn)將每個(gè)集合里面的字符串按照字典序進(jìn)行排列，這樣就可以將查找以及合并的效率增高。另外，可能采取恰當(dāng)?shù)臄?shù)據(jù)結(jié)構(gòu)也可以將查找以及合并等操作的效率得到提高。

　　、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、

　　1)此題10分

　　對(duì)任意輸入的正整數(shù)N，編寫C程序求N!的尾部連續(xù)0的個(gè)數(shù)，并指出計(jì)算復(fù)雜度。如：18!=6402373705728000，尾部連續(xù)0的個(gè)數(shù)是3。　　(不用考慮數(shù)值超出計(jì)算機(jī)整數(shù)界限的問題)

　　2)此題10分　　編寫一個(gè)C語言函數(shù)，要求輸入一個(gè)url，輸出該url是首頁、目錄頁或者其他url

　　如下形式叫做首頁：

　　militia.info/

　　www.apcnc.com.cn/

　　http://www.cyjzs.comwww.greena888.com/

　　www.800cool.net/

　　http://hgh-products.my-age.net/

　　如下形式叫做目錄頁：

　　thursdaythree.net/greenhouses--gas-global-green-house-warming/

　　http://www.mw.net.tw/user/tgk5ar1r/profile/

　　http://www.szeasy.com/food/yszt/chunjie/

　　www.fuckingjapanese.com/Reality/

　　請(qǐng)注意：

　　a) url有可能帶http頭也有可能不帶

　　b)動(dòng)態(tài)url(即含有"?"的url)的一律不算目錄頁，如：

　　www.buddhismcity.net/utility/mailit.php?l=/activity/details/3135/

　　www.buddhismcity.net/utility/mailit.php?l=/activity/details/2449/

　　另：如果你會(huì)linux，請(qǐng)用linux下的grep命令實(shí)現(xiàn)第2題的功能(附加5分)。

　　3)此題40分

　　如果必須從網(wǎng)頁中區(qū)分出一部分"重要網(wǎng)頁"(例如在10億中選8億)，比其他網(wǎng)頁更值得展現(xiàn)給用戶，請(qǐng)?zhí)岢鲆环N方案。

　　4)此題40分

　　假設(shè)有10億網(wǎng)頁已經(jīng)被我們存下來，并提供如下信息：網(wǎng)頁全文(即網(wǎng)頁的源碼)、全文長度、網(wǎng)頁正文(即網(wǎng)頁中提取的主體文字)、正文長度，以及其他網(wǎng)頁提取物等，現(xiàn)在希望去掉其中的重復(fù)網(wǎng)頁，請(qǐng)?zhí)岢隹尚械姆桨�，�?jì)算出每個(gè)網(wǎng)頁對(duì)應(yīng)的重復(fù)度，你可以自己對(duì)網(wǎng)頁重復(fù)下定義，也可以提出需要哪些更多的網(wǎng)頁提取物來實(shí)現(xiàn)更好的去重復(fù)方案。閱讀此文的讀者還閱讀了：
建設(shè)銀行全程筆試經(jīng)驗(yàn)
北電筆試經(jīng)驗(yàn)程序筆試
愛立信機(jī)考筆試經(jīng)驗(yàn)