百度(數(shù)據(jù)挖掘工程師)筆試題目
導語:yjbys小編整理了百度(數(shù)據(jù)挖掘工程師)筆試題目,歡迎閱讀!
一. 簡答題
1. new 和 malloc 的區(qū)別。
2. hash沖突是指什么?怎么解決?給兩種方法,寫出過程和優(yōu)缺點。
3. 命中的概率是 0.25,若要至少命中一次的概率不小于 0.75,則至少需要幾次?
二. 算法設計題
1. 用C/C++寫一個歸并排序。
數(shù)據(jù)結構為struct Node{int v; Node *next};
接口為 Node * merge_sort(Node *);
2. 設計S型層次遍歷樹的`算法,比如根節(jié)點是第一層,第二層從左至右遍歷,第三層從右至左遍歷,第四層再從左至右遍歷,以此類推。
舉例:應依次輸出 1 2 3 6 5 4 7 8 9。
3. 一個url文件,每行是一個url地址,可能有重復。
(1)統(tǒng)計每個url的頻次,設計函數(shù)實現(xiàn)實現(xiàn)。
(2)設有10億url,平均長度是20,現(xiàn)在機器有8G內(nèi)存,怎么處理,寫出思路。
三. 系統(tǒng)設計題
自然語言處理中的中文分詞問題,前向最大匹配算法(FMM)。
注:題目舉例說明了FMM的基本思想。
(1)設計字典的數(shù)據(jù)結構 struct dictnote。
(2)用C/C++實現(xiàn)FMM,可選接口為
int FMM(vectoriLetters, dictnode *iRoot, vector*oResults);
其中 iLetters 為待分詞的句子,比如 {“小”,“明”,“今”,“天”,“買”,“了”,“i”,“p”,“o”,“n”,“e”,“6”},
iRoot 是字典, oResults 保存輸出結果,即分詞的位置。也可以自己設計接口。
(3)收集了一些手機品牌的字典,如{iphone, 諾基亞}。
現(xiàn)在要求查找包含這些手機品牌的網(wǎng)頁,比如包含 iphone6, 諾基亞 9973 等。
怎么修改FMM實現(xiàn)這個功能,可以寫偽代碼。
【百度(數(shù)據(jù)挖掘工程師)筆試題目】相關文章:
百度JavaScript筆試題目01-14
2017百度校園招聘筆試題目02-12
百度運營類面試筆試題目分享03-03
2015百度校招產(chǎn)品經(jīng)理筆試題目08-19
筆試百度的前端工程師經(jīng)歷02-24
質量工程師筆試題目04-17