一站式社交平臺(tái)數(shù)據(jù)抓取利器MediaCrawler
當(dāng)前位置:點(diǎn)晴教程→知識(shí)管理交流
→『 技術(shù)文檔交流 』
前言一站式社交平臺(tái)數(shù)據(jù)抓取利器,帶你玩轉(zhuǎn)小紅書、抖音、快手、B站和微博數(shù)據(jù)分析 不經(jīng)意間,來(lái)查看MediaCrawler倉(cāng)庫(kù)源碼,發(fā)現(xiàn)作者已經(jīng)刪庫(kù)了。看來(lái)是領(lǐng)獎(jiǎng)了。才幾天不到的時(shí)間Star數(shù)量已經(jīng)直逼10K了,增長(zhǎng)速度近乎瘋狂。 作者在這里也明顯進(jìn)行了標(biāo)注使用了無(wú)頭瀏覽器 那到底什么事無(wú)頭瀏覽器呢?無(wú)頭瀏覽器(Headless Browser)是一種瀏覽器程序,沒(méi)有圖形用戶界面(GUI),但能夠執(zhí)行與普通瀏覽器相似的功能。無(wú)頭瀏覽器能夠加載和解析網(wǎng)頁(yè),執(zhí)行JavaScript代碼,處理網(wǎng)頁(yè)事件,并提供對(duì)DOM(文檔對(duì)象模型)的訪問(wèn)和操作能力。
無(wú)頭瀏覽器其實(shí)就是看不見(jiàn)的瀏覽器,所有的操作都要通過(guò)代碼調(diào)用 API 來(lái)控制,所以瀏覽器能干的事兒,無(wú)頭瀏覽器都能干,而且很多事兒做起來(lái)比標(biāo)準(zhǔn)的瀏覽器更簡(jiǎn)單。 能夠干什么呢?我舉幾個(gè)常用的功能來(lái)說(shuō)明一下無(wú)頭瀏覽器的主要使用場(chǎng)景
這個(gè)倉(cāng)庫(kù)如何使用呢首先這是一個(gè)Python庫(kù),當(dāng)然要安裝必要的Python環(huán)境,這個(gè)我就不多說(shuō)了,通過(guò)GPT或者在網(wǎng)上搜索都可以進(jìn)行安裝好。 最后運(yùn)行命令后,會(huì)出現(xiàn)一個(gè)二維碼,比如這里我測(cè)試的是小紅書,出現(xiàn)二維碼之后,我們用小紅書App來(lái)掃描,并進(jìn)行確認(rèn)身份,這樣無(wú)頭瀏覽器就能識(shí)別并記住我們的身份信息,后續(xù)就可以通過(guò)該身份進(jìn)行抓取一些數(shù)據(jù)了。
好了,OK ,數(shù)據(jù)就被這么簡(jiǎn)單的抓取下來(lái)了。
轉(zhuǎn)自博客園,作者aehyok https://www.cnblogs.com/aehyok/p/18086730 該文章在 2024/3/27 17:48:43 編輯過(guò) |
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |