LivePortrait:一種讓照片動(dòng)起來(lái)的開(kāi)源技術(shù)方案
當(dāng)前位置:點(diǎn)晴教程→知識(shí)管理交流
→『 技術(shù)文檔交流 』
:LivePortrait:一種讓照片動(dòng)起來(lái)的開(kāi)源技術(shù)方案 LivePortrait:一種讓照片動(dòng)起來(lái)的開(kāi)源技術(shù)方案LivePortrait 是能讓照片動(dòng)起來(lái)的開(kāi)源技術(shù)方案。需提供“誰(shuí)動(dòng)”和“如何動(dòng)”的素材,試用網(wǎng)址用于研究學(xué)習(xí)。它高效且可控,論文有原理介紹。技術(shù)人員可參考官方文檔搭建,包括創(chuàng)建新環(huán)境、下載源碼和準(zhǔn)備運(yùn)行環(huán)境等,還需下載模型權(quán)重,最后執(zhí)行命令生成結(jié)果,更多內(nèi)容見(jiàn)官方說(shuō)明。 關(guān)聯(lián)問(wèn)題:LivePortrait要付費(fèi)嗎模型權(quán)重在哪下載自己搭建難不難有一款開(kāi)源項(xiàng)目,它主要功能就是讓靜態(tài)照片動(dòng)起來(lái)。 你只需要提供兩個(gè)素材,第一個(gè)素材是讓誰(shuí)動(dòng)。就比如下面的這個(gè)兵馬俑。 第二個(gè)素材是如何動(dòng),就比如下面這個(gè)視頻。 然后,將這倆數(shù)據(jù)交給開(kāi)源項(xiàng)目處理,最終就得出如下結(jié)果。 不但對(duì)一個(gè)人有效,多個(gè)人也可以了。 不但對(duì)人類有效,萌寵動(dòng)物或者二次元也行。 試用網(wǎng)址是:huggingface.co/spaces/Kwai… 這個(gè)網(wǎng)址是研究和學(xué)習(xí)用的。 只需要上傳那兩個(gè)素材,然后點(diǎn)擊確定。 就可以獲得一個(gè)會(huì)動(dòng)的視頻。 好了。上面這些操作,其實(shí)就可以賣錢了。 有很多人利用信息差,白嫖這項(xiàng)開(kāi)源技術(shù)。用上面的網(wǎng)址,制作一些親人照片懷念視頻、萌寵搞怪視頻進(jìn)行售賣。你得開(kāi)個(gè)會(huì)員,或者花上九塊九才能使用一次。 下面部分內(nèi)容是給技術(shù)人員看的。如果你對(duì)此感興趣,想進(jìn)一步了解其中的原理,可以繼續(xù)閱讀。 這項(xiàng)開(kāi)源框架叫LivePortrait,它是具有拼接和重定向控制的高效肖像動(dòng)畫。它的論文概要內(nèi)容如下: 肖像動(dòng)畫旨在從單一源圖像合成逼真的視頻,將其用作外觀參考。我們沒(méi)有遵循主流的基于擴(kuò)散的方法,而是探索和擴(kuò)展了基于隱式關(guān)鍵點(diǎn)的框架的潛力,從而有效地平衡了計(jì)算效率和可控性。為了提高生成質(zhì)量和泛化能力,我們將訓(xùn)練數(shù)據(jù)擴(kuò)展到大約6900萬(wàn)個(gè)高質(zhì)量幀,采用混合圖像-視頻訓(xùn)練策略,升級(jí)網(wǎng)絡(luò)架構(gòu),并設(shè)計(jì)更好的運(yùn)動(dòng)轉(zhuǎn)換和優(yōu)化目標(biāo)。此外,我們發(fā)現(xiàn)緊湊的隱式關(guān)鍵點(diǎn)可以有效地表示一種混合形狀,并精心提出了一個(gè)拼接和兩個(gè)重新定位模塊,它們利用一個(gè)計(jì)算開(kāi)銷可忽略不計(jì)的小型MLP來(lái)增強(qiáng)可控性。實(shí)驗(yàn)結(jié)果表明,與基于擴(kuò)散的方法相比,我們的框架是有效的。在RTX 4090 GPU上使用 PyTorch的生成速度顯著達(dá)到12.8毫秒。推理代碼和模型可在 github.com/KwaiVGI/Liv… 獲得。 技術(shù)人員如何自己搭建呢? 對(duì)于技術(shù)人員,最直觀的方式就是去官方的ReadMe.md文檔查看 github.com/KwaiVGI/Liv… 這里面不但有入門操作,項(xiàng)目源碼,還有版本更新說(shuō)明。 比如在7月19日,框架開(kāi)始支持視頻編輯,又名v2v。照片到視頻是p2v,即picture to video。v2v就是視頻到視頻。 圖片到視頻是讓靜態(tài)圖片動(dòng)起來(lái),感覺(jué)很有用。 但是視頻到視頻有什么用呢? 舉個(gè)例子,比如有個(gè)美女跳舞,她走的是冷酷風(fēng)。但是老板想讓她走嘻哈風(fēng),但是美女就是不從。這時(shí)就可以找個(gè)愛(ài)笑的女孩子,通過(guò)v2v讓不愛(ài)笑的美女笑起來(lái)。 其實(shí),你們網(wǎng)上看得那些武松和潘金蓮、孫悟空和白骨精的改編版,估計(jì)用的也是v2v這項(xiàng)技術(shù)。 好了,下面就說(shuō)說(shuō)如何搭建和使用。7月25日,官方發(fā)布了安裝包,可以通過(guò)下載安裝包直接使用。甚至連搭建都不用了。解壓即可使用。 兩個(gè)下載地址如下: 如果,你還有執(zhí)念,就是想自己搭建,并且融于到自己的產(chǎn)品中。那么繼續(xù)往下看。 我們用conda管理環(huán)境,首先要準(zhǔn)備一個(gè)新環(huán)境。相當(dāng)于給項(xiàng)目批了一塊地。 ini代碼解讀復(fù)制代碼 然后,將源碼下載下來(lái),存放到一個(gè)位置。并且進(jìn)入文件目錄。 bash代碼解讀復(fù)制代碼 下載源碼,可以用git形式。也可以直接下載zip文件。 第三步,準(zhǔn)備運(yùn)行支持環(huán)境。上面新建了一個(gè)環(huán)境,批了一塊地。現(xiàn)在要進(jìn)行裝修和水電網(wǎng)的鋪設(shè)。安裝采用pip。 bash代碼解讀復(fù)制代碼 requirements.txt里面是: ini代碼解讀復(fù)制代碼 requirements_macOS.txt里面是: ini代碼解讀復(fù)制代碼 他們都有requirements_base.txt,然后區(qū)分了一些系統(tǒng)特性。 我們看requirements_base.txt里面是這樣: ini代碼解讀復(fù)制代碼 很明顯,它是需要GPU的。就算是你下載上面那個(gè)windows版本的壓縮包,也需要你電腦具有GPU。 準(zhǔn)備完環(huán)境就具備了運(yùn)行資格。下一步是下載模型權(quán)重。不用你訓(xùn)練,只需要你下載人家訓(xùn)練好的模型,放到你電腦中使用即可。 官方的給出的方式比較國(guó)際化: bash代碼解讀復(fù)制代碼 其實(shí),在實(shí)際操作中,一般很難執(zhí)行。最好還是去用瀏覽器下載,然后放到文件目錄中。 以下是百度云下載地址: 下載完了,讓文件解壓并將它們放在./pretrained_weights。其實(shí)這一步和上面命令行執(zhí)行的步驟一樣。哪一個(gè)能走通,更好實(shí)現(xiàn),就走哪一步。 但是,不管怎樣,你要確保最終存放模型的文件夾里是這樣的結(jié)構(gòu): markdown代碼解讀復(fù)制代碼 最后一步啦,最后一步!開(kāi)始享受使用過(guò)程!準(zhǔn)備好兩類素材,一個(gè)讓什么動(dòng),一般是圖片(假設(shè)名字叫p.jpg)。另一個(gè)如何動(dòng),一般是視頻(假設(shè)名字叫v.mp4)。然后在環(huán)境中,在項(xiàng)目目錄下,執(zhí)行以下命令: css代碼解讀復(fù)制代碼 此時(shí)會(huì)在animations文件夾下生成結(jié)果。 如果你一時(shí)間找不到素材,也可以使用項(xiàng)目里提供的素材。位置在 assets/examples/下。里面有圖片也有視頻。 如果想要操作視頻到視頻,命令如下: 代碼解讀復(fù)制代碼 關(guān)于更多的內(nèi)容,開(kāi)發(fā)者可以去看官方說(shuō)明,里面講解的很詳細(xì) 該文章在 2024/11/30 11:01:32 編輯過(guò) |
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |