mlaikoume's profile picture. 機械学習エンジニア🔥

Koo

@mlaikoume

機械学習エンジニア🔥

これは面白い展開かもしれない

Huge! @TianhongLi6 & Kaiming He (inventor of ResNet) just Introduced JiT (Just image Transformers)! JiTs are simple large-patch Transformers that operate on raw pixels, no tokenizer, pre-training, or extra losses needed. By predicting clean data on the natural-data manifold,…

jiqizhixin's tweet image. Huge! @TianhongLi6 & Kaiming He (inventor of ResNet) just Introduced JiT (Just image Transformers)!

JiTs are simple large-patch Transformers that operate on raw pixels, no tokenizer, pre-training, or extra losses needed. 

By predicting clean data on the natural-data manifold,…


久々に技術記事を書きました。今年は Consistency Models について勉強しています。 zenn.dev/umeko/articles…


Open-Sora-Planの論文なのね

OD-VAE An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model paper page: huggingface.co/papers/2409.01… Variational Autoencoder (VAE), compressing videos into latent representations, is a crucial preceding component of Latent Video Diffusion Models (LVDMs).…

_akhaliq's tweet image. OD-VAE

An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model

paper page: huggingface.co/papers/2409.01…

Variational Autoencoder (VAE), compressing videos into latent representations, is a crucial preceding component of Latent Video Diffusion Models (LVDMs).…


自分も時代の流れに乗るべきか??(まだpoetry使い) github.com/astral-sh/uv


CVPRお祭り感あって楽しそう 来年行こうかな


画像でやられてることは結構なスピードで他ドメインに展開されていきますね dai-wenxun.github.io/MotionLCM-page/


モーション生成界隈だとHumanmML3D とKITの2つのデータセットでベンチマークをとることが多いんですが、論文手法の R-Precision がリアルデータのスコアを超え始めててベンチマークとしてあんまり健全じゃない気がする h-y1heng.github.io/StableMoFusion…

mlaikoume's tweet image. モーション生成界隈だとHumanmML3D とKITの2つのデータセットでベンチマークをとることが多いんですが、論文手法の R-Precision がリアルデータのスコアを超え始めててベンチマークとしてあんまり健全じゃない気がする
h-y1heng.github.io/StableMoFusion…

Loading...

Something went wrong.


Something went wrong.