Home | Research | Groups | Björn Ommer

Research Group Björn Ommer

Link to website at LMU

Björn Ommer

Prof. Dr.

Core PI

Computer Vision & Learning

Björn Ommer

heads the Computer Vision & Learning Group at LMU Munich.

His research interests include all aspects of semantic image and video understanding based on (deep) machine learning. His special focus is on generative approaches for visual synthesis (e.g. Stable Diffusion), invertible deep models for explainable AI, deep metric and representation learning, and self-supervised learning paradigms and their interdisciplinary applications in the digital humanities and neurosciences.

Team members @MCML

PostDocs

Link to website

Vincent Tao Hu

Dr.

→ Group Björn Ommer
Computer Vision & Learning

PhD Students

Link to website

Stefan Baumann

→ Group Björn Ommer
Computer Vision & Learning

Link to website

Olga Grebenkova

→ Group Björn Ommer
Computer Vision & Learning

Link to website

Felix Krause

→ Group Björn Ommer
Computer Vision & Learning

Link to website

Pingchuan Ma

→ Group Björn Ommer
Computer Vision & Learning

Link to website

Johannes Schusterbauer

→ Group Björn Ommer
Computer Vision & Learning

Link to website

Jannik Wiese

→ Group Björn Ommer
Computer Vision & Learning

Recent News @MCML

Link to Björn Ommer Speaks at DLD Munich 2026

27.01.2026

Björn Ommer Speaks at DLD Munich 2026

It’s Gonna Be Wild: When AI Moves Faster Than Society

Learn more

Link to High-Res Images, Less Wait: A Simple Flow for Image Generation

08.01.2026

High-Res Images, Less Wait: A Simple Flow for Image Generation

MCML Research Insight - With Johannes Schusterbauer, Pingchuan Ma, Vincent Tao Hu, and Björn Ommer

Learn more

Link to MCML Researchers in Highly-Ranked Journals

02.01.2026

MCML Researchers in Highly-Ranked Journals

42 Papers in 2026 Highlight Scientific Impact

Learn more

Link to Björn Ommer Guest on ZDF’s Terra X

08.12.2025

Björn Ommer Guest on ZDF’s Terra X

Image-Generative AI and Visual Understanding

Learn more

Show all news of this group

Publications @MCML

2026

[36]

M. Gui • J. Schusterbauer • T. Phan • F. Krause • J. Susskind • M. A. Bautista • B. Ommer
Adapting Self-Supervised Representations as a Latent Space for Efficient Generation.
ICLR 2026 - 14th International Conference on Learning Representations. Rio de Janeiro, Brazil, Apr 23-27, 2026. To be published. Preprint available. arXiv

[35]

R.-A. Matişan • V. T. Hu • G. Bartosh • B. Ommer • C. G. M. Snoek • M. Welling • J.-W. van de Meent • M. M. Derakhshani • F. Eijkelboom
Purrception: Variational Flow Matching for Vector-Quantized Image Generation.
ICLR 2026 - 14th International Conference on Learning Representations. Rio de Janeiro, Brazil, Apr 23-27, 2026. To be published. Preprint available. arXiv

[34]

M. Fuest • P. Ma • M. Gui • J. Schusterbauer • V. T. Hu • B. Ommer
Diffusion Models and Representation Learning: A Survey.
IEEE Transactions on Pattern Analysis and Machine Intelligence Early Access. Jan. 2026. DOI GitHub

[33]

F. Krause • S. A. Baumann • J. Schusterbauer • O. Grebenkova • M. Gui • V. T. Hu • B. Ommer
Guiding Token-Sparse Diffusion Models.
Preprint (Jan. 2026). arXiv

2025

[32]

T. Ressler-Antal • F. Fundel • M. B. Alaya • S. A. Baumann • F. Krause • M. Gui • B. Ommer
DisMo: Disentangled Motion Representations for Open-World Motion Transfer.
NeurIPS 2025 - 39th Conference on Neural Information Processing Systems. San Diego, CA, USA, Nov 30-Dec 07, 2025. Spotlight Presentation. To be published. Preprint available. URL

[31]

S. A. Baumann • N. Stracke • T. Phan • B. Ommer
What If: Understanding Motion Through Sparse Interactions.
ICCV 2025 - IEEE/CVF International Conference on Computer Vision. Honolulu, Hawai’i, Oct 19-23, 2025. To be published. Preprint available. URL

[30]

F. Krause • T. Phan • M. Gui • S. A. Baumann • V. T. Hu • B. Ommer
TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training.
ICCV 2025 - IEEE/CVF International Conference on Computer Vision. Honolulu, Hawai’i, Oct 19-23, 2025. To be published. Preprint available. arXiv

[29]

P. Ma • M. Gui • J. Schusterbauer • X. Yang • O. Grebenkova • V. T. Hu • B. Ommer
Stochastic Interpolants for Revealing Stylistic Flows across the History of Art.
ICCV 2025 - IEEE/CVF International Conference on Computer Vision. Honolulu, Hawai’i, Oct 19-23, 2025. To be published. Preprint available. URL GitHub

[28]

P. Ma • X. Yang • Y. Li • M. Gui • F. Krause • J. Schusterbauer • B. Ommer
SCFlow: Implicitly Learning Style and Content Disentanglement with Flow Models.
ICCV 2025 - IEEE/CVF International Conference on Computer Vision. Honolulu, Hawai’i, Oct 19-23, 2025. To be published. Preprint available. URL

[27]

Y. Li • R. Buchert • B. Schmitz-Koep • T. Grimmer • B. Ommer • D. M. Hedderich • I. Yakushev • C. Wachinger
Diffusion Bridge Networks Simulate Clinical-grade PET from MRI for Dementia Diagnostics.
Preprint (Oct. 2025). arXiv GitHub

[26]

C. Brandl • A.-K. Nitschke • F. Egersdoerfer • B. Ommer • M. Weidemüller
A Personalized and Evidence-Based Clinical Decision Support System Using Ensemble Learning.
EMBC 2025 - 47th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. Copenhagen, Denmark, Jul 14-18, 2025. DOI

[25]

Y. Qu • Q. Wang • Y. Mao • V. T. Hu • B. Ommer • X. Ji
Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models?
Preprint (Jul. 2025). arXiv

[24]

S. A. Baumann • F. Krause • M. Neumayr • N. Stracke • M. Sevi • V. T. Hu • B. Ommer
Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions.
CVPR 2025 - IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, TN, USA, Jun 11-15, 2025. DOI GitHub

[23]

J. Schusterbauer • M. Gui • F. Fundel • B. Ommer
Diff2Flow: Training Flow Matching Models via Diffusion Model Alignment.
CVPR 2025 - IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, TN, USA, Jun 11-15, 2025. DOI

[22]

N. Stracke • S. A. Baumann • K. Bauer • F. Fundel • B. Ommer
CleanDIFT: Diffusion Features without Noise.
CVPR 2025 - IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, TN, USA, Jun 11-15, 2025. DOI

[21]

Y. Yeganeh • A. Farshad • I. Charisiadis • M. Hasny • M. Hartenberger • B. Ommer • N. Navab • E. Adeli
Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis.
CVPR 2025 - IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, TN, USA, Jun 11-15, 2025. Highlight Paper. DOI

[20]

A. Aghdam • V. T. Hu • B. Ommer
ActAlign: Zero-Shot Fine-Grained Video Classification via Language-Guided Sequence Alignment.
Preprint (Jun. 2025). arXiv

[19]

E. Abdelrahman • L. Zhao • V. T. Hu • M. Cord • P. Perez • M. Elhoseiny
ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge.
ICLR 2025 - 13th International Conference on Learning Representations. Singapore, Apr 24-28, 2025. URL GitHub

[18]

D. Kotovenko • O. Grebenkova • B. Ommer
EDGS: Eliminating Densification for Efficient Convergence of 3DGS.
Preprint (Apr. 2025). arXiv

[17]

F. Fundel • J. Schusterbauer • V. T. Hu • B. Ommer
Distillation of Diffusion Features for Semantic Correspondence.
WACV 2025 - IEEE/CVF Winter Conference on Applications of Computer Vision. Tucson, AZ, USA, Feb 28-Mar 04, 2025. DOI

[16]

A. Davtyan • S. Sameni • B. Ommer • P. Favaro
CAGE: Unsupervised Visual Composition and Animation for Controllable Video Generation.
AAAI 2025 - 39th Conference on Artificial Intelligence. Philadelphia, PA, USA, Feb 25-Mar 04, 2025. DOI GitHub

[15]

M. Gui • J. Schusterbauer • U. Prestel • P. Ma • D. Kotovenko • O. Grebenkova • S. A. Baumann • V. T. Hu • B. Ommer
DepthFM: Fast Generative Monocular Depth Estimation with Flow Matching.
AAAI 2025 - 39th Conference on Artificial Intelligence. Philadelphia, PA, USA, Feb 25-Mar 04, 2025. Oral Presentation. DOI

[14]

P. Ma • L. Rietdorf • D. Kotovenko • V. T. Hu • B. Ommer
Does VLM Classification Benefit from LLM Description Semantics?
Invited Talk @AAAI 2025 - 39th Conference on Artificial Intelligence. Philadelphia, PA, USA, Feb 25-Mar 04, 2025. Invited Talk. DOI

[13]

M. Fuest • V. T. Hu • B. Ommer
MaskFlow: Discrete Flows For Flexible and Efficient Long Video Generation.
Preprint (Feb. 2025). arXiv

[12]

E. Eulig • F. Jäger • J. Maier • B. Ommer • M. Kachelrieß
Reconstructing and analyzing the invariances of low-dose CT image denoising networks.
Medical Physics 52. Jan. 2025. DOI

2024

[11]

J. Wang • M. Ghahremani • Y. Li • B. Ommer • C. Wachinger
Stable-Pose: Leveraging Transformers for Pose-Guided Text-to-Image Generation.
NeurIPS 2024 - 38th Conference on Neural Information Processing Systems. Vancouver, Canada, Dec 10-15, 2024. URL GitHub

[10]

V. T. Hu • B. Ommer
[MASK] is All You Need.
Preprint (Dec. 2024). arXiv

[9]

J. Wang • Z. Qin • Y. Zhang • V. T. Hu • B. Ommer • R. Briq • S. Kesselheim
Scaling Image Tokenizers with Grouped Spherical Quantization.
Preprint (Dec. 2024). arXiv

[8]

V. T. Hu • S. A. Baumann • M. Gui • O. Grebenkova • P. Ma • J. Schusterbauer • B. Ommer
ZigMa: A DiT-style Zigzag Mamba Diffusion Model.
ECCV 2024 - 18th European Conference on Computer Vision. Milano, Italy, Sep 29-Oct 04, 2024. DOI GitHub

[7]

D. Kotovenko • O. Grebenkova • N. Sarafianos • A. Paliwal • P. Ma • O. Poursaeed • S. Mohan • Y. Fan • Y. Li • R. Ranjan • B. Ommer
WaSt-3D: Wasserstein-2 Distance for Scene-to-Scene Stylization on 3D Gaussians.
ECCV 2024 - 18th European Conference on Computer Vision. Milano, Italy, Sep 29-Oct 04, 2024. DOI GitHub

[6]

N. Stracke • S. A. Baumann • J. M. Susskind • M. A. Bautista • B. Ommer
CTRLorALTer: Conditional LoRAdapter for Efficient 0-Shot Control and Altering of T2I Models.
ECCV 2024 - 18th European Conference on Computer Vision. Milano, Italy, Sep 29-Oct 04, 2024. DOI GitHub

[5]

J. Schusterbauer • M. Gui • P. Ma • N. Stracke • S. A. Baumann • V. T. Hu • B. Ommer
FMBoost: Boosting Latent Diffusion with Flow Matching.
ECCV 2024 - 18th European Conference on Computer Vision. Milano, Italy, Sep 29-Oct 04, 2024. Oral Presentation. DOI GitHub

[4]

E. Eulig • B. Ommer • M. Kachelrieß
Benchmarking deep learning-based low-dose CT image denoising algorithms.
Medical Physics 51. Sep. 2024. DOI

2023

[3]

A. Farshad • Y. Yeganeh • Y. Chi • C. Shen • B. Ommer • N. Navab
Scenegenie: Scene graph guided diffusion models for image synthesis.
Workshop @ICCV 2023 - Workshop at the IEEE/CVF International Conference on Computer Vision. Paris, France, Oct 02-06, 2023. DOI

[2]

D. Kotovenko • P. Ma • T. Milbich • B. Ommer
Cross-Image-Attention for Conditional Embeddings in Deep Metric Learning.
CVPR 2023 - IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver, Canada, Jun 18-23, 2023. DOI

2022

[1]

A. Blattmann • R. Rombach • K. Oktay • B. Ommer
Retrieval-Augmented Diffusion Models.
NeurIPS 2022 - 36th Conference on Neural Information Processing Systems. New Orleans, LA, USA, Nov 28-Dec 09, 2022. URL

©all images: LMU | TUM

2024-12-27 - Last modified: 2026-01-27