Reklam
Google

ViP-DeepLab ile Bütünsel Video Sahnesi Anlama

İnsanlar, bir resimden 3B ortamlar hakkındaki görsel bilgileri oldukça kolay bir şekilde alabilirler – tümü 2B görüntülerde bulunan sınırlı sinyalleri kullanarak nesneleri tanımlayabilir, örnek boyutlarını belirleyebilir ve 3B sahne düzenini yeniden oluşturabiliriz. Bu yetenek genellikle ters izdüşüm problemi, retina görüntülerinden retina uyarımının kaynaklarına doğru belirsiz haritalamanın yeniden yapılandırılmasına atıfta bulunur. Gerçek dünya bilgisayar görüşü uygulamaları, otonom sürüş gibi, 2B görüntülere yansıtılan her 3B nokta için uzamsal konumu, anlamsal sınıfı ve örnek etiketini çıkarmak için vizyon modellerini gerektiren 3B nesneleri yerelleştirmek ve tanımlamak için bu yeteneklere büyük ölçüde güveniyor. 3D dünyayı görüntülerden yeniden yapılandırma yeteneği, iki ayrık bilgisayar görüşü görevine ayrıştırılabilir: monoküler derinlik tahmini (tek bir görüntüden derinliği tahmin etme) ve video panoptik segmentasyonu (birleşmesi örnek bölümleme ve anlamsal bölümleme, video alanında). Bununla birlikte, araştırma genellikle her görevi ayrı ayrı ele almıştır. Bu görevlerin birleşik bir bilgisayar görüşü modeliyle birlikte ele alınması, hesaplamayı birden çok görev arasında paylaştırarak daha kolay dağıtım ve daha yüksek verimlilik sağlayabilir.

Derinliği ve video panoptik segmentasyonu aynı anda öngören bir modelin potansiyel değerinden yola çıkarak, “ViP-DeepLab: Derinliğe Duyarlı Video Panoptik Segmentasyon ile Görsel Algıyı Öğrenme”, Kabul etti CVPR 2021. Bu çalışmada yeni bir görev öneriyoruz, derinliğe duyarlı video panoptik segmentasyonu, monoküler derinlik tahmini ve video panoptik segmentasyonu ile aynı anda mücadele etmeyi amaçlamaktadır. Yeni görev için, iki türetilmiş veri kümesini, adı verilen yeni bir değerlendirme metriğiyle birlikte sunuyoruz. derinliğe duyarlı video panoptik kalitesi (DVPQ). Bu yeni metrik, iki alt görevin aynı anda üstesinden gelmek için bir vizyon modeli gerektiren derinlik tahmini ve video panoptik segmentasyon için ölçümleri içerir. Bu amaçla uzatıyoruz Panoptik-DeepLab Görüntü düzlemindeki her piksel için video panoptik segmentasyonu ve monoküler derinlik tahminini birlikte gerçekleştiren ve çeşitli akademik veri kümelerinde son teknoloji performansa ulaşan birleşik bir model olan ViP-DeepLab oluşturmak için derinlik ve video tahminleri için ağ dalları ekleyerek alt görevler için. Bu video yeni görevi gösterir ve ViP-DeepLab’ın sonuçlarını gösterir.

Reklam
ViP-DeepLab ile elde edilen derinliğe duyarlı video panoptik segmentasyon sonuçları. Sol üst: Giriş olarak kullanılan video kareleri. Sağ üst: Video panoptik segmentasyon sonuçları. Sol alt: Tahmini derinlik. Sağ alt: Yeniden yapılandırılmış 3B noktalar. Her nesne örneğinin benzersiz ve geçici olarak tutarlı bir etiketi vardır, örneğin, pedestrain_1, pedestrain_2, vb. Giriş görüntüleri, Şehir manzaraları veri kümesi.

Genel Bakış
Panoptic-DeepLab, tek bir çerçeve için anlambilimsel bölümleme, merkez tahmini ve merkez regresyonu üretebilirken, birden çok çerçeve için derinlik tahmini ve zamansal olarak tutarlı örnek kimliği tahmini yeteneğinden yoksundur. Bununla birlikte, ViP-DeepLab bunu, girdi olarak iki ardışık çerçeveden ek tahminler yaparak gerçekleştirir. İlk ek çıktı, her piksele tahmini bir derinlik atadığı ilk kare için derinlik tahminidir. Ayrıca ViP-DeepLab, yalnızca ilk çerçevede görünen nesne merkezleri için iki ardışık çerçeve için merkez regresyonu gerçekleştirir. Bu işleme merkez ofset tahmini denir ve ViP-DeepLab’ın iki karedeki tüm pikselleri ilk karede görünen aynı nesnede gruplamasına izin verir. Daha önce algılanan örneklerle gruplandırılmazlarsa yeni örnekler ortaya çıkar. Bu işlem, bir video sekansındaki her iki ardışık kare için (bir üst üste binen kare ile) devam eder ve geçici olarak tutarlı örnek kimlikleriyle tahminler oluşturmak için panoptik tahminleri bir araya getirir. Yani, nesnelerin nerede olduğunu ve zamanla bir video sahnesinde nasıl hareket ettiklerini birbirine bağlar.

Video panoptik segmentasyonu için ViP-DeepLab çıktıları. Giriş olarak iki ardışık çerçeve birleştirilir. Anlamsal bölümleme çıktısı, her pikseli anlamsal sınıflarıyla ilişkilendirirken, örnek bölümleme çıktıları ilk karedeki tek bir nesneyle ilişkili iki kareden pikselleri tanımlar. Giriş görüntüleri Şehir manzaraları veri kümesi.
Birleştirme video panoptik tahminlerinin görselleştirilmesi. ViP-DeepLab, maskeye dayalı kimlikleri yayar birleşim-üzerinden-kesişme bölge çiftleri arasında. Görüntüdeki bisikletçi gibi büyük hareketlerle nesneleri izleme yeteneğine sahiptir.

Sinir Ağı Tasarımı
Üzerine inşa etmek Panoptik-DeepLabViP-DeepLab ek olarak iki tahmin dalı içerir: (1) bir derinlik tahmin dalı ve (2) bir sonraki çerçeve örnek dalı. Spesifik olarak, derinlik tahmin başlığı, her piksel için derinlik regresyonunu öngören basit bir tasarım iken, sonraki kare örnek dalı, birinci çerçevedeki merkezlere göre ikinci çerçevedeki pikseller için merkez ofsetlerini tahmin eder.

Sonuçlar
ViP-DeepLab’ı aşağıdakiler de dahil olmak üzere birçok popüler kıyaslama üzerinde test ettik: Şehir Manzaraları-VPS, KITTI Derinlik Tahmini, ve KITTI Çok Nesne İzleme ve Segmentasyon (KELİMELER).

Özellikle ViP-DeepLab, Cityscapes-VPS test setinde% 5,1 video panoptik kalitesi (VPQ) ile önceki yöntemlerden önemli ölçüde daha iyi performans gösteren son teknoloji ürünü (SOTA) sonuçlara ulaşır.

Reklam
Yöntem VPQHerşey VPQBir şeyler VPQŞey
VPSNet % 57.4 % 45,8 % 64,8
ViP-DeepLab % 62,5 (+% 5,1) % 50,2 (+% 4,4) % 70.3 (+% 5,5)
Cityscapes-VPS test setinde VPQ karşılaştırması.

ViP-DeepLab 1. sıradast KITTI derinlik tahmin karşılaştırmasında, önceki yöntemlere göre 0,65 iyileştirme SILog (ne kadar küçük olursa o kadar iyi).

Yöntem SILog sqErrorRel absErrorRel iRMSE
AĞIRLIK 11.45 2.30 9.05 12.32
ViP-DeepLab 10.80 2.19 8,94 11.77
KITTI Derinlik Tahmini kıyaslamasında monoküler derinlik tahmini karşılaştırması. Derinlik tahmini metrikleri için not, daha küçük değerler, daha iyi performans. Farklılıklar küçük görünse de, bu karşılaştırmada en iyi performans gösteren yöntem genellikle SILog’da 0.1’den küçük bir boşluğa sahiptir.

Ek olarak, ViP-DeepLab de 1’dist KITTI KELİMELER yayalar ve 3rd metriğe göre sıralanmış KITTI MOTS arabalarında sMOTSAve şimdi 3rd daha yeni bir metriğe göre sıralanan hem yayalar hem de arabalar için HOTA.

Sınıf Yöntem HOTA
Araba PointTrack % 62.0
ViP-DeepLab % 76,4 (+% 14,4)
Yaya PointTrack % 54.4
ViP-DeepLab % 64.3 (+% 9,9)
KITTI Çok Nesne İzleme ve Segmentasyonda performans karşılaştırması.

Son olarak, yeni görev için iki yeni veri seti, derinliğe duyarlı video panoptik segmentasyon sunuyoruz ve bunlar üzerinde ViP-DeepLab’ı test ediyoruz. Bu iki yeni veri kümesindeki ViP-DeepLab sonuçlarımızın, topluluğun karşılaştırması için güçlü bir temel oluşturacağını umuyoruz. Sonuçlar aşağıda gösterilmiştir.

Veri Kümesi DVPQHerşey DVPQBir şeyler DVPQŞey
Şehir Manzaraları-DVPS % 55.1 % 43.3 % 63.6
SemKITTI-DVPS % 45.6 % 36.6 % 52,2
İki yeni veri setinde derinliğe duyarlı video panoptik segmentasyon görevi için ViP-DeepLab performansı.

Sonuç
Basit bir mimariye sahip ViP-DeepLab, video panoptik segmentasyon, monoküler derinlik tahmini ve çoklu nesne izleme ve segmentasyonda son teknoloji performansa ulaşır. Umuyoruz ki birlikte MaX-DeepLab, uçtan uca izin veren verimli bir çift yollu transformatör modülü öneren görüntü Panoptik segmentasyon, ViP-DeepLab topluluk için yararlıdır ve gerçek dünyadaki sahnelerin daha bütünsel bir anlayışına yönelik araştırmaları ilerletir.

Teşekkür
Yukun Zhu, Hartwig Adam ve Alan Yuille (ViP-DeepLab’ın ortak yazarları) ile Maxwell Collins ve Mobile Vision ekibiyle destek ve değerli tartışmalara teşekkür etmek istiyoruz.

Google Blog

Kaynak Linki

0 Yorumlar

Yorum Yok

Reklam
Başa dön tuşu

Reklam Engelleyici Algılandı

Lütfen Reklam Engelleyiciyi Kapatınız