Ende 2018 führte Facebook 3D-Fotos ein, eine Funktion, die Tiefendaten nutzt, um Bilder zu erstellen, die flach aussehen, aber mit Hilfe von Virtual-Reality(VR)-Headsets, über Facebook im Web oder Facebooks mobile Anwendungen aus verschiedenen Blickwinkeln betrachtet werden können. Ursprünglich war eine Depth-Map-Datei auf Desktop- oder Dual-Kamera-Smartphones wie dem Galaxy Note 10 oder dem iPhone 11 erforderlich, aber ab heute ist 3D-Photos mit jedem modernen Smartphone mit einer einzigen Kamera kompatibel – insbesondere mit einem iPhone 7 oder höher oder einem Android-Gerät der mittleren oder besseren Klasse.

Facebook-3D-Photos

Facebook kommunizierte dazu, dass „modernste“ Techniken des maschinellen Lernens den erweiterten telefonischen Support ermöglicht haben. Neu eingesetzte KI-Modelle können auf die 3D-Struktur von Bildern ohne Tiefendaten schließen, unabhängig vom Alter oder Herkunft der Bilder. Es funktioniert sogar mit Selfies, Gemälden und komplexen Szenen. „Dieser Fortschritt macht die 3D-Fototechnologie zum ersten Mal für die vielen Millionen Menschen, die ein einäugiges Fotosmartphone oder Tablet nutzen, leicht zugänglich“, schrieb Facebook in einem Blogbeitrag. „Sie ermöglicht es auch jedem, jahrezehntelang alte Familienfotos und andere geschätzte Bilder auf eine neue Art und Weise zu erleben, indem sie in 3D konvertiert werden.

Einmal gepostet, können 3D-Fotos von jedem Facebook-Nutzer sowie in VR über den Oculus Browser auf Oculus Go oder Firefox auf dem Oculus Rift angesehen werden. Sie können auch über Facebook Stories geteilt werden, wo sie nach 24 Stunden verschwinden – wie bei 3D-Photos, die über den Facebook News Feed geteilt werden, können Sie sehen, wer sie angesehen hat und auf sie reagiert hat. Es gelten jedoch Einschränkungen. 3D-Photos können nicht bearbeitet werden und wenn Sie ein 3D-Foto freigeben möchten, können Sie nicht mehrere Fotos zu einem Beitrag hinzufügen. 3D-Photos können nicht zu einem Album hinzugefügt werden und wenn Sie ein 3D-Foto von einer Seite veröffentlichen, können Sie es nicht verstärken oder in der Werbung verwenden.

Die (Daten-)Wissenschaft hinter 3D-Photos.

Facebook kommunizierte, dass die Verbesserung von 3D-Photos die Bewältigung einer Reihe von technischen Herausforderungen erforderte, einschließlich (aber nicht beschränkt auf) das Training eines Modells, das korrekt erraten kann, wie Objekte aus verschiedenen Perspektiven aussehen könnten und das auf typischen mobilen Prozessoren in „einem Bruchteil einer Sekunde“ laufen kann. Das 3D-Fotos-Team entschied sich für ein faltendes neuronales Netzwerk und trainierte es an Millionen von 3D-Bildpaaren und den dazugehörigen Deep-Maps. Anschließend verwendeten sie Bausteine, die von FBNet – einer Familie von Modellen für ressourcenbeschränkte Umgebungen – inspiriert wurden, um das Modell für mobile Geräte zu optimieren.

Um die optimale Architekturkonfiguration zu finden, setzte das 3D-Foto-Team einen automatisierten Prozess ein, der einen Algorithmus mit der Bezeichnung verwendet, der von Facebook AI Research entwickelt wurde. ChamNet tastet iterativ Punkte aus einem Suchraum ab, um einen Genauigkeits-Prädiktor zu trainieren, der die Suche nach einem Modell beschleunigt, das die Genauigkeit maximiert und gleichzeitig die Ressourcenbeschränkungen erfüllt. Die Suche nach dem Modell, das den neuen 3D-Photos zugrunde liegt, dauerte laut Facebook mit 800 Nvidia Tesla V100-Grafikkarten etwa drei Tage.

Um die Anzahl der Bytes zu reduzieren, die bei der ersten Verwendung an verschiedene Geräte übertragen werden mussten, hat das 3D-Foto-Team die Gewichte (Koeffizienten, die die Neuronen in einem geschichteten KI-Modell verbinden) und Aktivierungen (Funktionen, die die Ausgabe eines Modells, seine Genauigkeit und seine Effizienz bestimmen) auf 8 Bit quantisiert – oder große Werte auf kleinere Werte abbildet. (Dies erforderte nur ein Viertel des Speicherplatzes, den die ursprünglichen Gewichte und Aktivierungen beanspruchen). Durch die Simulation der Quantisierung vermieden werden, indem die Lücke zwischen Training und Produktion eliminiert wurde, während 8-Bit-Operatoren (Konstrukte, die sich wie Funktionen verhalten) einen höheren Durchsatz im Vergleich zu denjenigen des ursprünglichen, größeren Modells ermöglichten.

Facebook kommunizierte, dass es in Zukunft diese Techniken zur Tiefenschätzung von Videos, die mit mobilen Geräten aufgenommen wurden, anwenden will. Zusätzlich plant es, die Nutzung der Tiefenschätzung, der Schätzung der Surface Normals und der räumlichen Argumentation in Echtzeitanwendungen wie Augmented Reality zu untersuchen. „Videos stellen eine bemerkenswerte Herausforderung dar, da jede Bildtiefe mit der nächsten übereinstimmen muss. Aber es ist auch eine Gelegenheit, die Leistung zu verbessern, da mehrere Beobachtungen derselben Objekte ein zusätzliches Signal für hochgenaue Tiefenschätzungen liefern können“, schrieb Facebook. „Über diesen potenziellen neuen Erfahrungen hinaus wird uns diese Arbeit helfen, den Inhalt von 2D-Bildern im Allgemeinen besser zu verstehen. Ein besseres Verständnis von 3D-Szenen könnte auch Robotern helfen, sich in der physischen Welt zu bewegen und mit ihr zu interagieren.

Vielen Dank für Ihren Besuch.