Niedawnym przełomem w sztucznej inteligencji było znaczenie skali w napędzaniu postępu w różnych dziedzinach. Duże modele wykazały niezwykłe zdolności w zakresie rozumienia języka, generowania, uczenia się reprezentacji, zadań multimodalnych i generowania obrazów. Wraz ze wzrostem liczby możliwych do nauczenia parametrów, nowoczesne sieci neuronowe zużywają ogromne ilości danych. W rezultacie możliwości oferowane przez te modele uległy znacznej poprawie.
Jednym z takich przykładów jest GPT-2, który kilka lat temu przełamał bariery danych, zużywając prawie 30 miliardów tokenów językowych. GPT-2 wykazał obiecujące wyniki bez strzału w testy porównawcze NLP. Jednak nowsze modele, takie jak Chinchilla i LLaMA, przerosły GPT-2, zużywając biliony tokenów indeksowanych w sieci. Z łatwością pokonuje GPT-2 pod względem testów porównawczych i możliwości. W wizji komputerowej ImageNet początkowo składał się z miliona obrazów i był złotym standardem reprezentacji uczenia się. Ale dzięki zestawom danych skalowanym do miliardów obrazów przez indeksowanie sieci, zestawy danych takie jak LAION5B stworzyły potężne reprezentacje wizualne, jak widać w modelach takich jak CLIP. Przejście od ręcznego zbierania zestawów danych do zbierania ich z różnych źródeł w sieci było kluczowe dla tego rozszerzenia z milionów do miliardów punktów danych.
Podczas gdy dane językowe i obrazowe znacznie się powiększyły, inne obszary, takie jak widzenie komputerowe 3D, wciąż muszą nadrobić zaległości. Zadania takie jak tworzenie i rekonstrukcja obiektów 3D opierają się na małych, ręcznie tworzonych zbiorach danych. Na przykład ShapeNet polega na profesjonalnych projektantach 3D, którzy używają drogiego oprogramowania do tworzenia zasobów, co utrudnia proces crowdsourcingu i skalowania. Niedobór danych stał się wąskim gardłem dla metod opartych na uczeniu się w trójwymiarowej wizji komputerowej. Generowanie obiektów 3D wciąż pozostaje daleko w tyle za generowaniem obrazów 2D i często opiera się na modelach trenowanych na dużych zestawach danych 2D, a nie na trenowaniu od podstaw na danych 3D. Rosnące zapotrzebowanie i zainteresowanie technologiami rozszerzonej rzeczywistości (AR) i wirtualnej rzeczywistości (VR) wskazuje na pilną potrzebę rozszerzenia zasięgu danych 3D.
Aby rozwiązać te ograniczenia, naukowcy z Allen Institute for Artificial Intelligence, University of Washington, Seattle, Columbia University, Stability AI, CALTECH i LAION przedstawiają Objaverse-XL jako wielkoskalowy zbiór zasobów 3D przeszukiwanych w sieci. Szybki rozwój narzędzi do tworzenia projektów 3D, w połączeniu z rosnącą dostępnością danych 3D w Internecie za pośrednictwem platform takich jak Github, Sketchfab, Thingiverse, Polycam i niszowych witryn, takich jak Smithsonian Institution, przyczyniły się do powstania Objaverse-XL. Ten zestaw danych zapewnia znacznie większą różnorodność i jakość danych 3D niż poprzednie próby, takie jak Objaverse 1.0 i ShapeNet. Z ponad 10 milionami obiektów 3D, Objaverse-XL stanowi znaczny wzrost rozmiaru, przekraczając poprzednie zestawy danych o kilka rzędów wielkości.
Zasięg i wszechstronność, jaką zapewnia Objaverse-XL, znacznie rozszerzył wydajność nowoczesnych modeli 3D. Warto zauważyć, że model Zero123-XL, który został wstępnie przeszkolony z Objaverse-XL, wykazuje niezwykłe możliwości uogólnienia zerowego strzału w trudnych i złożonych modalnościach. Wyjątkowo dobrze radzi sobie z zadaniami, takimi jak nowe dostrajanie renderowania, nawet przy tak różnych danych wejściowych, jak rzeczywiste zasoby, animacje, grafika i grafiki. Podobnie PixelNeRF, który jest przeszkolony w kompilowaniu nowych widoków z małego zestawu obrazów, wykazuje znaczną poprawę, gdy jest szkolony z Objaverse-XL. Skalowanie danych przedtreningowych z tysiąca oryginałów do 10 milionów konsekwentnie pokazuje poprawę, podkreślając obietnicę i możliwości danych w skali internetowej.
Implikacje Objaverse-XL wykraczają poza sferę modelowania 3D. Jego potencjalne zastosowania obejmują wizję komputerową, grafikę, rzeczywistość rozszerzoną i generatywną sztuczną inteligencję. Rekonstrukcja obiektów 3D z obrazów zawsze stanowiła wyzwanie dla wizji komputerowej i grafiki. Istniejące metody badały różne reprezentacje, architektury sieci i techniki renderowania do przewidywania kształtów i tekstur 3D na podstawie obrazów. Jednak te podejścia opierały się głównie na małych zbiorach danych, takich jak ShapeNet. Dzięki znacznie większemu Objaverse-XL nowe poziomy wydajności i uogólnienia można osiągnąć w sposób zerowy.
Co więcej, pojawienie się generatywnej sztucznej inteligencji w 3D było ekscytującym wydarzeniem. Modele takie jak MCC, DreamFusion i Magic3D pokazały, że kształty 3D można generować na podstawie monitów językowych za pomocą modeli zamiany tekstu na obraz. Objaverse-XL otwiera również możliwości tworzenia tekstu na 3D, umożliwiając postęp w modelowaniu tekstu na 3D. Wykorzystując ogromny i zróżnicowany zestaw danych, badacze mogą odkrywać nowe zastosowania i przesuwać granice generatywnej sztucznej inteligencji w dziedzinie 3D.
Wydanie Objaverse-XL jest kamieniem milowym w dziedzinie zestawów danych 3D. Ich rozmiar, wszechstronność i możliwość szkolenia na dużą skalę obiecują postęp w badaniach i zastosowaniach w zrozumieniu 3D. Chociaż Objaverse-XL jest obecnie mniejszy niż zestaw danych tekstowych o rozmiarze miliarda, jego wprowadzenie toruje drogę do dalszych badań nad dalszym rozszerzaniem zestawów danych 3D i upraszczaniem przechwytywania i tworzenia treści 3D. Przyszłe prace mogą również koncentrować się na wyborze optymalnych punktów danych do szkolenia i rozszerzeniu Objaverse-XL w celu wykorzystania zadań dyskryminacyjnych, takich jak segmentacja i wykrywanie 3D.
Podsumowując, wprowadzenie Objaverse-XL jako ogromnego zestawu danych 3D toruje drogę nowym, ekscytującym możliwościom widzenia komputerowego, grafiki, rzeczywistości rozszerzonej i generatywnej sztucznej inteligencji. Odnosząc się do ograniczeń poprzednich zestawów danych, Objaverse-XL zapewnia podstawę do szkolenia na dużą skalę i otwiera możliwości przełomowych badań i zastosowań 3D.
zeskanuj papier. Cała zasługa tych badań należy się badaczom tego projektu. Nie zapomnij też dołączyć 26 000 + ML Sub RedditI kanał na discordzieI Biuletyn e-mailowygdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko.
🚀 Sprawdź 100’s AI Tools w AI Tools Club
Niharika jest stażystką konsultanta technicznego w Marktechpost. Jest studentką trzeciego roku studiów licencjackich i obecnie zdobywa tytuł Bachelor of Technology w Indyjskim Instytucie Technologii (IIT) w Kharagpur. Jest wysoce zmotywowaną osobą, żywo zainteresowaną uczeniem maszynowym, nauką o danych i sztuczną inteligencją, a także zapalonym czytelnikiem najnowszych osiągnięć w tych obszarach.
„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.
More Stories
Emdoor przygotowuje się do zaprezentowania swoich osiągnięć w zakresie nowej technologii sztucznej inteligencji podczas targów Global Sources Mobile Electronics Show 2024.
LinkedIn wykorzystuje Twoje dane do szkolenia Microsoft, OpenAI i jego modeli AI – oto jak to wyłączyć
Zapomnij o Apple Watch Series 10 — Apple Watch Ultra 2 w kolorze Satin Black to smartwatch, który warto mieć