Duże modele wizyjne, Apple Vision Pro, przenośne urządzenia AI, które widzą nasz świat

Przyszłość technologii… urządzeń do noszenia, wspomaganych sztuczną inteligencją i uwzględniających lokalizację. Jeśli rok 2023 będzie rokiem dużych modeli językowych wraz z pojawieniem się ChaptGPT Open AI, który zgromadzi miliony użytkowników w ciągu kilku rekordowo krótkich miesięcy, wszystko wskazuje na to, że rok 2024 będzie rokiem, w którym zostaną otwarte duże modele wizji (LVM). Obliczenia przestrzenne oparte na sztucznej inteligencji będą dostępne na rynku masowym, a wizja komputerowa i sztuczna inteligencja do noszenia, która widzi świat, poczynią ogromne postępy.

Technologia przyspiesza w rekordowym tempie i przyszły rok nie będzie wyjątkiem. Dlatego rok 2024 postrzegamy jako rok wizji.

Wyobraź sobie przyszłość po smartfonach Świat do noszenia: Twój przewodnik po przyszłości po smartfonach opartej na sztucznej inteligencji, rzeczywistości rozszerzonej i obliczeniach przestrzennych Tworzy się powoli. To przyszłość, w której nowe urządzenie, przestrzenny komputer w formie urządzenia do noszenia, przewyższy smartfon we wszystkim, od nawigacji po asystentów osobistych oraz sposób, w jaki uzyskujemy dostęp do informacji i doświadczeń.

Podczas gdy teraz widzimy start-upy takie jak Humane ze swoim PIN-em AI, inteligentne okulary Meta firmy Ray-Ban, które niedawno stały się multimedialne, czy ramki Echo firmy Amazon, które zostały unowocześnione w tym roku. Microsoft dodaje także drugiego pilota AI do Microsoft Hololens 2; Google Gemini zaprezentowało w tym roku film prezentujący możliwości sztucznej inteligencji, jakie Gemini może mieć w przyszłości. Google, Samsung i Qualcomm ogłaszają partnerstwo w zakresie urządzenia rzeczywistości mieszanej, które ma pojawić się w 2025 r. OpenAI skupiło się również (gra słów zamierzona) na przyszłym urządzeniu, które będzie można wykorzystać do manipulowania swoimi modelami na nowe sposoby. W niedawnym artykule w The Information napisano: „Według osoby zaznajomionej z sytuacją OpenAI omawiało ostatnio integrację swojego oprogramowania do rozpoznawania obiektów, GPT-4 z Vision, z produktami firmy macierzystej Snapchata. Może to prowadzić do nowych funkcji inteligentnych okularów Snap firmy Snap okulary.”

Ponieważ większość dużych graczy technologicznych przygląda się urządzeniom, które mogą początkowo zastąpić nasze komputery, a ostatecznie nasze telefony komórkowe, nie będzie przesadą stwierdzenie, że urządzenia, które zobaczymy później w 2023 r. i te, które zobaczymy w 2024 r., to urządzenia przejściowe, które je zastąpią. W kolejnej dekadzie będzie nadal ewoluować i dojrzewać, co zacznie przyciągać coraz większą uwagę, a ostatecznie zostanie przyjęte przez konsumentów.

Zanurzmy się głębiej w wizję komputerową, wizję sztucznej inteligencji do noszenia, LVM i komputer przestrzenny Apple, Apple Vision Pro.

Widzenie komputerowe i wizja sztucznej inteligencji

Widzenie komputerowe jest podzbiorem sztucznej inteligencji. Mówiąc najprościej, wizja komputerowa pozwala maszynom „widzieć”. Maszyny wyposażone w funkcję widzenia komputerowego są zazwyczaj szkolone w zakresie rozpoznawania konkretnego przypadku użycia, takiego jak kontrola części na linii montażowej. Wizja komputerowa może analizować produkt pod kątem wad szybciej niż człowiek. Widzenie komputerowe to jeden z kluczowych elementów zapewniających działanie urządzeń przenośnych i możliwość zobaczenia maszyn. Aby jednak sprawdziło się w dowolnej liczbie przypadków użycia, z jakimi może się spotkać przeciętny człowiek, należy je połączyć z większą ilością sztucznej inteligencji. Na przykład Meta twierdzi, że współpracuje z Sztuczna inteligencja i Ray-BanTeraz, gdy są multimedialne, pozwolą inteligentnym okularom po raz pierwszy zobaczyć świat z perspektywy osoby noszącej.

READ Jezioro Meteor ulega awarii na Apple Silicon

Wizja komputerowa i sztuczna inteligencja łączą się w obliczeniach przestrzennych. „Obliczenia przestrzenne to wielkoskalowa technologia, której „oczy i uszy” czerpią ze sztucznej inteligencji i wizji komputerowej, i zwiastuje erę dużych modeli wizyjnych (LVM)”. Poniżej omówimy bardziej szczegółowo obliczenia przestrzenne.

Modele wielkich wizji

Choć o wielkich modelach wizji mówi jeszcze niewiele osób, jest to temat, którym interesuje się Dolina Krzemowa. nowo Udostępnij LinkedIn Oraz film popularnej gwiazdy sztucznej inteligencji, Andrew Ng, który w następujący sposób opisuje LVMS: „Rewolucja LVM nadchodzi zaraz po rewolucji LLM i zmieni sposób przetwarzania obrazów. Istnieje jednak istotna różnica między LLM i LVM. Tekst internetowy jest wystarczająco podobny do dokumentów Specjalny tekst, który osoby LLM przeszkolone w zakresie tekstu internetowego mogą zrozumieć Twoje dokumenty, ale obrazy internetowe – takie jak zdjęcia na Instagramie – zawierają wiele obrazów ludzi, zwierząt domowych, punktów orientacyjnych i przedmiotów codziennego użytku. Wiele praktycznych zastosowań wizyjnych (produkcja , zdjęcia lotnicze, nauki przyrodnicze itp.) Obrazy, które nie przypominają większości obrazów internetowych. Dlatego też ogólny LVM wytrenowany na obrazach internetowych słabo radzi sobie z wychwytywaniem najistotniejszych cech obrazów z wielu wyspecjalizowanych dziedzin.

Sfotografowane przez nas inteligentne okulary rozszerzonej rzeczywistości ożywają. Dzieje się tak po części dzięki konstrukcji sprzętu (więcej na ten temat w następnej sekcji), ale także dzięki sztucznej inteligencji i dużym modelom wizyjnym (LVM). Urządzenia LVM rozpoznają obrazy. Potrafią opisywać sceny, przedmioty, a nawet emocje. LVM to inteligentne okulary i inne urządzenia do noszenia, które będą wykorzystywane do przetwarzania danych wizualnych. LVM wykorzystują głębokie uczenie się do odkrywania wzorców i powiązań w obrazach i pomiędzy nimi, a ostatecznie także w filmach.

W podglądzie najnowszych okularów Ray-Bans wyposażonych w sztuczną inteligencję Meta Meta pyta użytkowników, w jaki sposób powinni grillować jedzenie. Modele o dużej rozdzielczości umożliwiają firmie Ray-Bans (lub innym urządzeniom do noszenia) przetwarzanie obrazu jedzenia na grillu, klasyfikowanie go i udzielanie odpowiedzi. Aby w pełni wykorzystać możliwości naszych urządzeń do noszenia, potrzebujemy, aby były one w stanie przetwarzać świat wizualny, w którym żyjemy. Modele wielkich wizji ewoluowały, aby widzieć nasz świat (nie bez pewnych halucynacji).

Z punktu widzenia przedsiębiorstwa, we wspomnianym powyżej poście i filmie Andrew Ng na LinkedIn dołączył do niego Dan Maloney z Landing AI, który wyjaśnia, że w swoich badaniach zaobserwowali, że modele dostosowane do obrazów z określonej dziedziny (takiej jak produkcja półprzewodników czy patologia ) zwykle wykonują lepszą pracę. Dużo. Następnie powiedział: „W Landing AI, wykorzystującym około 100 000 nieoznakowanych obrazów w celu dostosowania LVM do określonej domeny, widzimy znacznie lepsze wyniki, na przykład tam, gdzie obecnie potrzebne jest tylko 10–30% oznaczonych danych, aby osiągnąć określony poziom wykonania.”

READ Gracze Final Fantasy 7 Remake mogą teraz wybrać darmową parę kolczyków Serafic

„Uważam, że w przypadku firm posiadających duże kolekcje obrazów, które w niczym nie przypominają obrazów internetowych, LVM specyficzne dla domeny mogą być sposobem na uwolnienie znacznej wartości z danych” – kontynuował Ng. Zatem urządzenia LVM mogą być bardzo cenne dla przedsiębiorstwa, a także w przypadkach użycia specyficznego dla domeny.

Apple Vision Pro, VisionOS i obliczenia przestrzenne

Rywalizacja o przyszłość sztucznej inteligencji do noszenia jest już gotowa na rok 2024. Jak wspomnieliśmy, Apple, Meta, Amazon i Snap przygotowują swoje inteligentne okulary i zestawy słuchawkowe do rzeczywistości mieszanej, aby stały się Twoim ulubionym urządzeniem. Meta nazywa to „zmianą platformy”. Sztuczna inteligencja będzie głównym sposobem interakcji człowieka z maszynami. My widzimy to trochę inaczej. Miejsce, w którym maszyny obsługujące sztuczną inteligencję wchodzą w interakcję z ludźmi, odzwierciedlając sposób, w jaki ludzie postrzegają świat. Nadal będziemy widzieć oczami maszyn, zwanymi także naszymi inteligentnymi okularami, ale sztuczna inteligencja w okularach będzie z nami współdziałać, aby zrozumieć wszystko, co widzi ona i jej ludzki odpowiednik.

Okulary Meta AI Ray-Ban i Snap Spectacles z integracją OpenAI to produkty, na które warto zwrócić uwagę. Ale Apple Vision Pro nadal jest tym, co zainspirowało nas do napisania Świat do noszenia. Apple już przygotowuje użytkowników do korzystania z Vision Pro dzięki funkcjom nagrywania przestrzennego wideo w iPhonie 15. Krążą pogłoski, że Apple szkoli pracowników Apple Genius w zakresie Vision Pro. To jedyne urządzenie o wystarczającej mocy, aby zanurzyć użytkownika w wirtualnym lesie deszczowym lub zobaczyć, ulepszyć i przetestować prototyp produktu. To komputer przestrzenny, który widzi świat i wchodzi w interakcję ze światem w taki sam sposób jak Ty.

Obliczenia przestrzenne to zaawansowana forma obliczeń 3D, której podstawą jest sztuczna inteligencja, wizja komputerowa i rozszerzona rzeczywistość, aby połączyć wirtualne doświadczenia ze światem fizycznym, który wyrywa się z ekranów i sprawia, że wszystkie powierzchnie stają się przestrzennymi interfejsami. Umożliwia ludziom, urządzeniom, komputerom, robotom i obiektom wirtualnym poruszanie się po komputerach w przestrzeni 3D. Zwiastuje nowy paradygmat interakcji człowiek-człowiek, a także człowiek-komputer, usprawniający sposób wizualizacji, symulacji i interakcji z danymi w lokalizacjach fizycznych lub wirtualnych oraz rozszerzający przetwarzanie poza granice ekranu na wszystko, co można zobaczyć, doświadczyć i poznać.

Obliczenia przestrzenne pozwalają nam poruszać się po świecie wraz z robotami, dronami, samochodami, wirtualnymi asystentami i nie tylko, i to nie ograniczając się do jednej technologii czy tylko jednego urządzenia. To połączenie oprogramowania, sprzętu i informacji umożliwia ludziom i technologii komunikowanie się na nowe sposoby, tworząc nową formę przetwarzania danych, która może mieć większy wpływ na społeczeństwo niż komputery osobiste i komputery mobilne.

Przenośne urządzenia AI, które widzą nasz świat

Sposób, w jaki współdziałamy ze sobą i korzystamy z technologii, ulegnie zmianie, gdy urządzenia do noszenia ze sztuczną inteligencją staną się standardem.

Jednak wyobrażenie sobie świata, który można nosić, nie zaczęło się od ogłoszenia zestawu słuchawkowego Apple Vision Pro do rzeczywistości mieszanej. Kiedy pisaliśmy, po raz pierwszy wyobraziliśmy sobie świat post-smartfonowy w 2020 roku Dzień w okularach rozszerzonej rzeczywistości. W artykule wyobraziliśmy sobie kobietę o imieniu Katie spacerującą przez cały dzień, wykonującą swoją pracę i odwiedzającą przyjaciół – przez okulary rzeczywistości rozszerzonej. Wchodziła w interakcję z obrazami 3D opartymi na sztucznej inteligencji, aby utrzymać swoje miejsce pracy, a przerwę na lunch zamieniła w galerię sztuki. Choć w naszej pracy wspominaliśmy o sztucznej inteligencji, nie znalazła się ona na głównej scenie.

READ Według plotek 16-calowe (2021) i 14-calowe modele MacBooka Pro trafiły do masowej produkcji

Generatywna sztuczna inteligencja i ChatGPT uwolniły naszą wyobraźnię w 2023 r. W 2024 r. nasze pomysły zostaną udoskonalone. Rok 2024 będzie rokiem wizji. Od wizji komputerowej po wielkie modele wizyjne – w tym roku spojrzymy oczami maszyny, a technologie ubieralne staną się bardziej widoczne, interesujące i konkurencyjne. Choć tekst nadal króluje, wizja w wielu postaciach zmieni krajobraz technologiczny w ekscytujący i nieoczekiwany sposób i zapoczątkuje nowy wyścig technologiczny. Czy jesteś gotowy na rok, w którym wizja zaczyna odgrywać kluczową rolę?

Napisane we współpracy z Lily Snyder.

Chodź za mną Świergot Lub LinkedIn. spłacać Dla mnie strona internetowa.

Kathy Hackel to uznana na całym świecie dyrektor ds. technologii i gier, futurystka, autorka i główny mówca skupiająca się na obliczeniach przestrzennych, wirtualnych światach, rzeczywistości rozszerzonej, sztucznej inteligencji, trendach technologicznych, prognozowaniu strategicznym i strategii platform do gier.

Jest jednym z najważniejszych głosów technologicznych na LinkedIn i gospodarzem Adweeka Magia Techniki Podcast. Hackl pracował w Amazon Web Services, Magic Leap i HTC VIVE oraz doradzał takim firmom jak Nike, Ralph Lauren, Walmart, Louis Vuitton i Clinique w ich przygodach z technologią start-upów. Jako poszukiwana główna prelegentka przemawiała na Harvard Business School, MIT, SXSW, Comic-Con, dorocznym spotkaniu Światowego Forum Ekonomicznego 2023 w Davos, CES, MWC, modowych potęgach Vogue i nie tylko. Została uznana za jedną z czołowych kobiet roku 2023 według Ad Age, 100 najlepszych innowatorów według magazynu Bloomberg Linea i najlepszych Latynosek w dziedzinie sztucznej inteligencji według magazynu Newsweek. Latam znalazła się na okładce 100 najpotężniejszych kobiet 2023 roku magazynu Forbes oraz na liście 100 innowatorów Vogue Business.

Znana w kręgach technologicznych jako matka chrzestna Metaverse i jedna z wiodących na świecie futurystów technologicznych, Kathy jest głównym graczem w świecie technologii immersyjnych od prawie dekady, występując licznie w mediach w programach CNBC Squawk Box, 60 Minutes, CNN, Good Morning America, GQ, Time, WSJ, Washington Post, CNN, The Economist, Bloomberg i jest gościnnym redaktorem Vogue Singapore. W 2022 roku została pierwszym aktywnym fizycznie człowiekiem I Formularz awatara – aby zadzwonić dzwonkiem otwierającym NASDAQ i otworzyć rynki finansowe na żywo. Wykładała w IE Business School i SDA Bocconi School of Management, a jej artykuły publikowane są w Harvard Business Review, Wired i Forbes.

Czytaj więcejMniej czytać

Vasya Lebedev

„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.

Duże modele wizyjne, Apple Vision Pro, przenośne urządzenia AI, które widzą nasz świat

Widzenie komputerowe i wizja sztucznej inteligencji

Modele wielkich wizji

Apple Vision Pro, VisionOS i obliczenia przestrzenne

Przenośne urządzenia AI, które widzą nasz świat

Emdoor przygotowuje się do zaprezentowania swoich osiągnięć w zakresie nowej technologii sztucznej inteligencji podczas targów Global Sources Mobile Electronics Show 2024.

LinkedIn wykorzystuje Twoje dane do szkolenia Microsoft, OpenAI i jego modeli AI – oto jak to wyłączyć

Zapomnij o Apple Watch Series 10 — Apple Watch Ultra 2 w kolorze Satin Black to smartwatch, który warto mieć

W Polsce odkryto setki artefaktów, w tym hełm celtycki z brązu

Stopy procentowe w Wielkiej Brytanii: Bank Anglii wkrótce ujawni swoją kolejną decyzję

Zdjęcia do „Pasji” rozpoczną się na początku 2025 roku

Bardziej ekologiczne wybory, bystrzejsze umysły: badania łączą zrównoważony rozwój i zdrowie mózgu

Widzenie komputerowe i wizja sztucznej inteligencji

Modele wielkich wizji

Apple Vision Pro, VisionOS i obliczenia przestrzenne

Przenośne urządzenia AI, które widzą nasz świat

Dodaj komentarz Anuluj pisanie odpowiedzi

More Stories

Emdoor przygotowuje się do zaprezentowania swoich osiągnięć w zakresie nowej technologii sztucznej inteligencji podczas targów Global Sources Mobile Electronics Show 2024.

LinkedIn wykorzystuje Twoje dane do szkolenia Microsoft, OpenAI i jego modeli AI – oto jak to wyłączyć

Zapomnij o Apple Watch Series 10 — Apple Watch Ultra 2 w kolorze Satin Black to smartwatch, który warto mieć

You may have missed

W Polsce odkryto setki artefaktów, w tym hełm celtycki z brązu

Stopy procentowe w Wielkiej Brytanii: Bank Anglii wkrótce ujawni swoją kolejną decyzję

Zdjęcia do „Pasji” rozpoczną się na początku 2025 roku

Bardziej ekologiczne wybory, bystrzejsze umysły: badania łączą zrównoważony rozwój i zdrowie mózgu