Przyszłość technologii… urządzeń do noszenia, wspomaganych sztuczną inteligencją i uwzględniających lokalizację. Jeśli rok 2023 będzie rokiem dużych modeli językowych wraz z pojawieniem się ChaptGPT Open AI, który zgromadzi miliony użytkowników w ciągu kilku rekordowo krótkich miesięcy, wszystko wskazuje na to, że rok 2024 będzie rokiem, w którym zostaną otwarte duże modele wizji (LVM). Obliczenia przestrzenne oparte na sztucznej inteligencji będą dostępne na rynku masowym, a wizja komputerowa i sztuczna inteligencja do noszenia, która widzi świat, poczynią ogromne postępy.
Technologia przyspiesza w rekordowym tempie i przyszły rok nie będzie wyjątkiem. Dlatego rok 2024 postrzegamy jako rok wizji.
Wyobraź sobie przyszłość po smartfonach Świat do noszenia: Twój przewodnik po przyszłości po smartfonach opartej na sztucznej inteligencji, rzeczywistości rozszerzonej i obliczeniach przestrzennych Tworzy się powoli. To przyszłość, w której nowe urządzenie, przestrzenny komputer w formie urządzenia do noszenia, przewyższy smartfon we wszystkim, od nawigacji po asystentów osobistych oraz sposób, w jaki uzyskujemy dostęp do informacji i doświadczeń.
Podczas gdy teraz widzimy start-upy takie jak Humane ze swoim PIN-em AI, inteligentne okulary Meta firmy Ray-Ban, które niedawno stały się multimedialne, czy ramki Echo firmy Amazon, które zostały unowocześnione w tym roku. Microsoft dodaje także drugiego pilota AI do Microsoft Hololens 2; Google Gemini zaprezentowało w tym roku film prezentujący możliwości sztucznej inteligencji, jakie Gemini może mieć w przyszłości. Google, Samsung i Qualcomm ogłaszają partnerstwo w zakresie urządzenia rzeczywistości mieszanej, które ma pojawić się w 2025 r. OpenAI skupiło się również (gra słów zamierzona) na przyszłym urządzeniu, które będzie można wykorzystać do manipulowania swoimi modelami na nowe sposoby. W niedawnym artykule w The Information napisano: „Według osoby zaznajomionej z sytuacją OpenAI omawiało ostatnio integrację swojego oprogramowania do rozpoznawania obiektów, GPT-4 z Vision, z produktami firmy macierzystej Snapchata. Może to prowadzić do nowych funkcji inteligentnych okularów Snap firmy Snap okulary.”
Ponieważ większość dużych graczy technologicznych przygląda się urządzeniom, które mogą początkowo zastąpić nasze komputery, a ostatecznie nasze telefony komórkowe, nie będzie przesadą stwierdzenie, że urządzenia, które zobaczymy później w 2023 r. i te, które zobaczymy w 2024 r., to urządzenia przejściowe, które je zastąpią. W kolejnej dekadzie będzie nadal ewoluować i dojrzewać, co zacznie przyciągać coraz większą uwagę, a ostatecznie zostanie przyjęte przez konsumentów.
Zanurzmy się głębiej w wizję komputerową, wizję sztucznej inteligencji do noszenia, LVM i komputer przestrzenny Apple, Apple Vision Pro.
Widzenie komputerowe i wizja sztucznej inteligencji
Widzenie komputerowe jest podzbiorem sztucznej inteligencji. Mówiąc najprościej, wizja komputerowa pozwala maszynom „widzieć”. Maszyny wyposażone w funkcję widzenia komputerowego są zazwyczaj szkolone w zakresie rozpoznawania konkretnego przypadku użycia, takiego jak kontrola części na linii montażowej. Wizja komputerowa może analizować produkt pod kątem wad szybciej niż człowiek. Widzenie komputerowe to jeden z kluczowych elementów zapewniających działanie urządzeń przenośnych i możliwość zobaczenia maszyn. Aby jednak sprawdziło się w dowolnej liczbie przypadków użycia, z jakimi może się spotkać przeciętny człowiek, należy je połączyć z większą ilością sztucznej inteligencji. Na przykład Meta twierdzi, że współpracuje z Sztuczna inteligencja i Ray-BanTeraz, gdy są multimedialne, pozwolą inteligentnym okularom po raz pierwszy zobaczyć świat z perspektywy osoby noszącej.
Wizja komputerowa i sztuczna inteligencja łączą się w obliczeniach przestrzennych. „Obliczenia przestrzenne to wielkoskalowa technologia, której „oczy i uszy” czerpią ze sztucznej inteligencji i wizji komputerowej, i zwiastuje erę dużych modeli wizyjnych (LVM)”. Poniżej omówimy bardziej szczegółowo obliczenia przestrzenne.
Modele wielkich wizji
Choć o wielkich modelach wizji mówi jeszcze niewiele osób, jest to temat, którym interesuje się Dolina Krzemowa. nowo Udostępnij LinkedIn Oraz film popularnej gwiazdy sztucznej inteligencji, Andrew Ng, który w następujący sposób opisuje LVMS: „Rewolucja LVM nadchodzi zaraz po rewolucji LLM i zmieni sposób przetwarzania obrazów. Istnieje jednak istotna różnica między LLM i LVM. Tekst internetowy jest wystarczająco podobny do dokumentów Specjalny tekst, który osoby LLM przeszkolone w zakresie tekstu internetowego mogą zrozumieć Twoje dokumenty, ale obrazy internetowe – takie jak zdjęcia na Instagramie – zawierają wiele obrazów ludzi, zwierząt domowych, punktów orientacyjnych i przedmiotów codziennego użytku. Wiele praktycznych zastosowań wizyjnych (produkcja , zdjęcia lotnicze, nauki przyrodnicze itp.) Obrazy, które nie przypominają większości obrazów internetowych. Dlatego też ogólny LVM wytrenowany na obrazach internetowych słabo radzi sobie z wychwytywaniem najistotniejszych cech obrazów z wielu wyspecjalizowanych dziedzin.
Sfotografowane przez nas inteligentne okulary rozszerzonej rzeczywistości ożywają. Dzieje się tak po części dzięki konstrukcji sprzętu (więcej na ten temat w następnej sekcji), ale także dzięki sztucznej inteligencji i dużym modelom wizyjnym (LVM). Urządzenia LVM rozpoznają obrazy. Potrafią opisywać sceny, przedmioty, a nawet emocje. LVM to inteligentne okulary i inne urządzenia do noszenia, które będą wykorzystywane do przetwarzania danych wizualnych. LVM wykorzystują głębokie uczenie się do odkrywania wzorców i powiązań w obrazach i pomiędzy nimi, a ostatecznie także w filmach.
W podglądzie najnowszych okularów Ray-Bans wyposażonych w sztuczną inteligencję Meta Meta pyta użytkowników, w jaki sposób powinni grillować jedzenie. Modele o dużej rozdzielczości umożliwiają firmie Ray-Bans (lub innym urządzeniom do noszenia) przetwarzanie obrazu jedzenia na grillu, klasyfikowanie go i udzielanie odpowiedzi. Aby w pełni wykorzystać możliwości naszych urządzeń do noszenia, potrzebujemy, aby były one w stanie przetwarzać świat wizualny, w którym żyjemy. Modele wielkich wizji ewoluowały, aby widzieć nasz świat (nie bez pewnych halucynacji).
Z punktu widzenia przedsiębiorstwa, we wspomnianym powyżej poście i filmie Andrew Ng na LinkedIn dołączył do niego Dan Maloney z Landing AI, który wyjaśnia, że w swoich badaniach zaobserwowali, że modele dostosowane do obrazów z określonej dziedziny (takiej jak produkcja półprzewodników czy patologia ) zwykle wykonują lepszą pracę. Dużo. Następnie powiedział: „W Landing AI, wykorzystującym około 100 000 nieoznakowanych obrazów w celu dostosowania LVM do określonej domeny, widzimy znacznie lepsze wyniki, na przykład tam, gdzie obecnie potrzebne jest tylko 10–30% oznaczonych danych, aby osiągnąć określony poziom wykonania.”
„Uważam, że w przypadku firm posiadających duże kolekcje obrazów, które w niczym nie przypominają obrazów internetowych, LVM specyficzne dla domeny mogą być sposobem na uwolnienie znacznej wartości z danych” – kontynuował Ng. Zatem urządzenia LVM mogą być bardzo cenne dla przedsiębiorstwa, a także w przypadkach użycia specyficznego dla domeny.
Apple Vision Pro, VisionOS i obliczenia przestrzenne
Rywalizacja o przyszłość sztucznej inteligencji do noszenia jest już gotowa na rok 2024. Jak wspomnieliśmy, Apple, Meta, Amazon i Snap przygotowują swoje inteligentne okulary i zestawy słuchawkowe do rzeczywistości mieszanej, aby stały się Twoim ulubionym urządzeniem. Meta nazywa to „zmianą platformy”. Sztuczna inteligencja będzie głównym sposobem interakcji człowieka z maszynami. My widzimy to trochę inaczej. Miejsce, w którym maszyny obsługujące sztuczną inteligencję wchodzą w interakcję z ludźmi, odzwierciedlając sposób, w jaki ludzie postrzegają świat. Nadal będziemy widzieć oczami maszyn, zwanymi także naszymi inteligentnymi okularami, ale sztuczna inteligencja w okularach będzie z nami współdziałać, aby zrozumieć wszystko, co widzi ona i jej ludzki odpowiednik.
Okulary Meta AI Ray-Ban i Snap Spectacles z integracją OpenAI to produkty, na które warto zwrócić uwagę. Ale Apple Vision Pro nadal jest tym, co zainspirowało nas do napisania Świat do noszenia. Apple już przygotowuje użytkowników do korzystania z Vision Pro dzięki funkcjom nagrywania przestrzennego wideo w iPhonie 15. Krążą pogłoski, że Apple szkoli pracowników Apple Genius w zakresie Vision Pro. To jedyne urządzenie o wystarczającej mocy, aby zanurzyć użytkownika w wirtualnym lesie deszczowym lub zobaczyć, ulepszyć i przetestować prototyp produktu. To komputer przestrzenny, który widzi świat i wchodzi w interakcję ze światem w taki sam sposób jak Ty.
Obliczenia przestrzenne to zaawansowana forma obliczeń 3D, której podstawą jest sztuczna inteligencja, wizja komputerowa i rozszerzona rzeczywistość, aby połączyć wirtualne doświadczenia ze światem fizycznym, który wyrywa się z ekranów i sprawia, że wszystkie powierzchnie stają się przestrzennymi interfejsami. Umożliwia ludziom, urządzeniom, komputerom, robotom i obiektom wirtualnym poruszanie się po komputerach w przestrzeni 3D. Zwiastuje nowy paradygmat interakcji człowiek-człowiek, a także człowiek-komputer, usprawniający sposób wizualizacji, symulacji i interakcji z danymi w lokalizacjach fizycznych lub wirtualnych oraz rozszerzający przetwarzanie poza granice ekranu na wszystko, co można zobaczyć, doświadczyć i poznać.
Obliczenia przestrzenne pozwalają nam poruszać się po świecie wraz z robotami, dronami, samochodami, wirtualnymi asystentami i nie tylko, i to nie ograniczając się do jednej technologii czy tylko jednego urządzenia. To połączenie oprogramowania, sprzętu i informacji umożliwia ludziom i technologii komunikowanie się na nowe sposoby, tworząc nową formę przetwarzania danych, która może mieć większy wpływ na społeczeństwo niż komputery osobiste i komputery mobilne.
Przenośne urządzenia AI, które widzą nasz świat
Sposób, w jaki współdziałamy ze sobą i korzystamy z technologii, ulegnie zmianie, gdy urządzenia do noszenia ze sztuczną inteligencją staną się standardem.
Jednak wyobrażenie sobie świata, który można nosić, nie zaczęło się od ogłoszenia zestawu słuchawkowego Apple Vision Pro do rzeczywistości mieszanej. Kiedy pisaliśmy, po raz pierwszy wyobraziliśmy sobie świat post-smartfonowy w 2020 roku Dzień w okularach rozszerzonej rzeczywistości. W artykule wyobraziliśmy sobie kobietę o imieniu Katie spacerującą przez cały dzień, wykonującą swoją pracę i odwiedzającą przyjaciół – przez okulary rzeczywistości rozszerzonej. Wchodziła w interakcję z obrazami 3D opartymi na sztucznej inteligencji, aby utrzymać swoje miejsce pracy, a przerwę na lunch zamieniła w galerię sztuki. Choć w naszej pracy wspominaliśmy o sztucznej inteligencji, nie znalazła się ona na głównej scenie.
Generatywna sztuczna inteligencja i ChatGPT uwolniły naszą wyobraźnię w 2023 r. W 2024 r. nasze pomysły zostaną udoskonalone. Rok 2024 będzie rokiem wizji. Od wizji komputerowej po wielkie modele wizyjne – w tym roku spojrzymy oczami maszyny, a technologie ubieralne staną się bardziej widoczne, interesujące i konkurencyjne. Choć tekst nadal króluje, wizja w wielu postaciach zmieni krajobraz technologiczny w ekscytujący i nieoczekiwany sposób i zapoczątkuje nowy wyścig technologiczny. Czy jesteś gotowy na rok, w którym wizja zaczyna odgrywać kluczową rolę?
Napisane we współpracy z Lily Snyder.
Chodź za mną Świergot Lub LinkedIn. spłacać Dla mnie strona internetowa.
„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.
More Stories
Ding! Christopher Ward ogłasza nowe Bel Canto
Najlepszą reklamą podczas wydarzenia Apple Mac była bezpłatna aktualizacja pamięci RAM dla MacBooka Air
Startup zajmujący się obserwacją Ziemi wychodzi z zapomnienia z 12 milionami dolarów