Annons

Kommer multimodal generativ AI att bli en industriell gamechanger?

Storkonsulten BOSTON CONSULTING GOUP (BCG) ställer frågan i rubriken i sitt senaste nyhetsbrev apropå Googles lansering av Gemini. Denna, menar man, kan ses som det senaste framsteget inom generativ AI, och lyfter i hög grad fram en förändring mot multimodalitet.
Men först, vad innebär begreppet ”multimodalitet”? Det kan förklaras på följande sätt: Multimodal AI är ett nytt AI-paradigm, där olika datatyper, t ex bild, text, tal, eller numerisk data, kombineras med flera algoritmer för intelligensbearbetning; allt i akt och mening att på sista raden uppnå högre prestanda. Multimodala generativa AI-system förlitar sig vanligtvis på modeller som kombinerar ovan nämnda typer av indata. AI-lösningen konverterar sedan dem till utdata, som också kan innehålla textbaserade svar, bilder, videor och/eller ljud. Sett till denna definition är sålunda ChatGPTs uppgradering är ett anmärkningsvärt exempel på ett multimodalt AI-system.
”Istället för att använda en enda AI-modell utformad för att fungera med en enda form av input, som en stor språkmodell (LLM) eller tal-till-röst-modell, arbetar flera modeller tillsammans för att skapa ett mer sammanhängande AI-verktyg,” skriver BGC. Till bakgrunden hör att vid lanseringen revolutionerade ChatGPT (GPT3.5) innehållsproduktionen, och efterföljande stora multimodala modeller (LMM), som GPT4 och Gemini, har båda potential att revolutionera sektorer som tillverkning, e-handel och jordbruk, varav tillverkningssidan är särskilt intressant för PLM&ERP News läsare. Hur då? Genom att snarare vara tränade på bara text är de nya LMMerna tränade på bilder, kod och text. Med Gemini får man dessutom ljud och video i tillägg. Plötsligt får Ain därmed kapacitet att direkt uppfatta den fysiska världen. Med ytterligare tillägg av nya modaliteter och i open source-miljöer, kan LMMs industriella industriella tillämpningar vässas ytterligare.
- Sådan multimodal förmåga kommer att förändra industrin, säger dr Leonid Zhukov, chef för BCG Global AI Institute, och tillägger: ”Traditionell AI är begränsad av förinställda regler – användare bestämmer vad de vill att AI ska göra och tränar den för den uppgiften. Medan GenAI-modeller frigörs från denna begränsning, går LMMer ännu längre. De kan ta in så många former av data att de skulle kunna reagera på till synes obegränsade situationer i den fysiska världen, inklusive de som användare inte kan förutse.”
Några sådana industriella tillämpningar skulle kunna vara handla om prediktivt, förutsägande underhåll, och optimering av produktionsanläggningar. Men mer då?

Företagens nuvarande 10-20% effektivitetsvinster från GenAI-bots kan expandera till nya domäner med LMM, säger Zhukov. Och detta är ändå bara början.
– Dagens LMM kan se och höra världen. I morgon kan de också tränas på digitala signaler från utrustning, IoT-sensorer eller kundtransaktionsdata – för att skapa en komplett bild av ditt företags hälsa på egen hand, utan explicita instruktioner, säger Zhukov.

Potentiella industriella tillämpningar
Istället för att bara flagga kända felpunkter kan LMMer ta in video, ljud och vibrationer genom hela produktionslinjen – och därmed oberoende övervaka för subtila förändringar och identifiera oväntade tecken på försämring.

Att smälta visuella data för att öka förståelsen är effekter som följer med i detta. ”På en sorteringsanläggning kan algoritmer redan ha i uppdrag att upptäcka enskilda föremål, till exempel plastflaskor för återvinning. LMMer kunde självständigt se och analysera allt avfall, filtrera stora blandningar av objekt och identifiera oförutsedda föremål.

Leonid Zhukov, chef för BCG Global AI Institute.

Annat BCGs Zhukov pekar ut berör möjligheter till framsteg inom medicinsk. ”LMMer kan förbättra noggrannheten hos AI-modeller som analyserar skanningar som MRI-, CT- och röntgen genom att lägga in ljuddata som hjärtslag och sedan använda naturligt språk för att samarbeta med läkarna om personliga behandlingsplaner.

Ta drastiska grepp i datastrategin
Summeringsvis hävdar chefen för BCGs Global AI Institute BCGs att företag nu måste förbereda sig för att integrera multimodala modeller.
Enligt honom bör ledare:

  • Ta drastiska grepp för att se över sin datastrategi och verksamhet. ”LMMs lovar att leverera enormt värde från underutnyttjad (eller oinsamlad) data. Detta är betydelsefullt eftersom, enligt en studie av Seagate, företag för närvarande underutnyttjar upp till 70 % av data de samlar in. Företag måste också se till att data har rätt funktioner, till exempel tidsstämplar, för att matas in i modellerna.”
  • Ska man bygga eget eller partnersamarbeta sig fram till lösningar? Här gäller dett att bestämma sig. ”AI-tjänster kommer sannolikt att utvecklas från några få stora modeller till många mindre industriella. Och till skillnad från rena textmodeller är det osannolikt att multimodala modeller kommer att erbjuda direkta lösningar direkt, eftersom industriell data inte är allmänt tillgänglig. Vissa stora industriaktörer kan välja att bygga sina egna modeller och erbjuda dem som en tjänst för andra; mindre företag kommer att behöva hitta rätt partner. Det valet kommer att avgöra vilken typ av utbildning och anställning som behövs för att stödja och integrera modellerna.”
  • Övervaka GenAIs utveckling. ”LMMer har potential att bli hjärnan hos autonoma agenter – som inte bara känner utan också agerar på sin miljö – under de kommande 3 till 5 åren. Detta kan bana väg för helautomatiserade arbetsflöden,” tror Zhukov.
Print Friendly, PDF & Email

Success Stories

Industriellt

Success Stories

Intressant på PLM TV News

PLM TV News

PLM TV News

PLM TV News

PLM TV News

PLM TV News

Aktuell ANALYS

Aktuell Analys

Aktuell Analys

3D-printing

Block title