OpenAI uppdaterar Codex med dator- och minneskontroll

  • Codex integreras med datorn: den styr skrivbordsappar, visar skärmen och använder sin egen markör utan att avbryta användaren.
  • Agenten använder nytt minne, återanvänder konversationer och automatiserar långsiktiga uppgifter med flera agenter som arbetar parallellt.
  • Den inkluderar en integrerad webbläsare, bildgenerering med gpt-image-1.5 och förbättrat stöd för utvecklararbetsflöden.
  • Uppdateringen kommer först på macOS; i Europa och Storbritannien är vissa funktioner försenade på grund av datareglering.

Codex-uppdatering med datorstyrning

OpenAI har tagit ytterligare ett steg i integrationen av artificiell intelligens med daglig datoranvändning genom att helt omarbeta Codex, deras programkodsagent för skrivbordet. Verktyget, som tidigare främst var känt för sin programmeringshjälp, håller nu på att bli en assistent som kan hantera applikationer, komma ihåg inställningar och hantera projekt nästan sömlöst.

Med den här uppdateringen närmar sig företaget, som leds av Sam Altman, sin plan att skapa en En "superapp" för datorer som förenar ChatGPT, Codex och din Atlas-webbläsareSyftet med åtgärden är att förenkla användarupplevelsen, koncentrera resurser till en enda arbetsyta och utmana konkurrenter som Anthropic, särskilt inom mjukvaruutvecklingsmiljö och avancerad automatisering.

Codex lär sig att använda datorn som vilken annan användare som helst

En av de mest slående förändringarna är att Codex nu kan styra datorn i bakgrundenAgenten kan se vad som finns på skärmen, flytta sin egen markör, klicka, skriva text och reagera på vad som händer i de installerade applikationerna, utan att avbryta det användaren gör med musen eller tangentbordet.

Den här funktionen gör det möjligt för flera Codex-agenter att arbeta tillsammans parallellt i samma lagDetta innebär att utföra tester, ändra konfigurationer eller utföra repetitiva uppgifter medan personen fortsätter med sina normala aktiviteter. Detta öppnar dörren för att automatisera arbetsflöden som tidigare krävde konstant övervakning, såsom att testa en applikation efter varje kodändring eller upprepa gränssnittsåtgärder.

OpenAI föreslår den här funktionen som ett sätt för assistenten att arbeta med verktyg som inte har ett API eller direkta integrationer, något som är vanligt i många skrivbordsprogram. Codex, genom att "se" skärmen och styra markören, kan interagera med dessa applikationer precis som en mänsklig användare skulle göra, men för närvarande på ett kontrollerat sätt och med särskild uppmärksamhet på säkerhet.

Enligt företaget är datoranvändning initialt tillgänglig i macOS via Codex-skrivbordsprogrammet, länkad till ett ChatGPT-konto. Windows-versionen kommer senare, när prestandan har testats och funktionerna har anpassats till Microsoft-miljön.

När det gäller Europa och Storbritannien har OpenAI bekräftat att datorkontroll, avancerad anpassning, kontextuella förslag och minne De kommer att aktiveras senare. Anledningen är behovet av att anpassa dessa funktioner till dataskyddsförordningar, ett särskilt högt krav i Europeiska unionen och på den brittiska marknaden.

Codex med minne och appkontroll

Integrerad webbläsare och direkt arbete på webbsidor

Uppdateringen stärker också Codex relation med webben tack vare en webbläsare integrerad i själva applikationenIstället för att bara ta emot generiska textinstruktioner kan agenten ta emot kommandon direkt på specifika element på en sida.

Inom frontend-utveckling kan användaren till exempel Välj en webbkomponent och beskriv ändringen. Användaren vill göra något (som att ändra färg, textstorlek eller layout på ett block), och Codex förstår instruktionerna inom det specifika visuella sammanhanget. Detta undviker att behöva skriva långa instruktioner som förklarar vilken del av webbplatsen som behöver ändras.

Den här inbäddade webbläsaren tillåter även Codex Analysera innehåll, samla information och använd den som kontext För andra uppgifter, som att dokumentera kod, granska produktspecifikationer eller jämföra teknisk dokumentation, görs allt i samma miljö, utan att behöva växla mellan flera operativsystemfönster.

Generera och redigera bilder med gpt-image-1.5

En annan grundpelare i den nya versionen av Codex är integrationen av modellen gpt-image-1.5 för att skapa och modifiera bilder Inifrån själva skrivbordsapplikationen kan agenten generera diagram, mockups eller visuella skisser från text, eller genom att kombinera instruktioner med skärmdumpar och kodavsnitt.

Denna kapacitet riktar sig direkt till de team som arbetar i produktdesign, användargränssnitt eller prototyper för videospelTill exempel kan en utvecklare ta en skärmdump av ett halvfärdigt gränssnitt, be Codex att föreslå en omdesign av menyn eller ett nytt färgschema och få genererade bilder som passar det sammanhanget, utan att byta verktyg.

Med allt centraliserat i Codex kan agenter kedja samman kodnings- och designuppgifter: skriv logiken för en funktionalitet, uppdatera motsvarande frontend och generera en visuell mockup att presentera för teamet, utan att lämna arbetsflödet eller behöva öppna externa grafikredigeringsprogram.

Minne, kontext och långsiktig uppgiftsautomatisering

Utöver datorstyrning och bildgenerering är OpenAIs stora satsning med den här versionen att utrusta Codex med en beständigt minne och mycket bredare kontexthanteringVerktyget kan återanvända tidigare samtal, bevara viktig information och hämta den vid behov för att fortsätta ett projekt.

Minnesfunktionen, som släpps i förhandsvisning, gör det möjligt för Codex komma ihåg personliga preferenser, frekventa korrigeringar eller data som var svåra att samla inDetta inkluderar allt från ett teams typiska teknikstack till hur mappar är organiserade, de vanligaste rapportformaten och taggen som vanligtvis används på GitHub för vissa typer av problem.

Med den ackumulerade kontexten kan agenten proaktivt föreslå uppgifterDetta kan användas för att föreslå att ett oavslutat projekt återupptas, rekommendera pågående refactoring eller meddela användare om långvariga pull requests. Vissa företag använder det redan för att spåra konversationer i Slack, Gmail eller Notion och reagera när vissa händelser inträffar.

Codex kan också planera arbete för framtiden och återaktivera dig självständigt för att slutföra långsiktiga uppgifter. Till exempel kan den hantera en kö av kodgranskningar i dagar eller veckor, ta itu med kommentarer och uppdatera dokumentation utan att utvecklaren behöver övervaka den ständigt.

Över 90 tillägg och förbättrat utvecklarstöd

För att slutföra förändringen har OpenAI lagt till nästan 90 nya Codex-pluginsDessa inkluderar integrationer med Microsoft Suite, GitLab Issues, Neon by Databricks, Render och Superpowers, samt stöd för MCP-servrar (Model Context Protocol). Målet är att ge agenten fler kontextkällor och större operativa möjligheter.

Tack vare dessa plugins kan Codex samla in information från olika tjänster och agera utifrån den Från en enda arbetsyta kan du granska problem i GitLab, fråga efter data i en Databricks-miljö, uppdatera Office-dokument eller interagera med distributionstjänster, utan att tvinga användaren att hoppa från plattform till plattform.

Rent tekniskt stärker uppdateringen typiska arbetsflöden för utvecklareNu hjälper Codex dig att granska pull requests, hantera flera terminalflikar samtidigt, ansluta till fjärrutvecklingsmiljöer via SSH och öppna filer med omfattande förhandsvisningar, oavsett om det är PDF-filer, kalkylblad, presentationer eller dokument i andra format.

Allt detta är koncentrerat i en enhetlig upplevelse som, enligt OpenAI själva, möjliggör snabbare framsteg. i alla steg av mjukvarans livscykelFrån att skriva den initiala koden till att testa, driftsätta, dokumentera och underhålla den, med AI-agenter som kontinuerligt samarbetar inom samma skrivbordsmiljö.

Tillgänglighet, fokus på utvecklare och situationen i Europa

Den nya versionen av Codex driftsätts redan i skrivbordsapplikation för macOS För dig som loggar in med ett ChatGPT-konto. Alla funktioner kräver inte samma typ av prenumeration, och vissa avancerade funktioner kan bero på vilket abonnemang som köpts, vilket är fallet med andra OpenAI-verktyg.

Thibault Sottiaux, chef för Codex, förklarade att den här uppdateringen Den är särskilt riktad mot utvecklareÄven om avsikten är att utöka den till en mer bred publik senare, är tanken att tekniska team ska vara de första att dra nytta av de nya agenterna och automatiserade arbetsflödena och med tiden överföra den modellen till kontorsuppgifter, dokumenthantering eller personlig produktivitet.

OpenAI betonar att användningen av datorkraft och minne implementeras med en säkerhets- och regelefterlevnadsmetodDetta är särskilt relevant i Europeiska unionen och Storbritannien. Av denna anledning kommer det att ta lite längre tid innan avancerade anpassningsfunktioner, kontextuella förslag, permanent minne och direkt operativsystemkontroll blir tillgängliga på dessa marknader.

I vilket fall som helst hävdar företaget att denna utveckling av Codex öppnar dörren för en skrivbords-superapplikation fokuserad på intelligent automatiseringdär AI-agenter inte bara hjälper till att skriva kod, utan också koordinerar uppgifter, anpassar sig till användarens arbetsstil och håller komplexa projekt igång under längre perioder. För mjukvaruutvecklare i Europa är budskapet tydligt: ​​nya funktioner kommer, men med nödvändiga justeringar för att passa inom det befintliga regelverket.