Meta lancia strumenti di sicurezza avanzati per Llama: ecco le novità

Meta lancia nuovi strumenti di sicurezza per il modello IA Llama, tra cui LlamaFirewall e moduli come Agent Alignment Checks e PromptGuard 2, per affrontare le minacce informatiche emergenti.
Meta lancia strumenti di sicurezza avanzati per Llama: ecco le novità - Socialmedialife.it

Meta ha presentato martedì scorso una serie di nuovi strumenti di sicurezza dedicati al suo modello di intelligenza artificiale, Llama. Questi strumenti sono progettati per supportare gli sviluppatori nella creazione di applicazioni più sicure, affrontando le crescenti preoccupazioni legate alla sicurezza informatica nel campo dell’IA.

Seguici su Google News

Ricevi i nostri aggiornamenti direttamente nel tuo feed di
notizie personalizzato

Seguici ora

Introduzione a LlamaFirewall

La principale innovazione introdotta è LlamaFirewall, un framework open-source concepito per aiutare gli sviluppatori a identificare e prevenire attacchi mirati come la prompt injection e interazioni con plugin sospetti. Inoltre, il framework si propone anche di garantire che il codice generato sia sicuro. Secondo quanto comunicato da Meta su un repository GitHub dedicato al progetto, LlamaFirewall funge da orchestratore per i modelli IA ed è in grado di integrarsi con altri prodotti già esistenti nel panorama della sicurezza informatica.

Meta ha descritto LlamaFirewall come uno strumento progettato specificamente per rilevare e mitigare i rischi associati all’intelligenza artificiale. Questo strumento supporta diversi livelli sia di input che output, coprendo non solo le interazioni tipiche delle chat basate su modelli linguistici , ma anche operazioni più complesse che coinvolgono agenti multi-step. Il framework include una serie diversificata di scanner destinati ad affrontare vari rischi legati alla sicurezza.

Moduli del framework: Agent Alignment Checks, CodeShield e PromptGuard 2

LlamaFirewall è composto da tre moduli distintivi: Agent Alignment Checks, CodeShield e PromptGuard 2.

Il primo modulo, Agent Alignment Checks, funge da auditor analizzando il flusso logico degli agenti AI per prevenire errori potenzialmente dannosi o tentativi di prompt injection. Questa funzione è cruciale poiché garantisce che le risposte generate siano coerenti e prive d’incongruenze.

CodeShield rappresenta un motore d’analisi statica finalizzato a impedire la creazione di codice non sicuro durante lo sviluppo delle applicazioni IA. La sua implementazione mira a ridurre significativamente i rischi associati all’esecuzione del codice generato automaticamente dai sistemi IA.

Infine c’è PromptGuard 2, un aggiornamento significativo rispetto al precedente modello omonimo. Questa nuova versione migliora notevolmente la capacità del sistema nell’individuare tentativi sia di jailbreak che prompt injection attraverso l’uso d’un dataset ampliato rispetto alle versioni precedenti; ciò consente una migliore analisi dei vari tipi d’input/output ricevuti dal sistema.

Caratteristiche tecniche del nuovo PromptGuard 2

PromptGuard 2 si distingue anche per la sua versatilità operativa; nella sua versione base utilizza ben 86 milioni di parametri ma esiste anche una variante più compatta con soli 22 milioni di parametri – questa opzione offre prestazioni superiori in termini di velocità ed efficienza computazionale ridotta.

Grazie alla sua leggerezza strutturale, PromptGuard 2 può essere eseguito sia su CPU che GPU, rendendolo particolarmente adatto all’analisi in tempo reale degli input provenienti dagli LLM . Questo aspetto facilita l’individuazione rapida dei tentativi malevoli come jailbreak o manipolazione dei dati forniti agli algoritmi AI.

Aggiornamenti sulla suite CyberSecEval

Oltre ai miglioramenti apportati a LlamaFirewall e ai suoi moduli principali, Meta ha annunciato aggiornamenti significativi anche riguardo CyberSecEval – la suite dedicata ai benchmark sulla cybersecurity dei modelli IA. Tra le novità ci sono due nuovi strumenti: CyberSOC Eval e AutoPatchBench.

CyberSOC Eval serve a misurare l’efficacia dei sistemi IA nei Security Operation Center , mentre AutoPatchBench valuta quanto bene i sistemi come Llama possono applicare automaticamente patch necessarie contro vulnerabilità scoperte nel software utilizzato dalle aziende o dagli sviluppatori stessi. Questi aggiornamenti evidenziano l’impegno continuo dell’azienda nel garantire standard elevati nella protezione delle applicazioni basate sull’intelligenza artificiale.

Change privacy settings
×