ai5 ottobre 20259 min di lettura

Integrare funzionalità AI in prodotti esistenti

Una guida pratica per integrare l'AI in prodotti che hanno già utenti — dalla scelta del modello giusto ai pattern di deployment in produzione.

aillmintegration

Integrare funzionalità AI in prodotti esistenti

Aggiungere l'AI a un prodotto che ha già utenti è fondamentalmente diverso dal costruire una startup AI-first. Hai un'infrastruttura esistente, pattern UX consolidati, aspettative reali degli utenti e — cosa più importante — cose che possono rompersi. Questo articolo copre i pattern che ho trovato affidabili dopo aver rilasciato funzionalità AI in diverse applicazioni in produzione.

Scegliere tra i provider di modelli

La decisione sul provider del modello non è permanente, e non dovrebbe essere trattata come tale. Ogni provider ha punti di forza distinti che contano in produzione.

OpenAI (GPT-4o, GPT-4.1) rimane l'opzione più collaudata per la generazione di testo general-purpose. L'API è stabile, la documentazione è completa e l'ecosistema di strumenti attorno ad essa è maturo. Se hai bisogno di function calling, output JSON strutturato o ampio supporto multilingua, OpenAI è un default sicuro.

Anthropic (Claude) eccelle nel seguire istruzioni sfumate e nei task con contesto lungo. Quando la tua funzionalità coinvolge l'elaborazione di documenti di grandi dimensioni, il mantenimento di system prompt complessi o la gestione di task dove il modello deve dire "non lo so" piuttosto che allucinare, Claude tende a performare meglio. Le capacità di thinking/reasoning nei modelli Claude sono anche forti per task analitici multi-step.

Google Gemini vale la pena considerarlo quando la tua funzionalità coinvolge input multimodali — in particolare quando devi elaborare immagini, video o audio insieme al testo nella stessa richiesta. L'architettura multimodale nativa di Gemini evita la sensazione di funzionalità di visione "appiccicate" dei modelli text-first. Il pricing per casi d'uso ad alto throughput è anche competitivo.

La risposta pratica: inizia con qualsiasi provider il tuo team conosce meglio, ma progetta il tuo sistema in modo da poter cambiare. Il lock-in del provider è il vero rischio, non scegliere il modello "sbagliato" al primo giorno.

Il pattern API Wrapper

Ogni integrazione AI dovrebbe stare dietro un livello di astrazione. Non perché cambierai sicuramente provider, ma perché dovrai sicuramente aggiungere logging, caching, rate limiting e logica di fallback — e non vuoi farlo in 40 posti diversi.

interface AIProvider {
  generateText(prompt: string, options?: GenerateOptions): Promise<AIResponse>;
  generateStream(prompt: string, options?: GenerateOptions): AsyncGenerator<string>;
  generateStructured<T>(prompt: string, schema: z.ZodSchema<T>, options?: GenerateOptions): Promise<T>;
}

interface GenerateOptions {
  model?: string;
  temperature?: number;
  maxTokens?: number;
  systemPrompt?: string;
}

interface AIResponse {
  content: string;
  usage: { promptTokens: number; completionTokens: number };
  model: string;
  latencyMs: number;
}

L'implementazione concreta per un dato provider resta snella:

class AnthropicProvider implements AIProvider {
  private client: Anthropic;

  constructor(apiKey: string) {
    this.client = new Anthropic({ apiKey });
  }

  async generateText(prompt: string, options?: GenerateOptions): Promise<AIResponse> {
    const start = Date.now();
    const response = await this.client.messages.create({
      model: options?.model ?? "claude-sonnet-4-20250514",
      max_tokens: options?.maxTokens ?? 1024,
      temperature: options?.temperature ?? 0.7,
      system: options?.systemPrompt,
      messages: [{ role: "user", content: prompt }],
    });

    const textBlock = response.content.find((b) => b.type === "text");
    return {
      content: textBlock?.text ?? "",
      usage: {
        promptTokens: response.usage.input_tokens,
        completionTokens: response.usage.output_tokens,
      },
      model: response.model,
      latencyMs: Date.now() - start,
    };
  }

  // ... generateStream, generateStructured
}

Poi un service layer gestisce le preoccupazioni trasversali:

class AIService {
  constructor(
    private provider: AIProvider,
    private cache: CacheStore,
    private logger: Logger,
    private fallbackProvider?: AIProvider
  ) {}

  async generate(prompt: string, options?: GenerateOptions): Promise<AIResponse> {
    const cacheKey = this.buildCacheKey(prompt, options);
    const cached = await this.cache.get<AIResponse>(cacheKey);
    if (cached) return cached;

    try {
      const response = await this.provider.generateText(prompt, options);
      this.logger.info("ai_generation", {
        model: response.model,
        tokens: response.usage,
        latencyMs: response.latencyMs,
      });
      await this.cache.set(cacheKey, response, { ttl: 3600 });
      return response;
    } catch (error) {
      if (this.fallbackProvider) {
        this.logger.warn("ai_fallback_triggered", { error: String(error) });
        return this.fallbackProvider.generateText(prompt, options);
      }
      throw error;
    }
  }
}

Questo pattern si ripaga entro la prima settimana. Quando OpenAI ha un'interruzione (e succederà), passi al provider di fallback. Quando devi fare debug di un problema di prompt in produzione, i log sono già lì.

Prompt engineering in produzione

I prompt in produzione non sono stringhe nel tuo codice sorgente. Sono una preoccupazione separata che necessita di versionamento, testing e osservabilità.

Il sistema di template che uso è semplice:

interface PromptTemplate {
  id: string;
  version: number;
  system: string;
  user: string;
  variables: string[];
}

const LISTING_DESCRIPTION: PromptTemplate = {
  id: "listing-description",
  version: 3,
  system: `You are a professional copywriter for a restaurant platform.
Write compelling menu item descriptions.
Rules:
- Max 2 sentences
- Mention key ingredients
- Never use the word "delicious" or "mouth-watering"
- Match the restaurant's tone: {{tone}}`,
  user: `Write a description for: {{itemName}}
Category: {{category}}
Ingredients: {{ingredients}}`,
  variables: ["tone", "itemName", "category", "ingredients"],
};

function renderPrompt(
  template: PromptTemplate,
  vars: Record<string, string>
): { system: string; user: string } {
  let system = template.system;
  let user = template.user;

  for (const key of template.variables) {
    const value = vars[key];
    if (!value) throw new Error(`Missing variable: ${key}`);
    system = system.replaceAll(`{{${key}}}`, value);
    user = user.replaceAll(`{{${key}}}`, value);
  }

  return { system, user };
}

Il numero di versione conta. Quando cambi un prompt, incrementa la versione e registrala insieme a ogni richiesta. Quando un utente segnala che l'output AI è cambiato, puoi risalire all'esatta versione del prompt. Conserva i template dei prompt in un database o un file di configurazione — non hardcoded — così puoi aggiornarli senza fare un nuovo deploy.

Testa i tuoi prompt come testi il codice. Mantieni un set di fixture input/output. Quando cambi un prompt, esegui le fixture e rivedi manualmente le differenze. La valutazione automatica sta migliorando, ma la revisione umana delle modifiche ai prompt cattura ancora problemi che le metriche non rilevano.

Risposte in streaming per la UX

Gli utenti tollereranno un'attesa di 3 secondi per una risposta completa. Non tollereranno fissare uno spinner per 15 secondi. Lo streaming risolve questo problema.

async function* streamAIResponse(
  provider: AIProvider,
  prompt: string,
  options?: GenerateOptions
): AsyncGenerator<string> {
  const stream = provider.generateStream(prompt, options);

  for await (const chunk of stream) {
    yield chunk;
  }
}

// In your API route (Next.js example)
export async function POST(request: Request) {
  const { prompt, options } = await request.json();

  const encoder = new TextEncoder();
  const stream = new ReadableStream({
    async start(controller) {
      try {
        for await (const chunk of streamAIResponse(aiProvider, prompt, options)) {
          controller.enqueue(encoder.encode(`data: ${JSON.stringify({ text: chunk })}\n\n`));
        }
        controller.enqueue(encoder.encode("data: [DONE]\n\n"));
        controller.close();
      } catch (error) {
        controller.enqueue(
          encoder.encode(`data: ${JSON.stringify({ error: "Generation failed" })}\n\n`)
        );
        controller.close();
      }
    },
  });

  return new Response(stream, {
    headers: {
      "Content-Type": "text/event-stream",
      "Cache-Control": "no-cache",
      Connection: "keep-alive",
    },
  });
}

Lato client, consuma lo stream e aggiorna la UI progressivamente. La differenza di performance percepita è drammatica — gli utenti vedono il contenuto apparire entro 200-400ms invece di aspettare la generazione completa.

Un dettaglio implementativo che conta: bufferizza le parole parziali lato client. Alcuni provider inviano token che spezzano le parole a metà. Accumula un piccolo buffer e renderizza solo le parole complete per evitare il tremolio visivo.

Controllo dei costi e strategie di caching

I costi delle API AI possono sorprenderti. Una funzionalità che costa $2/giorno in staging può costare $2.000/giorno in produzione se non hai pensato al caching.

Il caching semantico è l'ottimizzazione con il maggior impatto. Se due utenti fanno domande funzionalmente identiche, servi la risposta dalla cache. Non hai bisogno di un database vettoriale per questo — inizia con il caching exact-match su input normalizzati. Calcola l'hash del prompt (dopo aver iniettato le variabili) e salva la risposta con un TTL.

Il routing a modelli gerarchici risparmia denaro senza degradare la qualità. Non ogni richiesta ha bisogno del tuo modello più costoso. Instrada i task di classificazione semplici verso un modello più piccolo e riserva il modello grande per la generazione complessa:

function selectModel(task: AITask): string {
  switch (task.complexity) {
    case "classification":
    case "extraction":
      return "gpt-4o-mini"; // fast, cheap
    case "generation":
      return "claude-sonnet-4-20250514"; // balanced
    case "reasoning":
      return "claude-opus-4-20250514"; // maximum quality
  }
}

Imposta limiti di budget rigidi. La maggior parte dei provider supporta limiti di utilizzo a livello di API key. Usali. Implementa anche il rate limiting a livello applicativo per utente — un utente abusivo non dovrebbe bruciare il tuo budget mensile in un pomeriggio.

Monitora il costo per funzionalità, non solo la spesa totale. Tagga ogni chiamata API con la funzionalità che l'ha attivata. Quando arriva la fattura, devi sapere che la funzionalità "genera automaticamente descrizioni SEO" rappresenta il 60% della tua spesa, non solo che hai speso $X in totale.

Degradazione graduale

Le funzionalità AI andranno in down. Le interruzioni dei provider accadono. I rate limit vengono raggiunti. Le richieste di rete vanno in timeout. Il tuo prodotto deve continuare a funzionare.

Il principio: le funzionalità AI dovrebbero migliorare l'esperienza, non bloccarla. Se la ricerca basata sull'AI non è disponibile, fai fallback alla ricerca per keyword. Se la generazione di contenuti AI fallisce, mostra all'utente un form di input manuale. Non mettere mai l'AI in un percorso critico senza una via alternativa.

Implementazione pratica:

Timeout. Imposta timeout aggressivi sulle chiamate AI (10-15 secondi massimo). Una risposta lenta è peggio di nessuna risposta per la maggior parte dei flussi UX.
Circuit breaker. Dopo N fallimenti consecutivi, smetti di chiamare il provider per un periodo di cooldown. Questo previene i fallimenti a cascata e evita di bruciare soldi su richieste che falliranno.
Fallback pre-generati. Per funzionalità come descrizioni dei prodotti o raccomandazioni, mantieni un set di fallback basati su template che funzionano senza AI. Non saranno altrettanto buoni, ma saranno qualcosa.
Comunicazione nella UI. Comunica all'utente cosa è successo. "I suggerimenti AI sono temporaneamente non disponibili" è molto meglio di un errore generico o di uno spinner infinito.

Esempi concreti

La generazione di contenuti AI è il punto di integrazione più comune. Per una piattaforma di marketing, questo ha significato costruire una pipeline che prende un brief di prodotto, genera variazioni di copy pubblicitari, le valuta rispetto alle linee guida del brand (usando una seconda chiamata AI) e presenta i migliori candidati a un revisore umano. L'insight chiave: l'AI genera, gli umani curano. La funzionalità che permette agli utenti di modificare e affinare l'output AI è tanto importante quanto la generazione stessa.

La computer vision per l'interior design richiede un'architettura diversa. L'elaborazione di foto di stanze per l'analisi dello stile e il rilevamento dei mobili comporta l'invio di immagini a un modello di visione, il parsing dell'output strutturato e l'abbinamento dei risultati con un catalogo prodotti. La latenza è più alta, quindi il pattern UX si sposta verso l'elaborazione asincrona con notifiche push piuttosto che l'attesa sincrona con visualizzazione.

La ricerca intelligente sostituisce il matching tradizionale per keyword con la comprensione semantica. Per una piattaforma di ristorazione, questo ha significato indicizzare le voci del menu con embedding, così una ricerca per "qualcosa di piccante e vegetariano" restituisce risultati pertinenti anche se quelle esatte parole non appaiono in nessuna voce. La generazione degli embedding avviene al momento della scrittura (quando i menu vengono aggiornati), non al momento della query — questo mantiene la ricerca veloce indipendentemente dalla latenza del provider AI.

In ogni caso, si applicano gli stessi principi: wrappa il provider, versiona i prompt, usa il caching in modo aggressivo e abbi sempre un fallback.

Rilasciare funzionalità AI in modo responsabile

Il divario tra una demo AI e una funzionalità AI in produzione è enorme. Le demo non hanno bisogno di caching, gestione degli errori, controllo dei costi o degradazione graduale. La produzione sì. I pattern in questo articolo non sono teorici — vengono dal rilascio di funzionalità AI da cui utenti reali dipendono quotidianamente.

Dal redesign di stanze basato sull'AI agli studi di contenuti automatizzati, ho rilasciato funzionalità AI su app mobile, piattaforme SaaS e sistemi backend. La tecnologia è genuinamente potente, ma è la disciplina ingegneristica attorno ad essa che determina se gli utenti ameranno la funzionalità o impareranno a evitarla.

Inizia con il pattern wrapper, aggiungi l'osservabilità dal primo giorno, metti in cache tutto ciò che può essere messo in cache, e dai sempre agli utenti un percorso da seguire quando l'AI non è disponibile. I modelli continueranno a migliorare. Il tuo lavoro è assicurarti che l'integrazione sia abbastanza solida da trarne vantaggio.

Danil Ulmashev

Full Stack Developer

Interessato a collaborare?

Prenota una chiamata gratuita Lavori