Nota
Privacidade ao usar IA
Consolidação prática sobre privacidade em IA com foco em Claude, ChatGPT, extensões de VS Code e Hermes Agent via API. Tese central: a diferença relevante não é o fornecedor, é o canal de uso (conta consumer, conta empresarial ou API direta).
Privacidade ao usar IA
Resumo
Consolidação pessoal de leituras sobre privacidade no uso de IA, com foco prático em Claude, Claude Code, ChatGPT, extensões de VS Code e Hermes Agent via API. A tese central é que a diferença relevante não é apenas o fornecedor, mas o canal de uso: conta consumer, conta empresarial ou API direta.
Potencial editorial
Este material tem potencial para virar conteúdo pessoal de blog porque combina pesquisa prática, decisão de uso próprio e uma tese clara: privacidade em IA não se resolve escolhendo “a ferramenta certa”, mas entendendo o contrato e o canal por onde o dado passa.
Possíveis recortes:
- “A pergunta errada é qual IA é mais privada”
- “Conta consumer e API não são o mesmo produto”
- “O problema não é usar IA no trabalho; é fingir que o canal não importa”
- “Privacidade em IA é uma decisão operacional, não um toggle escondido”
Perguntas de recuperação
- Qual é a diferença prática entre usar Claude/ChatGPT em conta consumer e usar API direta?
- Por que opt-out não resolve dados que já entraram no treinamento?
- Quais dados locais o Claude Code e o Hermes Agent mantêm fora do provedor de LLM?
- Quando faz sentido considerar ZDR ou modelo local?
Documento consolidado
Título original: Privacidade ao usar IA: o que coletam, o que treinam, como se proteger
Documento consolidado a partir de pesquisa em fontes acadêmicas (Stanford HAI), documentação oficial dos fornecedores (Anthropic, OpenAI, Nous Research, GitHub), imprensa especializada (Tom’s Guide, Fast Company, Built In) e literatura jurídica brasileira sobre LGPD. Foco prático nos quatro vetores que você usa: Claude no app desktop, Claude Code via terminal, ChatGPT (web/app e extensões de VS Code) e Hermes Agent com API da OpenAI ou Anthropic.
Convenção de citação: afirmações factuais aparecem com link inline para a fonte. Trechos marcados como
[síntese própria]são análises minhas que conectam pontos das fontes mas não saem diretamente delas.
1. Contexto: por que essa conversa importa agora
A privacidade em IA mudou de patamar entre 2024 e 2026. Três marcos definem o cenário atual:
A Anthropic, que historicamente se diferenciava por não treinar com conversas de usuários, mudou a política em setembro de 2025. Desde 8 de outubro de 2025, contas Claude Free, Pro e Max passaram a poder ter chats e sessões de Claude Code usados para treinar modelos novos, com retenção estendida para 5 anos quando o usuário aceita (Anthropic — Updates to Consumer Terms).
Um estudo do Stanford Institute for Human-Centered AI analisou 28 documentos de política das seis maiores fornecedoras (Amazon Nova, Anthropic Claude, Google Gemini, Meta AI, Microsoft Copilot, OpenAI ChatGPT) e concluiu que todas usam input do usuário para treinar, com graus variados de transparência e opt-out. A pesquisadora-chefe, Jennifer King, afirma que dados sensíveis em arquivos anexados também entram no pipeline de treinamento (Stanford HAI).
No Brasil, o relatório Cloud and Threat Report da Netskope (jan/2026) registrou em média 223 incidentes mensais por empresa envolvendo IA generativa — dado que mais que dobrou em relação a 2024. A ANPD foi elevada a autarquia especial em 2025 e já investiga responsabilização de fornecedores globais por vazamentos via IA (Portal Information Management).
A linha de fundo [síntese própria]: a divisão que importa hoje não é “qual fornecedor é mais privado”, é “qual tipo de conta/canal você está usando dentro do mesmo fornecedor”. Conta consumer e API do mesmo modelo seguem regras radicalmente diferentes.
2. As três perguntas centrais
Nota de tradução: a primeira pergunta enviada falava em “Modelos de Aprendizagem Baseados em Aprendizagem (LLMs)”. A sigla LLM é Large Language Models, traduzida em português como Grandes Modelos de Linguagem. Mantive a sigla LLM por ser o termo técnico padrão.
2.1 As interações dos usuários são usadas para treinar/aprimorar os LLMs?
A resposta curta é depende do canal, e mais especificamente, depende do tipo de conta/contrato sob o qual aquela interação está rodando, não da marca do modelo.
Claude no app desktop (claude.ai)
Sim, por padrão, desde 8 de outubro de 2025. A Anthropic abandonou a política anterior de não treinar com conversas de consumidor. Agora, contas Free, Pro e Max passam por uma escolha obrigatória ao logar: aceitar ou recusar o uso dos chats para treinamento. Quem clicou “Accept” sem ler com atenção entrou automaticamente no programa, com o toggle “Help improve Claude” pré-marcado como ON (Anthropic — Updates to Consumer Terms; Anonyome — Claude privacy).
A Anthropic confirma na sua Privacy Center: usa chats e sessões de código se você optou por permitir, se a conversa foi flagueada para revisão de segurança, ou se você se inscreveu explicitamente em programas de teste como o Trusted Tester Program (Anthropic Privacy Center — Is my data used for model training?).
Dado de retenção: se o opt-in está ligado, 5 anos em pipeline de treinamento (de-identificado); se desligado, 30 dias de retenção em logs (Anthropic Privacy Center — How long do you store my data?; Tom’s Guide).
Claude Code via terminal
Mesma regra do app desktop quando você loga com conta consumer (Free/Pro/Max), mas regra completamente diferente quando você usa via API ou conta Team/Enterprise.
A documentação oficial do Claude Code é explícita: para Free/Pro/Max, “treinaremos novos modelos usando dados dessas contas quando esta configuração estiver ligada (incluindo quando você usa Claude Code a partir delas)”. Já para usuários Commercial (Team, Enterprise, API, Bedrock, Vertex AI), “a Anthropic não treina modelos generativos usando código ou prompts enviados ao Claude Code sob termos comerciais, exceto se o cliente expressamente optou por fornecer os dados (ex: Developer Partner Program)” (Claude Code Docs — Data Usage).
Uma diferença operacional do Claude Code que vale notar [síntese própria]: ele cacheia transcrições localmente em ~/.claude/projects/ em plaintext por 30 dias por padrão, ajustável via cleanupPeriodDays. Isso é um vetor adicional — mesmo se o treinamento estiver desligado, qualquer pessoa com acesso ao seu disco lê histórico de sessões (Claude Code Docs — Data Usage).
ChatGPT (web/app)
Sim, por padrão, em todas as contas consumer (Free, Plus, Pro). A OpenAI documenta: “ChatGPT melhora por meio de treinamento adicional nas conversas que as pessoas têm com ele, exceto se você optar por sair” (OpenAI — How your data is used to improve model performance). O comportamento é opt-out — o padrão é “incluído”.
Para contas business (ChatGPT Team, Enterprise, Edu, Healthcare, Teachers e API), o padrão se inverte: não há treinamento sobre seus inputs/outputs por padrão (OpenAI — Business data privacy; OpenAI — Data Usage FAQ).
ChatGPT em VS Code (extensões)
Aqui o cenário fragmenta [síntese própria] — depende de qual extensão e qual chave o backend usa:
GitHub Copilot (oficial Microsoft): em março de 2026, a GitHub anunciou que passaria a usar interações com Copilot — input, output, snippets, comentários, nomes de arquivo, estrutura de repositório — para treinar modelos, com opt-out manual em github.com/settings/copilot/features (How-To Geek). Tiers Business e Enterprise têm treinamento desabilitado por padrão (Spellbook — Copilot vs ChatGPT).
Extensões third-party tipo “ChatGPT Copilot” (feiskyer) que pedem sua chave de API: o tráfego vai direto da sua máquina para api.openai.com (ou outro provedor) usando sua chave. Isso é uso de API, não de ChatGPT consumer — e portanto não é usado para treinamento por padrão desde 1º de março de 2023 (OpenAI — Data controls in the platform). Algumas dessas extensões anunciam “telemetry-free”, como a feiskyer/chatgpt-copilot no GitHub (repositório oficial).
Hermes Agent rodando com API direta (OpenAI ou Anthropic Opus)
Não, por padrão, em nenhum dos dois casos. Esta é provavelmente a configuração mais privada que você usa hoje [síntese própria], e por dois motivos somados:
Primeiro, o Hermes Agent é open-source da Nous Research, sob licença MIT, e o próprio site declara: “All data stays on your machine. No telemetry, no tracking, no cloud lock-in” (Hermes Agent — site oficial). O agente em si não envia suas conversas para a Nous; ele apenas faz chamadas HTTP do seu computador (ou do seu VPS) para o endpoint que você configurou.
Segundo, quando você configura a chave da OpenAI no Hermes, o tráfego vai para api.openai.com sob os termos da API. Esses termos são taxativos: “Your data is your data. As of March 1, 2023, data sent to the OpenAI API is not used to train or improve OpenAI models (unless you explicitly opt in to share data with us)” (OpenAI Developers — Data Controls). A retenção padrão é de 30 dias para abuse monitoring, e clientes elegíveis podem solicitar Zero Data Retention (ZDR), que descarta os logs imediatamente após processamento (Medium — OpenAI ZDR Policy).
Análogo para Claude Opus via API Anthropic: “Por padrão, não usaremos seus inputs ou outputs de nossos produtos comerciais (Claude for Work, Anthropic API, Claude Gov etc.) para treinar nossos modelos” (Anthropic — Is my data used for model training? (commercial)). E desde 14 de setembro de 2025 a retenção padrão da API caiu de 30 para 7 dias (Anarlog — Anthropic Data Retention Policy; DataStudios — Claude data retention).
Caveat importante [síntese própria]: o Hermes tem um recurso privacy.redact_pii que precisa ser ligado manualmente em config.yaml para que ele mascare PII no contexto do LLM (em plataformas WhatsApp, Signal, Telegram). Por padrão vem false (Hermes Agent Docs — Configuration). Ou seja: a infraestrutura do Hermes é privada, mas você precisa configurar o que ele de fato envia para o LLM.
Tabela-resumo
| Canal | Treina por padrão? | Retenção padrão | Opt-out disponível? |
|---|---|---|---|
| Claude.ai (Free/Pro/Max) | Sim, se aceitou em out/2025 | 5 anos (com opt-in) / 30 dias (sem) | Sim, manual |
| Claude Code com conta consumer | Sim (mesma regra do .ai) | 5 anos / 30 dias | Sim, manual |
| Claude Code com API key | Não | 7 dias (API) | N/A — já é opt-out |
| ChatGPT.com (Free/Plus/Pro) | Sim | Indefinida (até deletar) | Sim, manual |
| ChatGPT Team/Enterprise/Edu | Não | Configurável | N/A — já é opt-out |
| GitHub Copilot Individual em VS Code | Sim (desde mar/2026) | Conforme política Copilot | Sim, manual |
| GitHub Copilot Business/Enterprise | Não | Configurável | N/A |
| Extensão VS Code com sua API key OpenAI | Não | 30 dias (API OpenAI) | N/A |
| Hermes Agent + API OpenAI | Não | 30 dias (API OpenAI) | N/A |
| Hermes Agent + API Anthropic | Não | 7 dias (API Anthropic) | N/A |
Fontes consolidadas para a tabela: links já citados nas seções acima.
2.2 Que fontes e categorias de dados pessoais são coletadas?
O estudo de Stanford categoriza o que entra nos pipelines em três grupos: dados fornecidos diretamente pelo usuário (prompts, arquivos, áudio), dados inferidos a partir do uso (padrões de comportamento, perfil), e dados raspados da web pública que podem incidentalmente conter informação pessoal (Stanford HAI).
A Anthropic detalha as categorias específicas usadas para treinar modelos comerciais, que cobrem: dados de internet pública, dados licenciados de terceiros, dados gerados internamente por funcionários ou contratados, dados gerados por modelos próprios, e dados que o usuário expressamente autorizou (Development Partner Program) (Anthropic Privacy Center — How do you use personal data in model training?).
A OpenAI declara: “When you allow your content to be used to train our models” — abrange conteúdo de chat, imagens, arquivos enviados, feedback (thumbs up/down), e metadados do uso (OpenAI — How your data is used).
O artigo do Medium consolidou uma lista do que os chatbots populares coletam de forma rotineira: prompts e respostas; arquivos enviados (PDFs, imagens, código, áudio); metadados (IP, dispositivo, timestamps, geolocalização aproximada); dados de conta (e-mail, nome, pagamento); dados de integrações conectadas (Calendar, Gmail, Slack, Drive); feedback do usuário (Medium / Aftab).
Pesquisa da Harmonic Security (jan/2026) detalhou o conteúdo real do que funcionários colam em prompts: dados jurídicos e financeiros (30,8%), informações de clientes (27,8%), dados pessoais de titulares (14,9%), registros de funcionários (14,3%) e código-fonte sensível (10,1%) (Portal Information Management).
Um ponto importante e pouco compreendido [síntese própria]: pesquisadores demonstraram que LLMs memorizam trechos do treinamento. É possível extrair dados pessoais via “inversion attacks” (prompts elaborados para fazer o modelo cuspir input bruto) e “membership inference attacks” (dedução estatística de que um dado específico estava no conjunto de treino). Uma vez treinado, o dado não sai mais do modelo, mesmo que você apague o chat de origem (Built In; Netfriends).
Categorias específicas dos canais que você usa:
Claude Code (consumer) captura, além do conteúdo dos prompts: snapshots do código no contexto, comandos bash executados, outputs do terminal, arquivos abertos no IDE — tudo que entra no contexto do modelo. Localmente, mantém transcrições em ~/.claude/projects/ em texto puro. Quando opera no modo web (Anthropic-managed VM), também armazena clones temporários do repositório (Claude Code Docs — Data Usage).
Hermes Agent mantém memória persistente própria em SQLite local com FTS5 (busca full-text), arquivos memory.md e user.md que constroem um modelo de você ao longo de sessões, mais skills auto-criadas em ~/.hermes/skills/ (DataCamp — Hermes Agent; Hermes Agent Documentation). Tudo isso fica na sua máquina/VPS, mas é exposto ao LLM a cada turno via contexto — então o LLM provider vê esse conteúdo, mesmo que ele não saia do seu hardware para outros lugares.
2.3 Que opções o usuário tem para autorizar ou recusar treinamento?
Claude no app desktop
Caminho oficial: Configurações — Privacidade — Help improve Claude — toggle OFF (Anthropic — Updates to Consumer Terms; URL direta: claude.ai/settings/data-privacy-controls).
Existe ainda o Incognito Mode (ícone de fantasma na interface), introduzido em setembro de 2025: chats nesse modo nunca são usados para treinamento e não ficam salvos no histórico, mesmo se o toggle global estiver “On” (Anonyome — Claude privacy).
Limitações [síntese própria]: desligar o toggle não remove dados que já foram usados para treinar — o modelo não “desaprende”. Anthropic é explícita sobre isso (Anarlog). Conversas flagueadas por violação de Usage Policy podem ser revisadas humanamente e retidas por até 2 anos mesmo com opt-out (Anonyome).
Claude Code (terminal)
Se você usa com login Free/Pro/Max, a configuração de privacidade é a mesma do claude.ai/settings/data-privacy-controls — afeta ambos. Para garantir comportamento de API (sem treinamento), use uma chave de API direta em vez de OAuth de conta consumer (Claude Code Docs — Data Usage).
Variáveis de ambiente úteis para Claude Code [síntese própria, da documentação]: CLAUDE_CODE_DISABLE_FEEDBACK_SURVEY=1 desliga as pesquisas de satisfação, DISABLE_TELEMETRY=1 ou CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1 cortam ainda mais o tráfego não-essencial (Claude Code Docs — Data Usage).
ChatGPT (web/app)
Caminho: Profile icon — Settings — Data Controls — Improve the model for everyone — toggle OFF (OpenAI — Data Controls FAQ).
Existe também o Temporary Chat (ícone no topo direito da tela): conversas nesse modo não aparecem no histórico, não criam memórias, e não são usadas para treinar (OpenAI — How your data is used).
Ressalva importante: mesmo após o opt-out, conversas onde você der thumbs-up ou thumbs-down voltam a ser elegíveis para treinamento porque o feedback explícito é interpretado como autorização (OpenAI — How your data is used).
ChatGPT em VS Code
Para GitHub Copilot Individual: github.com/settings/copilot/features — Privacy — "Allow GitHub to use my data for AI model training" — Disabled (How-To Geek).
Para extensões third-party com chave de API: nada a fazer no nível de opt-out — o uso já está sob termos de API (não treina por padrão). Mas vale revisar se a extensão em si coleta telemetria; algumas como feiskyer/chatgpt-copilot declaram zero telemetria (repositório).
Hermes Agent + API direta
Não há opt-out a fazer no nível do treinamento — APIs comerciais OpenAI e Anthropic já são opt-out por padrão. O que você tem que configurar é em outras camadas [síntese própria]:
No ~/.hermes/config.yaml, ligar privacy.redact_pii: true se você usa o Hermes em gateways de mensagem (WhatsApp, Signal, Telegram) — isso faz o gateway substituir IDs de usuário por hashes determinísticos antes de mandar para o LLM (Hermes Agent Docs — Configuration).
Avaliar Zero Data Retention para sua chave de API se você processa dados regulados (saúde, finanças). ZDR está disponível mediante contrato para clientes elegíveis tanto na OpenAI quanto na Anthropic (Medium — OpenAI ZDR; Anthropic API and Data Retention Docs).
Se quer privacidade absoluta, configurar o Hermes com endpoint de modelo local via Ollama: hermes model — Custom endpoint — http://localhost:11434/v1 aponta para um modelo aberto rodando na sua máquina, sem nenhum tráfego externo de inferência (Hermes Agent Docs — AI Providers).
3. Como proteger seus dados na prática
Esta seção tem dois níveis: princípios gerais válidos para qualquer ferramenta e medidas específicas para Claude Code, ChatGPT e Hermes Agent.
3.1 Princípios gerais
Não cole o que não pode aparecer em outro lugar. A WeLiveSecurity (ESET) é categórica: não inserir senhas, dados bancários, documentos de identidade ou credenciais em qualquer chat de IA — essas ferramentas processam e podem usar para treinar modelos futuros (WeLiveSecurity). Um relatório da Microsoft citado pela ESET aponta que a maior parte das organizações não tem visibilidade sobre quais aplicações de IA seus funcionários usam nem que dados compartilham.
Trate “anonimização” com ceticismo. Os fornecedores afirmam de-identificar dados antes do treinamento, mas como nota a Fast Company, isso é declaração unilateral e não-verificável (Fast Company). E mesmo de-identificado, pesquisas demonstram que LLMs memorizam strings — re-identificação por inversion attacks é tecnicamente possível (Built In).
Use o modo certo para o conteúdo certo. Conteúdo casual ou exploratório pode ir em conta consumer com opt-out ligado. Conteúdo de cliente, código proprietário, dados financeiros ou jurídicos não deveriam tocar contas consumer mesmo com opt-out, porque não há Data Processing Agreement (DPA), e logs flagueados podem ser revisados manualmente (Anonyome; AMST Legal).
Autenticação forte e revisão periódica. Senhas robustas, MFA quando disponível, revisão periódica de termos atualizados, deleção de conversas antigas que não precisa mais. Acesso comprometido a uma conta de chatbot expõe todo o histórico, o que vira munição para engenharia social sofisticada (WeLiveSecurity).
Cuidado com integrações. Quando você conecta Calendar, Gmail, Slack ou Drive a um chatbot, ele acessa todo o conteúdo daqueles serviços, não só o que você perguntou. Isso amplia massivamente a superfície de exposição (Medium / Aftab).
Trate links e arquivos gerados como não-confiáveis. A própria ESET recomenda verificar URLs antes de clicar e analisar arquivos gerados pela IA com solução de segurança antes de baixar — IAs podem alucinar links maliciosos (WeLiveSecurity).
3.2 Específico para Claude Code
A regra de ouro [síntese própria]: se for trabalho profissional sério, use chave de API, não login consumer. A retenção cai de 5 anos (ou 30 dias com opt-out) para 7 dias da API, e o treinamento é desligado por contrato, não por toggle.
Concretamente: gere uma chave em console.anthropic.com, configure como ANTHROPIC_API_KEY no shell, e o Claude Code passa a operar sob Commercial Terms automaticamente (Claude Code Docs — Data Usage).
Limite o cache local: cleanupPeriodDays controla quanto tempo as transcrições ficam em ~/.claude/projects/. Padrão de 30 dias é razoável para sessão de retomada, mas se a máquina é compartilhada ou você trabalha com material muito sensível, reduza para 1-3 dias [recomendação minha].
Aproveite as flags de telemetria: DISABLE_TELEMETRY=1 ou CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1 cortam tráfego para Statsig (métricas operacionais que a Anthropic coleta para latência/uso) (Claude Code Docs — Data Usage).
Configure permissões agressivamente. O Claude Code já é read-only por padrão, e exige aprovação explícita para edição de arquivos, comandos bash, e fetch de rede (Claude Code Docs — Security). Não desligue isso. Considere ativar o sandbox bash com isolamento de filesystem e rede.
Para projetos com dados regulados (saúde, financeiro): converse com o Anthropic sales sobre HIPAA-ready API access (BAA) ou Zero Data Retention add-on (Anthropic API and Data Retention).
Auditoria de MCP servers: o Claude Code permite conectar MCP servers de terceiros — a documentação alerta que a Anthropic não audita esses servidores. Use só de fontes que você confia ou que você mesmo escreveu (Claude Code Docs — Security).
3.3 Específico para ChatGPT (web e VS Code)
Web/app: desligue o toggle de treinamento, e use Temporary Chat para qualquer conversa que você não quer no histórico de longo prazo (OpenAI — Data Controls FAQ). Considere desligar Memory também — ela mantém um perfil seu cross-conversa que aumenta superfície de exposição.
Não dê thumbs up/down em conversas sensíveis — esse gesto reativa elegibilidade para treinamento mesmo após opt-out (OpenAI — How your data is used).
Para uso profissional: se a empresa tem ChatGPT Team/Enterprise/Edu, use isso e não conta pessoal. As Enterprise Privacy Pages garantem por contrato que dados não são usados para treinamento e oferecem SOC 2, controle de retenção, EKM (Enterprise Key Management) e residência de dados (OpenAI — Business Data Privacy; OpenAI — Enterprise Privacy).
Em VS Code:
Se for GitHub Copilot Individual, vá em github.com/settings/copilot/features e desabilite o uso de dados para treinamento. Se for Business/Enterprise, isso já vem desligado por padrão (How-To Geek).
Se for extensão third-party com sua chave de API (como ChatGPT Copilot da feiskyer): você já está sob termos de API. O cuidado adicional é checar se a extensão tem telemetria própria — leia o README, prefira extensões open-source que declarem “telemetry-free” (feiskyer/chatgpt-copilot README). E desabilite a telemetria geral do VS Code: telemetry.telemetryLevel = "off" no settings.json.
Adicional [recomendação minha]: para projetos com código sensível, considere usar a extensão apontando para um endpoint local via Ollama (a chatgpt-copilot suporta isso configurando base URL http://localhost:11434/v1/) — assim você nem manda código pra nuvem.
3.4 Específico para Hermes Agent + API OpenAI
Esta é a sua configuração mais privada hoje, mas há ajustes que ainda recomendo [síntese própria]:
Liberar redact_pii no config. Por padrão false. Se usa o Hermes em qualquer gateway de mensagem (Telegram, WhatsApp, Signal), edite ~/.hermes/config.yaml:
privacy:
redact_pii: true
Isso faz o gateway substituir user IDs por hashes determinísticos antes de mandar pro LLM, mantendo distinguibilidade entre usuários sem expor identidade real (Hermes Agent — Configuration).
Proteger as credenciais. O Hermes guarda chaves de API em ~/.hermes/auth.json e variáveis de ambiente. Se rodar em VPS, isso está em disco do servidor — quem acessa o VPS tem suas chaves. Use disco criptografado ou tokens de curta duração quando possível (Hermes Agent — Providers).
Controlar a memória persistente. O Hermes mantém memory.md, user.md e SQLite com FTS5 cross-session — ele constrói um modelo seu ao longo do tempo. Isso é uma feature, mas é também superfície de exposição. Revise periodicamente o que está em ~/.hermes/memory/ e remova o que não precisa mais (DataCamp — Hermes Agent).
Decidir o modelo auxiliar com cuidado. O Hermes usa um “auxiliary model” para tarefas como compressão de contexto e visão, e por padrão é o mesmo modelo principal. Você pode rotear tarefas auxiliares para um modelo mais barato em outro provider — mas isso significa que o conteúdo da sua conversa vai para um terceiro provider durante a compressão. Se isso te preocupa, force auxiliary.compression.provider: "main" ou aponte para modelo local (Hermes Agent — Configuration).
Considerar Zero Data Retention na chave da OpenAI. Se processa material regulado, a OpenAI oferece ZDR mediante aprovação para clientes empresariais — o conteúdo é processado em memória e nunca escrito em disco/logs (Medium — OpenAI ZDR Policy).
Fallback para modelo local em casos extremos. O Hermes suporta nativamente Ollama. Para conversas com dados muito sensíveis, rode ollama pull qwen2.5-coder:32b (ou similar) e mude o provider durante a sessão com /model custom http://localhost:11434/v1. A inferência fica 100% offline e nada sai da sua máquina (Hermes Agent — Providers; freeCodeCamp — Ollama).
Se for VPS: isolar via firewall, monitorar conexões com tcpdump -i any host not 127.0.0.1 para confirmar que o agente só fala com os endpoints que você configurou, e verificar regularmente que não há tráfego de telemetria saindo (Local AI Master — Privacy Guide).
4. Riscos que poucas pessoas conhecem
Memorização e re-extração
Modelos de linguagem memorizam porções literais do treinamento. Pesquisadores documentaram dois tipos de ataque: inversion attacks (prompts cuidadosamente construídos que fazem o modelo cuspir o input bruto que aprendeu) e membership inference attacks (dedução estatística sobre se um dado específico estava no conjunto de treino, baseando-se em quão “familiarizado” o modelo parece com ele) (Built In). Uma vez que dado entrou no peso do modelo, ele não sai mais — apagar o chat de origem não desfaz isso (Netfriends).
Casos reais
Samsung e Apple proibiram IA pública após descobrirem vazamentos de segredos corporativos por funcionários colando código em ChatGPT (WS Mundo Tech).
McHire breach (2025): chatbot de recrutamento do McDonald’s expôs dados de mais de 64 milhões de candidatos por usar senha padrão “123456” — caso clássico de IA implantada sem segurança básica (Medium / Aftab).
Reddit vs Anthropic (jun/2025): Reddit processou Anthropic alegando scraping não-autorizado de mais de 100 mil posts e comentários para treinar Claude, com evidência de Claude reproduzindo posts deletados com precisão quase perfeita (Anarlog).
Shadow AI
Pesquisa Cisco 2024 Data Privacy Benchmark com 2.600 profissionais em 12 países: 27% das organizações baniram totalmente IA generativa, e ainda assim 48% dos funcionários dessas mesmas empresas admitiram ter inserido dados não-públicos nessas ferramentas. Gartner projeta que até 2027, 75% dos funcionários adquirirão, modificarão ou criarão tecnologia fora do campo de visão da TI corporativa (Portal Information Management).
[síntese própria] Para você que opera com cliente B2B (Epost): o risco maior é colega ou parceiro colando dado sensível em conta consumer sem perceber que está sob LGPD e que a empresa é controladora.
Manipulação consensual
A Stanford HAI critica o modelo de “consentimento informado” via Privacy Policy: documentos longos, em legalês, que precisam ser aceitos para usar o serviço. O resultado é consentimento enterrado — e em 2025-2026 ficou pior ainda, com toggles pré-marcados como “On” que coletam aceite sem leitura ativa (Stanford HAI; Anonyome).
5. Contexto regulatório (LGPD)
Para o Brasil, três pontos práticos [síntese própria, baseada em fontes brasileiras]:
Responsabilidade do controlador. Quando funcionário insere dados pessoais de cliente em IA pública, configura simultaneamente: transmissão a terceiro, potencial transferência internacional, e descumprimento do princípio de segurança do Art. 46. A responsabilidade, pelo Art. 42, recai sobre o controlador (a empresa), não sobre o funcionário individual (Portal Information Management).
ANPD com poderes ampliados. Em 2025 a ANPD foi elevada a autarquia especial. Já bloqueou preventivamente uso de dados pessoais para treinamento de IA por uma das maiores plataformas sociais e investiga responsabilização de empresa global por vazamento via ferramenta de IA (Portal Information Management).
Lacunas regulatórias da LGPD para IA generativa. Artigo da Revista do TCU aponta que, apesar de a LGPD ser avanço importante, ela apresenta limitações para lidar com IA generativa — falta diretriz específica, há lacunas sobre direito à explicação em decisões automatizadas, e a legislação ainda se ajusta ao fenômeno (Revista do TCU).
A NDM Advogados resume [parafraseado]: LGPD impõe princípios de transparência, finalidade, necessidade e segurança. Treinamento com dados de clientes sem justificativa legal específica é desvio de finalidade, sujeito a multas e sanções (NDM Advogados).
6. Glossário
Opt-in: padrão é “fora”, você precisa autorizar explicitamente para entrar.
Opt-out: padrão é “dentro”, você precisa desativar manualmente para sair. Quase todos os chatbots consumer hoje são opt-out para treinamento.
ZDR (Zero Data Retention): modo contratual em que o provedor não armazena seus inputs/outputs após processar a resposta. Disponível mediante contrato em OpenAI e Anthropic para clientes elegíveis.
DPA (Data Processing Agreement): contrato bilateral entre cliente empresarial e provedor que define obrigações de tratamento de dados. Contas consumer não têm DPA — daí porque não devem ser usadas para conteúdo regulado.
BAA (Business Associate Agreement): contrato exigido por HIPAA (regulação de saúde dos EUA) para tratar dados de saúde protegidos.
LGPD: Lei Geral de Proteção de Dados (Lei 13.709/2018) — equivalente brasileiro ao GDPR europeu.
Inversion attack / Membership inference attack: técnicas para extrair ou deduzir dados de treinamento a partir das respostas do modelo.
Shadow AI: uso de ferramentas de IA dentro da empresa sem aprovação ou visibilidade da TI.
7. Fontes consultadas
Documentação oficial dos fornecedores
- Anthropic — Updates to Consumer Terms and Privacy Policy
- Anthropic Privacy Center — Is my data used for model training? (consumer)
- Anthropic Privacy Center — Is my data used for model training? (commercial)
- Anthropic Privacy Center — How long do you store my data?
- Anthropic Privacy Center — How do you use personal data in model training?
- Claude API Docs — API and data retention
- Claude Code Docs — Data Usage
- Claude Code Docs — Security
- OpenAI — How your data is used to improve model performance
- OpenAI Help — Data Usage for Consumer Services FAQ
- OpenAI Help — Data Controls FAQ
- OpenAI Help — Disable model training while keeping history
- OpenAI — Business data privacy
- OpenAI — Enterprise privacy
- OpenAI Developers — Data controls in the platform
- Hermes Agent — Site oficial
- Hermes Agent Documentation — Configuration
- Hermes Agent Documentation — AI Providers
- Hermes Agent Documentation — Home
- GitHub — Repositório oficial Hermes Agent
Pesquisa acadêmica e imprensa
- Stanford HAI — Be Careful What You Tell Your AI Chatbot
- Stanford Report — Study exposes privacy risks of AI chatbot conversations
- Tom’s Guide — How to opt out of Claude AI training
- Built In — How to Opt Out of AI Training: 10 Ways to Protect Your Data
- Fast Company — Stop letting ChatGPT and other AI chatbots train on your data
- How-To Geek — GitHub’s Copilot will use you as AI training data, but you can opt out
- Anonyome — Claude privacy: How Anthropic handles your data
- AMST Legal — Anthropic’s Claude AI Updates - Impact on Privacy & Confidentiality
- Netfriends — AI Privacy Policy Evaluation: ChatGPT vs Gemini vs Claude
- Medium / Aftab — The Truth About AI Chatbot Data Privacy
- Medium / J Kes — OpenAI’s Zero Data Retention Policy
- Anarlog — Anthropic Claude Data Retention Policy 2026
- DataStudios — Claude data retention policies
- Spellbook — Copilot vs ChatGPT Privacy
- DataCamp — Nous Research Hermes Agent: Setup and Tutorial
- WeLiveSecurity (ESET) — 7 hábitos de segurança e privacidade ao usar IA
- WS Mundo Tech — 5 perigos ao inserir dados no ChatGPT
- freeCodeCamp — Protect Sensitive Data with Local LLMs
- Local AI Master — Local AI Privacy Guide 2025
Brasil / LGPD
- Portal Information Management — Seus funcionários alimentam o ChatGPT com dados sigilosos
- NDM Advogados — O que acontece com os dados que você sobe na IA
- Revista do TCU — Regulação de dados pessoais no Brasil, ChatGPT e IA
- Data Guide — Inteligência Artificial e LGPD
- Macher Tecnologia — IA e Privacidade: Riscos à LGPD
- Asimov Academy — LGPD e IA: o que programadores precisam saber
- NeuralMind — Segurança e privacidade em soluções de IA
- e-Trust — Proteção de dados com IA
- Direito Profissional — Como garantir privacidade em sistemas de IA
- Zendesk Brasil — IA na segurança e privacidade de dados
Documento consolidado em 03 de maio de 2026. Políticas de fornecedores de IA mudam com frequência — recomendo revisitar as fontes oficiais periodicamente.