The Japan Times - IA aprende a mentir, manipular e ameaçar seus criadores

Tokyo 25°C

EUR -

AED 4.30878

AFN 75.088139

ALL 95.561304

AMD 435.019119

ANG 2.099991

AOA 1077.048119

ARS 1633.743618

AUD 1.628028

AWG 2.111859

AZN 1.992549

BAM 1.958981

BBD 2.363569

BDT 143.987894

BGN 1.957109

BHD 0.443079

BIF 3491.606608

BMD 1.173255

BND 1.496952

BOB 8.108753

BRL 5.813124

BSD 1.17352

BTN 111.32055

BWP 15.948049

BYN 3.311545

BYR 22995.796207

BZD 2.360153

CAD 1.594747

CDF 2721.951785

CHF 0.916036

CLF 0.026822

CLP 1055.636074

CNY 8.011278

CNH 7.99944

COP 4290.886514

CRC 533.520798

CUC 1.173255

CUP 31.091255

CVE 110.814062

CZK 24.36217

DJF 208.511097

DKK 7.472484

DOP 69.807476

DZD 155.414871

EGP 62.775014

ERN 17.598824

ETB 184.201363

FJD 2.570129

FKP 0.864241

GBP 0.863158

GEL 3.144316

GGP 0.864241

GHS 13.136436

GIP 0.864241

GMD 85.647414

GNF 10295.311947

GTQ 8.965435

GYD 245.506393

HKD 9.191291

HNL 31.231437

HRK 7.535932

HTG 153.725313

HUF 362.003077

IDR 20384.717408

ILS 3.45811

IMP 0.864241

INR 111.373802

IQD 1536.96393

IRR 1541656.949892

ISK 143.805466

JEP 0.864241

JMD 183.878547

JOD 0.831868

JPY 183.999313

KES 151.525537

KGS 102.56653

KHR 4707.687454

KMF 492.766707

KPW 1055.929389

KRW 1723.388282

KWD 0.361246

KYD 0.977959

KZT 543.555065

LAK 25788.142975

LBP 105064.976893

LKR 375.055706

LRD 215.732235

LSL 19.546108

LTL 3.464316

LVL 0.70969

LYD 7.450082

MAD 10.854074

MDL 20.219293

MGA 4869.007439

MKD 61.642351

MMK 2463.237101

MNT 4197.730703

MOP 9.46916

MRU 46.895281

MUR 54.861245

MVR 18.132674

MWK 2043.224376

MXN 20.452648

MYR 4.637894

MZN 74.955906

NAD 19.546663

NGN 1614.37562

NIO 43.070165

NOK 10.884579

NPR 178.104316

NZD 1.982771

OMR 0.451104

PAB 1.17349

PEN 4.11519

PGK 5.09046

PHP 72.119932

PKR 327.074167

PLN 4.246878

PYG 7217.425722

QAR 4.274757

RON 5.197052

RSD 117.321989

RUB 87.993368

RWF 1714.712049

SAR 4.399682

SBD 9.435445

SCR 17.459933

SDG 704.550818

SEK 10.811603

SGD 1.493199

SHP 0.875953

SLE 28.864339

SLL 24602.564306

SOS 669.928799

SRD 43.947762

STD 24284.007814

STN 24.884737

SVC 10.268679

SYP 129.673977

SZL 19.545913

THB 38.048375

TJS 11.007269

TMT 4.112258

TND 3.381027

TOP 2.824916

TRY 53.025844

TTD 7.96568

TWD 37.070747

TZS 3062.195542

UAH 51.563774

UGX 4412.59685

USD 1.173255

UYU 46.800573

UZS 14020.396174

VES 573.654487

VND 30901.774408

VUV 138.035069

WST 3.185609

XAF 657.071431

XAG 0.015654

XAU 0.000256

XCD 3.17078

XCG 2.114968

XDR 0.816151

XOF 657.022504

XPF 119.331742

YER 279.952314

ZAR 19.463185

ZMK 10560.703776

ZMW 21.915169

ZWL 377.787602

IA aprende a mentir, manipular e ameaçar seus criadores / foto: HENRY NICHOLLS - AFP

IA aprende a mentir, manipular e ameaçar seus criadores

TECNOLOGIA 29.06.2025

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

Y.Ishikawa--JT

The Japan Times - IA aprende a mentir, manipular e ameaçar seus criadores

IA aprende a mentir, manipular e ameaçar seus criadores

Apresentou

Casa Branca se opõe a ampliar acesso da Anthropic ao modelo Mythos, diz imprensa

Trump crê que EUA vai voltar a pisar na Lua antes do fim de seu mandato

UE quer obrigar Google a abrir Android para concorrentes de IA

Empresas de IA intensificam campanhas de influência para impactar medidas regulatórias