The Japan Times - IA aprende a mentir, manipular e ameaçar seus criadores

EUR -
AED 4.277424
AFN 76.282379
ALL 96.389901
AMD 444.278751
ANG 2.0846
AOA 1067.888653
ARS 1666.882107
AUD 1.752778
AWG 2.096182
AZN 1.984351
BAM 1.954928
BBD 2.344654
BDT 142.403852
BGN 1.956425
BHD 0.438198
BIF 3455.206503
BMD 1.164546
BND 1.508021
BOB 8.044377
BRL 6.334667
BSD 1.164081
BTN 104.66486
BWP 15.466034
BYN 3.346807
BYR 22825.091832
BZD 2.341246
CAD 1.610276
CDF 2599.265981
CHF 0.936525
CLF 0.027366
CLP 1073.571668
CNY 8.233458
CNH 8.232219
COP 4463.819362
CRC 568.64633
CUC 1.164546
CUP 30.860456
CVE 110.752812
CZK 24.203336
DJF 206.963485
DKK 7.470448
DOP 74.822506
DZD 151.068444
EGP 55.295038
ERN 17.468183
ETB 180.679691
FJD 2.632397
FKP 0.872083
GBP 0.872973
GEL 3.138497
GGP 0.872083
GHS 13.3345
GIP 0.872083
GMD 85.012236
GNF 10116.993527
GTQ 8.917022
GYD 243.550308
HKD 9.065929
HNL 30.604708
HRK 7.535429
HTG 152.392019
HUF 381.994667
IDR 19435.740377
ILS 3.768132
IMP 0.872083
INR 104.760771
IQD 1525.554607
IRR 49041.926882
ISK 149.038983
JEP 0.872083
JMD 186.32688
JOD 0.825709
JPY 180.935883
KES 150.58016
KGS 101.839952
KHR 4664.005142
KMF 491.43861
KPW 1048.083022
KRW 1716.311573
KWD 0.357481
KYD 0.970163
KZT 588.714849
LAK 25258.992337
LBP 104285.050079
LKR 359.069821
LRD 206.012492
LSL 19.73949
LTL 3.438601
LVL 0.704422
LYD 6.347216
MAD 10.756329
MDL 19.807079
MGA 5225.31607
MKD 61.612515
MMK 2445.475195
MNT 4130.063083
MOP 9.335036
MRU 46.419225
MUR 53.689904
MVR 17.938355
MWK 2022.815938
MXN 21.164687
MYR 4.787492
MZN 74.426542
NAD 19.739485
NGN 1688.68458
NIO 42.826206
NOK 11.767853
NPR 167.464295
NZD 2.015483
OMR 0.446978
PAB 1.164176
PEN 4.096293
PGK 4.876539
PHP 68.66747
PKR 326.50949
PLN 4.229804
PYG 8006.428369
QAR 4.240169
RON 5.092096
RSD 117.610988
RUB 88.93302
RWF 1689.755523
SAR 4.37074
SBD 9.584899
SCR 15.748939
SDG 700.4784
SEK 10.946786
SGD 1.508557
SHP 0.873711
SLE 27.603998
SLL 24419.93473
SOS 665.542019
SRD 44.985272
STD 24103.740676
STN 24.921274
SVC 10.184839
SYP 12877.828498
SZL 19.739476
THB 37.119932
TJS 10.680789
TMT 4.087555
TND 3.436865
TOP 2.803946
TRY 49.523506
TTD 7.89148
TWD 36.437508
TZS 2835.668687
UAH 48.86364
UGX 4118.162907
USD 1.164546
UYU 45.529689
UZS 13980.369136
VES 296.437311
VND 30697.419423
VUV 142.156196
WST 3.249257
XAF 655.661697
XAG 0.019993
XAU 0.000278
XCD 3.147243
XCG 2.098055
XDR 0.815205
XOF 655.061029
XPF 119.331742
YER 277.802752
ZAR 19.711451
ZMK 10482.311144
ZMW 26.913878
ZWL 374.983176
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: HENRY NICHOLLS - AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

Y.Ishikawa--JT