The Japan Times - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Tokyo 24°C

EUR -

AED 4.241501

AFN 76.225899

ALL 93.554047

AMD 421.168408

AOA 1060.230438

ARS 1715.656895

AUD 1.639343

AWG 2.078882

AZN 1.960998

BAM 1.957978

BBD 2.319179

BDT 142.188136

BHD 0.434183

BIF 3417.00026

BMD 1.154934

BND 1.477844

BOB 13.673207

BRL 5.867647

BSD 1.151481

BTN 109.772084

BWP 15.700461

BYN 3.349625

BYR 22636.715706

BZD 2.315876

CAD 1.618352

CDF 2627.475914

CHF 0.931576

CLF 0.027214

CLP 1074.552598

CNY 7.797307

CNH 7.795773

COP 3581.683414

CRC 522.981641

CUC 1.154934

CUP 30.605764

CVE 110.387769

CZK 24.225868

DJF 205.048047

DKK 7.475152

DOP 66.804297

DZD 153.472687

EGP 58.835639

ERN 17.324017

ETB 184.006946

FJD 2.556967

FKP 0.856809

GBP 0.855893

GEL 3.020138

GGP 0.856809

GHS 13.460971

GIP 0.856809

GMD 84.891799

GNF 10108.242008

GTQ 8.785771

GYD 240.867884

HKD 9.057285

HNL 30.853314

HRK 7.54669

HTG 150.557444

HUF 363.867906

IDR 20822.313646

ILS 3.537506

IMP 0.856809

INR 110.16978

IQD 1508.477672

IRR 1588179.269833

ISK 142.219015

JEP 0.856809

JMD 182.292739

JOD 0.818845

JPY 181.57706

KES 148.945652

KGS 100.999312

KHR 4659.181767

KMF 493.156852

KRW 1666.524381

KWD 0.357037

KYD 0.959567

KZT 545.626826

LAK 26077.001864

LBP 103117.983955

LKR 386.549906

LRD 207.841153

LSL 19.045882

LTL 3.410221

LVL 0.698608

LYD 7.367194

MAD 10.756663

MDL 20.122379

MGA 4924.476818

MKD 61.593502

MMK 2424.850425

MNT 4151.45627

MOP 9.302246

MRU 46.277468

MUR 54.282161

MVR 17.855218

MWK 1996.620567

MXN 20.037155

MYR 4.71814

MZN 73.811907

NAD 19.045882

NGN 1575.746553

NIO 42.37713

NOK 11.066871

NPR 175.635335

NZD 1.957192

OMR 0.444134

PAB 1.151481

PEN 3.90234

PGK 5.155734

PHP 70.745488

PKR 319.79146

PLN 4.307178

PYG 6865.635703

QAR 4.209281

RON 5.253334

RSD 117.520702

RUB 91.505504

RWF 1690.379977

SAR 4.325144

SBD 9.333147

SCR 15.60035

SDG 692.961179

SEK 11.020558

SGD 1.479777

SLE 28.523045

SOS 658.031838

SRD 43.635158

STD 23904.811825

STN 24.527278

SVC 10.075205

SZL 19.043179

THB 38.719182

TJS 10.62802

TMT 4.05382

TND 3.385065

TRY 54.854577

TTD 7.818696

TWD 37.31489

TZS 3050.792978

UAH 51.393558

UGX 4323.808778

USD 1.154934

UYU 46.331528

UZS 13783.329302

VES 861.230481

VND 30375.354155

VUV 137.078995

WST 3.158158

XAF 656.687343

XAG 0.020053

XAU 0.000285

XCD 3.121268

XCG 2.075208

XDR 0.816708

XOF 656.687343

XPF 119.331742

YER 275.221161

ZAR 19.011665

ZMK 10395.793255

ZMW 21.630056

ZWL 371.88843

AEX

-5.5200

1099.18

-0.5%
BEL20

31.6600

5685.82

+0.56%
PX1

24.6100

8509.64

+0.29%
ISEQ

-118.7900

13535.33

-0.87%
OSEBX

3.6300

2018.08

+0.18%
PSI20

-30.1800

9116.04

-0.33%
ENTEC

-5.8300

1416.23

-0.41%
BIOTK

-20.6300

4276.33

-0.48%
N150

-1.7100

4262.41

-0.04%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

CULTURE 29.06.2025

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

M.Ito--JT

The Japan Times - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

En vedette

Pour l'équipe de "Ted Lasso", revenir sur le terrain a été "ridiculement facile"

En Polynésie française, les antennes Starlink toujours interdites... mais très utilisées

Des Turcs s'offrent une escapade européenne sur des îles grecques

Le groupe de K-pop BTS renonce aux Grammy Awards après l'introduction d'une nouvelle catégorie