The Japan Times - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

EUR -
AED 4.356256
AFN 77.102519
ALL 96.729833
AMD 453.280378
ANG 2.123363
AOA 1087.730931
ARS 1716.407515
AUD 1.703027
AWG 2.138096
AZN 2.01145
BAM 1.957011
BBD 2.40819
BDT 146.110377
BGN 1.992042
BHD 0.449378
BIF 3542.291098
BMD 1.186184
BND 1.514237
BOB 8.262111
BRL 6.235172
BSD 1.19564
BTN 109.797916
BWP 15.644677
BYN 3.405506
BYR 23249.200887
BZD 2.404687
CAD 1.615618
CDF 2686.705937
CHF 0.916565
CLF 0.026028
CLP 1027.744898
CNY 8.246052
CNH 8.251497
COP 4352.992561
CRC 592.066225
CUC 1.186184
CUP 31.433869
CVE 110.333247
CZK 24.330941
DJF 212.911697
DKK 7.467917
DOP 75.276563
DZD 154.566608
EGP 55.909475
ERN 17.792756
ETB 185.73929
FJD 2.61512
FKP 0.866428
GBP 0.866359
GEL 3.196822
GGP 0.866428
GHS 13.098102
GIP 0.866428
GMD 86.591171
GNF 10491.489553
GTQ 9.170673
GYD 250.144728
HKD 9.263715
HNL 31.558521
HRK 7.534519
HTG 156.476789
HUF 381.053191
IDR 19896.452606
ILS 3.665789
IMP 0.866428
INR 108.766523
IQD 1566.368884
IRR 49967.989338
ISK 145.081737
JEP 0.866428
JMD 187.365896
JOD 0.841039
JPY 183.859615
KES 154.365483
KGS 103.731752
KHR 4807.973992
KMF 492.265869
KPW 1067.565349
KRW 1720.932795
KWD 0.364064
KYD 0.996416
KZT 601.341962
LAK 25730.915962
LBP 107070.628969
LKR 369.758716
LRD 215.513307
LSL 18.984543
LTL 3.502492
LVL 0.71751
LYD 7.502641
MAD 10.845709
MDL 20.110439
MGA 5343.305123
MKD 61.678151
MMK 2491.375458
MNT 4230.383521
MOP 9.614947
MRU 47.706509
MUR 53.888177
MVR 18.338709
MWK 2073.282437
MXN 20.709403
MYR 4.675926
MZN 75.630943
NAD 18.984543
NGN 1644.620269
NIO 43.997215
NOK 11.444004
NPR 175.676666
NZD 1.96843
OMR 0.458323
PAB 1.19564
PEN 3.997573
PGK 5.118166
PHP 69.884035
PKR 334.513515
PLN 4.213639
PYG 8008.953971
QAR 4.359296
RON 5.100467
RSD 117.472663
RUB 90.549444
RWF 1744.479055
SAR 4.450194
SBD 9.550693
SCR 17.214648
SDG 713.492182
SEK 10.570575
SGD 1.508244
SHP 0.889945
SLE 28.853899
SLL 24873.67862
SOS 683.322672
SRD 45.134883
STD 24551.608082
STN 24.515164
SVC 10.461471
SYP 13118.687676
SZL 18.978739
THB 37.242691
TJS 11.161404
TMT 4.151643
TND 3.435325
TOP 2.856045
TRY 51.596109
TTD 8.118021
TWD 37.48105
TZS 3078.804407
UAH 51.245698
UGX 4274.644098
USD 1.186184
UYU 46.3987
UZS 14617.04143
VES 410.350069
VND 30769.605664
VUV 140.90849
WST 3.215484
XAF 656.362996
XAG 0.014208
XAU 0.000248
XCD 3.205721
XCG 2.154833
XDR 0.816305
XOF 656.362996
XPF 119.331742
YER 282.697194
ZAR 19.196652
ZMK 10677.081704
ZMW 23.464514
ZWL 381.950673
  • AEX

    4.6900

    1001.65

    +0.47%

  • BEL20

    11.8200

    5385.38

    +0.22%

  • PX1

    54.8900

    8126.53

    +0.68%

  • ISEQ

    182.8100

    13147.76

    +1.41%

  • OSEBX

    3.8600

    1760.38

    +0.22%

  • PSI20

    17.2900

    8662.19

    +0.2%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    -39.8700

    4028.03

    -0.98%

  • N150

    11.3700

    3930.64

    +0.29%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

M.Ito--JT