The Japan Times - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

EUR -
AED 4.313468
AFN 77.598705
ALL 96.698386
AMD 447.792527
ANG 2.102883
AOA 1077.044807
ARS 1692.205144
AUD 1.764354
AWG 2.114155
AZN 2.001365
BAM 1.955767
BBD 2.361861
BDT 143.307608
BGN 1.957508
BHD 0.442093
BIF 3466.042156
BMD 1.17453
BND 1.514475
BOB 8.102865
BRL 6.365607
BSD 1.17268
BTN 106.04923
BWP 15.537741
BYN 3.457042
BYR 23020.795811
BZD 2.358461
CAD 1.618445
CDF 2630.948518
CHF 0.934916
CLF 0.027253
CLP 1069.11676
CNY 8.28573
CNH 8.284609
COP 4466.125466
CRC 586.590211
CUC 1.17453
CUP 31.125056
CVE 110.26316
CZK 24.276491
DJF 208.826515
DKK 7.472132
DOP 74.548756
DZD 152.289758
EGP 55.571073
ERN 17.617956
ETB 183.229742
FJD 2.668303
FKP 0.879936
GBP 0.878351
GEL 3.175767
GGP 0.879936
GHS 13.461775
GIP 0.879936
GMD 85.741137
GNF 10198.829794
GTQ 8.98185
GYD 245.335906
HKD 9.138141
HNL 30.873485
HRK 7.537789
HTG 153.707435
HUF 385.234681
IDR 19536.845016
ILS 3.785271
IMP 0.879936
INR 106.37734
IQD 1536.174363
IRR 49474.161194
ISK 148.465122
JEP 0.879936
JMD 187.756867
JOD 0.832789
JPY 182.950774
KES 151.217476
KGS 102.713135
KHR 4694.921647
KMF 492.719958
KPW 1057.060817
KRW 1731.880759
KWD 0.360233
KYD 0.977284
KZT 611.589793
LAK 25422.575728
LBP 105012.44747
LKR 362.353953
LRD 206.976546
LSL 19.78457
LTL 3.468083
LVL 0.710462
LYD 6.369894
MAD 10.78842
MDL 19.823669
MGA 5194.913303
MKD 61.548973
MMK 2466.385496
MNT 4167.553805
MOP 9.403343
MRU 46.930217
MUR 53.93488
MVR 18.092159
MWK 2033.466064
MXN 21.157878
MYR 4.812408
MZN 75.064681
NAD 19.78457
NGN 1706.088063
NIO 43.15928
NOK 11.906572
NPR 169.679168
NZD 2.023657
OMR 0.451612
PAB 1.17268
PEN 3.948134
PGK 5.054916
PHP 69.43241
PKR 328.640215
PLN 4.225315
PYG 7876.868545
QAR 4.273829
RON 5.092651
RSD 117.378041
RUB 93.579038
RWF 1706.771516
SAR 4.407079
SBD 9.603843
SCR 17.649713
SDG 706.484352
SEK 10.887784
SGD 1.517615
SHP 0.881202
SLE 28.335591
SLL 24629.319496
SOS 668.988835
SRD 45.275842
STD 24310.407882
STN 24.499591
SVC 10.260829
SYP 12986.886804
SZL 19.77767
THB 37.109332
TJS 10.77682
TMT 4.122602
TND 3.428143
TOP 2.827988
TRY 50.011936
TTD 7.957867
TWD 36.804032
TZS 2902.351563
UAH 49.548473
UGX 4167.930442
USD 1.17453
UYU 46.019232
UZS 14127.764225
VES 314.116117
VND 30897.196663
VUV 142.580188
WST 3.259869
XAF 655.946053
XAG 0.018958
XAU 0.000273
XCD 3.174228
XCG 2.113465
XDR 0.815786
XOF 655.946053
XPF 119.331742
YER 280.129715
ZAR 19.820741
ZMK 10572.187233
ZMW 27.059548
ZWL 378.198309
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: Fabrice COFFRINI - AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

T.Sasaki--JT