The Japan Times - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

EUR -
AED 4.250593
AFN 72.324867
ALL 95.930454
AMD 436.637368
ANG 2.071496
AOA 1061.158156
ARS 1617.145032
AUD 1.665045
AWG 2.085575
AZN 1.971949
BAM 1.953338
BBD 2.331262
BDT 142.030979
BGN 1.978023
BHD 0.436948
BIF 3434.010038
BMD 1.157206
BND 1.481046
BOB 8.015931
BRL 6.108085
BSD 1.157441
BTN 108.457108
BWP 15.860489
BYN 3.42671
BYR 22681.245746
BZD 2.327966
CAD 1.594856
CDF 2635.536793
CHF 0.916224
CLF 0.026909
CLP 1062.52355
CNY 7.976273
CNH 7.986744
COP 4289.833615
CRC 539.324876
CUC 1.157206
CUP 30.66597
CVE 110.368555
CZK 24.458023
DJF 205.658378
DKK 7.472359
DOP 69.287759
DZD 153.613393
EGP 60.854389
ERN 17.358096
ETB 182.115406
FJD 2.576756
FKP 0.864491
GBP 0.865538
GEL 3.141849
GGP 0.864491
GHS 12.61934
GIP 0.864491
GMD 84.47616
GNF 10160.272133
GTQ 8.863828
GYD 242.250938
HKD 9.056587
HNL 30.689286
HRK 7.538506
HTG 151.770015
HUF 391.574297
IDR 19578.775346
ILS 3.616675
IMP 0.864491
INR 108.945427
IQD 1515.940404
IRR 1521784.29691
ISK 143.783137
JEP 0.864491
JMD 182.659769
JOD 0.820422
JPY 184.13698
KES 149.857154
KGS 101.195963
KHR 4646.183459
KMF 491.81255
KPW 1041.452386
KRW 1737.904695
KWD 0.354834
KYD 0.964613
KZT 558.775699
LAK 24937.798398
LBP 103627.834229
LKR 363.834554
LRD 212.461728
LSL 19.499067
LTL 3.41693
LVL 0.699982
LYD 7.400305
MAD 10.833822
MDL 20.245095
MGA 4819.76486
MKD 61.649193
MMK 2429.704088
MNT 4130.036574
MOP 9.328386
MRU 46.41584
MUR 56.923438
MVR 17.878826
MWK 2010.068175
MXN 20.624886
MYR 4.578484
MZN 73.94226
NAD 19.464141
NGN 1596.824364
NIO 42.492237
NOK 11.24966
NPR 173.52728
NZD 1.994342
OMR 0.444953
PAB 1.157441
PEN 4.018968
PGK 4.982357
PHP 69.517947
PKR 323.150002
PLN 4.277843
PYG 7552.480583
QAR 4.216841
RON 5.09437
RSD 117.422922
RUB 93.154734
RWF 1689.521367
SAR 4.343819
SBD 9.317499
SCR 16.673401
SDG 695.480938
SEK 10.833142
SGD 1.482144
SHP 0.868205
SLE 28.409612
SLL 24266.052459
SOS 661.347025
SRD 43.210374
STD 23951.836413
STN 25.030375
SVC 10.128234
SYP 128.423928
SZL 19.499125
THB 37.8852
TJS 11.106389
TMT 4.050222
TND 3.361709
TOP 2.786275
TRY 51.314926
TTD 7.864156
TWD 36.992649
TZS 2974.020449
UAH 50.834846
UGX 4334.536595
USD 1.157206
UYU 47.170545
UZS 14123.703968
VES 528.269768
VND 30500.489496
VUV 138.237827
WST 3.181015
XAF 655.134076
XAG 0.016648
XAU 0.000264
XCD 3.127408
XCG 2.086089
XDR 0.814857
XOF 657.873131
XPF 119.331742
YER 276.167476
ZAR 19.76026
ZMK 10416.242604
ZMW 21.90539
ZWL 372.619994
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: Fabrice COFFRINI - AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

T.Sasaki--JT