Maestro y Sociedad e-ISSN 1815-4867
Volumen 22 Número 4 Año 2025
Artículo original
Poética y estética: el uso de la inteligencia artificial en el montaje cinematográfico
Poetics and aesthetics: the use of artificial intelligence in film editing
Poética e estética: o uso da inteligencia artificial na montage cinematográfica
Dr. C. Kleber Mazziero de Souza *, https://orcid.org/0000-0002-7289-3181
Giovana de Souza Neves, https://orcid.org/0009-0000-1050-3574
Centro Universitário Belas Artes de São Paulo, Brasil
*Autor para correspondencia. email kleber@klebermazziero.com
Para citar este artículo: Mazziero de Souza, K. y de Souza Neves, G. (2025). Poética y estética: el uso de la inteligencia artificial en el montaje cinematográfico. Maestro y Sociedad, 22(4), 3851-3860. https://maestroysociedad.uo.edu.cu
RESUMEN
Introducción: Este trabajo es el resultado de una investigación que examinó la capacidad de una muestra de espectadores de cine para percibir las diferencias entre escenas editadas por un dispositivo de Inteligencia Artificial (IA) y aquellas editadas por un ser humano. El objetivo de la investigación era determinar si los participantes identificaban diferencias y si calificaban las ediciones realizadas como mejores o peores.Materiales y métodos: Como metodologia se creó una adaptación de la famosa «Escena del Balcón» de la obra de Shakespeare «Romeo y Julieta». La escena se grabó simultáneamente con cuatro cámaras y se editó dos veces: una con un dispositivo de IA y otra con un profesional de la edición (disponible en https://bit.ly/46iXZro). Posteriormente, mediante un método de investigación en profundidad, se entrevistó a los participantes que vieron ambas versiones de la escena. Resultados y discusión: Sus respuestas indicaron que la edición humana sería más natural y atractiva, lo que resalta la importancia de la sensibilidad artística en el proceso de edición cinematográfica. Conclusiones: Además, reveló que, a pesar de los avances tecnológicos, la IA aún presenta limitaciones para construir el ritmo y la intención dramática del montaje.
Palabras clave: Inteligencia Artificial; montaje cinematográfico; cine; poética.
Abstract
Introduction: This work is the result of research that examined the ability of a sample of filmgoers to perceive differences between scenes edited by an Artificial Intelligence (AI) device and those edited by a human. The aim of the research was to determine whether participants identified differences and whether they rated the edits as better or worse. Materials and methods: As a methodology, an adaptation of the famous "Balcony Scene" from Shakespeare's "Romeo and Juliet" was created. The scene was filmed simultaneously with four cameras and edited twice: once with an AI device and once with a professional editor (available at https://bit.ly/46iXZro). Subsequently, using an in-depth research method, participants who viewed both versions of the scene were interviewed. Results and discussion: Their responses indicated that the human edit was more natural and appealing, highlighting the importance of artistic sensibility in the film editing process. Conclusions: Furthermore, it revealed that, despite technological advances, AI still has limitations in constructing the rhythm and dramatic intent of editing.
Keywords: Artificial Intelligence; film editing; cinema; poetics.
Resumo
Introdução: Este trabalho é resultado de uma pesquisa que examinou a capacidade de uma amostra de espectadores de cinema em perceber diferenças entre cenas editadas por um dispositivo de Inteligência Artificial (IA) e aquelas editadas por um humano. O objetivo da pesquisa foi determinar se os participantes identificaram diferenças e se classificaram as edições como melhores ou piores. Materiais e métodos: Como metodologia, foi criada uma adaptação da famosa "Cena da Sacada" de "Romeu e Julieta", de Shakespeare. A cena foi filmada simultaneamente com quatro câmeras e editada duas vezes: uma com um dispositivo de IA e outra com um editor profissional (disponível em https://bit.ly/46iXZro). Posteriormente, utilizando um método de pesquisa aprofundada, os participantes que assistiram a ambas as versões da cena foram entrevistados. Resultados e discussão: Suas respostas indicaram que a edição humana foi mais natural e atraente, destacando a importância da sensibilidade artística no processo de edição cinematográfica. Conclusões: Além disso, revelou que, apesar dos avanços tecnológicos, a IA ainda apresenta limitações na construção do ritmo e da intenção dramática da edição.
Palavras-chave: Inteligência Artificial; edição cinematográfica; cinema; poética.
Recibido: 21/7/2025 Aprobado: 4/9/2025
Introducción
El avance tecnológico es un tema recurrente en esta segunda década del siglo XXI. Las innovaciones tecnológicas suscitan amplios debates, que abarcan desde la necesidad real de dispositivos comercializados hasta el uso adecuado de los recursos tecnológicos para garantizar que el equilibrio del planeta no se vea gravemente afectado. Uno de los protagonistas de estos debates es el continuo desarrollo de la inteligencia artificial (IA).
En su estudio, Stuart Russell remonta los orígenes de la IA a 1956:
El estudio se basa en la hipótesis de que, en principio, es posible describir con tanta precisión todos los aspectos del aprendizaje, o cualquier otra característica de la inteligencia, que una máquina podrá simularlos. Se buscará descubrir cómo lograr que las máquinas utilicen el lenguaje, formen abstracciones y conceptos, y resuelvan problemas previamente reservados para los humanos (RUSSEL, 2021, p. 14).
Con más de 50 años de diferencia, en la primera década del siglo XXI, se acuñó el término «tecnofobia» (DEMO, 2009), que describe el miedo irracional del ser humano al desarrollo de nuevas tecnologías, como la IA. ¿Cuáles serían las razones de este miedo a un dispositivo cuyo principal propósito sería simplificar las tareas humanas?
Como se puede observar en la figura a continuación (MCKINSEY & COMPANY, 2024), una de las razones sería el creciente uso de dispositivos tecnológicos para realizar tareas que normalmente serían realizadas por humanos en empresas y corporaciones, y, en consecuencia, el miedo a perder el empleo.

Figura 1: Uso de IA en las organizaciones.
Fuente: Gráfico de McKinsey and Company CNN. (Ramos, (2024).
En gran medida, el temor está justificado, después de todo, la IA ha demostrado la capacidad de crear rostros humanos inexistentes, generar voces similares a las humanas y comprender comandos cada vez más complejos.
Una de las áreas de la actividad humana que se ha visto afectada por el uso de la IA es la producción audiovisual, especialmente en el campo de la edición. En esta segunda década del siglo XXI, la IA se ha utilizado para editar vídeos de forma rápida y sencilla, especialmente para la difusión de contenido audiovisual en redes sociales. Este tipo de edición se basa en cortes automáticos que aíslan secciones de vídeos largos —como videocasts— para crear contenido corto que capta la atención del consumidor. Disponibles en diversas plataformas de streaming, estos vídeos cortos son editados por IA que definen las tomas en función de la captura de audio: se identifica al hablante y se presenta la imagen del personaje. Por lo tanto, en la mayoría de las ediciones, se eliminan las pausas entre líneas para que el vídeo sea más corto y dinámico. El software utilizado para realizar estas tareas no está programado para la edición cinematográfica, cuyo contenido es, por naturaleza, más amplio y extenso. De este modo, las IA utilizadas para vídeos cortos funcionan más como una herramienta de apoyo a la producción continua de material de difusión y menos como un recurso lingüístico en la construcción del discurso artístico.
Este hallazgo dio lugar a la pregunta que definió esta investigación: ¿percibirían los consumidores, acostumbrados a contenido de formato corto, la diferencia entre una edición creada por una IA y una creada por un ser humano, un profesional en el campo de la edición cinematográfica?
Para responder a esta pregunta, se requirió previamente definir dos conceptos: «Poética», ya que el argumento teórico se basaría en cómo se «hace» la edición; y «Estética», ya que el verbo relacionado con el público consumidor era el verbo «percibir».
Poética y Estética en esta investigación
Tomamos el concepto de «Poética» en consonancia con Aristóteles: «Del arte poético, de sí mismo y de sus especies, de la función que cada especie tiene, de la manera en que deben componerse las tramas » (Aristóteles, 2017, p. 35). El uso del término συνίστασθαι, con el significado de «componer», es notable y definitivo; Luego, al vincular las formas verbales ποίησις y ποίων, el filósofo define el concepto de Poética, conectando el verbo «componer» con el ámbito de la creación: «Si la composición poética está destinada a la excelencia, y también cuántas y de qué partes consta, así como todas las demás cuestiones que resultan del mismo método; esto es lo que discutiremos, comenzando, como es natural, con los principios básicos » (IDEM, 2017, p. 35-37).
Sin embargo, para evitar definir el concepto con base en un punto de referencia tan lejano en el tiempo, Mazziero (2024) indica:
Así, necesitamos acercarnos a la Poética, a la consustanciación del concepto de composición de los elementos del Lenguaje, a la intencionalidad del artista, a la búsqueda de la perfección en sus procesos creativos, a la consolidación de un Discurso artístico que, precisamente al esculpir el Bien, resiste la acción implacable del reloj de arena que derrama constante y rítmicamente las arenas del tiempo (Mazziero, 2023, p. 314).
El autor no solo reafirma la Poética en el ámbito del «hacer» —en particular, el hacer artístico—, sino que también establece el vínculo entre el «hacer» poético y la «percepción» estética: «Después de todo, sin la obra creada en el ámbito de la Poética, no habría nada que percibir; no habría Estética» (Mazziero, 2023, p. 334). Esto se debe a que habría un camino de carácter esencial entre Poética y Estética: «tomamos como principio que el camino de una manifestación artística se completa en el ámbito de la Estética» (Mazziero, 2023, p.107).
El autor no solo reafirma la Poética en el contexto del «hacer» —en particular, el hacer artístico—sino que también establece el vínculo entre el «hacer» poético y la «percepción» estética: «Después de todo, sin el trabajo realizado en el ámbito de la Poética, no habría nada que percibir; no habría Estética» (Mazziero, 2023, p. 334). Esto se debe a que existiría un camino esencial entre la Poética y la Estética: «tomamos como principio que el camino de una manifestación artística se completa en el ámbito de la Estética» (Mazziero, 2023, p. 107).
Al determinar el «ámbito de la Estética», Mazziero lo hace basándose en un marco platónico, que inserta el concepto de Estética en el verbo «percibir»: «¿Oímos con nuestros oídos, como percibimos con nuestros otros sentidos, todo lo que es objeto de percepción? Sin duda » (PLATÓN, 2016, p. 557); es decir, los fenómenos sensoriales, percibidos por los sentidos, se vinculan con la forma verbal αἰσθήσεσι, «percibimos», y el sustantivo αἰσθητά, «percepción».
En esta obra, el «ámbito de la Estética» estaría compuesto por el público que contemplaría las diferentes producciones de la misma escena y se formaría opiniones subjetivas basadas únicamente en sus percepciones. De esta manera, la Estética se consolidaría aún más como un concepto vinculado al verbo «percibir», por lo tanto de naturaleza subjetiva, tal como la definió Kant, interconectando los términos —y, en consecuencia, los conceptos— de «juicio de gusto» (Geschmacksurteil), «estética» (ästhetisch) y «subjetivo» (subjektiv): «El juicio de gusto no es, por tanto, un juicio de conocimiento, un juicio lógico, sino un juicio estético, por el cual se entiende aquello cuya base de determinación solo puede ser subjetiva » (Kant, 2007, p. 68). Sin embargo, aquí también, el concepto no se define por una referencia tan distante en el tiempo. Así, Mazziero concluye: «Hay que tener presente que, en cierta medida, el proceso de una manifestación artística se completa en el ámbito de la Estética, en la percepción de quienes aprecian, de quienes captan el discurso artístico construido» (Mazziero, 2023, p. 65).
La Poética del Montaje Audiovisual
Montaje
El montaje cinematográfico es el proceso de seleccionar, organizar y unir escenas grabadas para crear una narrativa: «Se ha observado muchas veces, y con razón, que toda forma de arte implica la edición, en el sentido de seleccionar, comparar y ajustar partes» (Tarkovsky, 1990, p. 134). En esta etapa de la construcción de una película, las muchas horas de material grabado se organizan en una secuencia organizada; el editor elige dónde y cuándo comienzan y terminan las escenas, cómo se conectan y cuál será el texto final de la película. Sin la etapa de montaje, la película no sería más que una gran cantidad de imágenes y textos grabados, sin conexión entre ellos.
Así, «propósito» es una palabra recurrente en la construcción de una película: «Todo lo que vemos —y lo que no vemos— en una película tiene un propósito. O al menos debería tenerlo» (HORNADAY, 2021, p. 169). Naturalmente, esta característica de «propósito» también se aplica al montaje. Cada cambio de plano, los elementos que el editor añade a la imagen, el fotograma exacto donde se produce un corte, todo esto debe tener una razón, un propósito, una intención.
Los retos de la IA en el montaje de una obra audiovisual
«¿Qué quieres que sienta el público?», pregunta Murch (2004, p. 29). El autor propone seis criterios para guiar los cortes de escena en la edición cinematográfica: emoción, trama, ritmo, objetivo de la imagen, plano de pantalla bidimensional y espacio tridimensional de la acción.
Desde esta perspectiva, la introducción de la Inteligencia Artificial en el proceso de edición cinematográfica plantea una cuestión fundamental: para que la IA realice una edición eficaz, no solo debe identificar la estructura narrativa y los elementos visuales, sino también ser capaz de elaborar la construcción emocional de las escenas en sus cortes. El reto reside en que el aspecto emocional de una escena es principalmente subjetivo, vinculado no solo a lo que se escucha o se ve en ella, sino también a cómo cada escena encaja en el contexto de la película y, por lo tanto, a cómo el público percibirá las escenas conectadas.
Aunque la IA puede programarse para reconocer ciertos patrones emocionales, el dispositivo tecnológico aún sería rudimentario en comparación con las capacidades de un editor humano. Esto se debe a que la interpretación emocional de una escena no solo se basaría en estructuras, probabilidades y patrones técnicos, sino que sobre todo requeriría una comprensión profunda de los elementos escénicos y textuales: la sincronización escénica, la amplitud visual, el sonido de los entornos, el tiempo histórico, la ubicación de la historia y el contexto cultural reflejado en la escena.
Por lo tanto, el desafío que la IA aún enfrentaría en el campo de la edición audiovisual no sería técnico, sino artístico. Surge una pregunta esencial: ¿hasta qué punto la subjetividad humana, tan crucial en la creación artística, puede ser replicada o interpretada por una máquina?
Arte y Montaje
Si la edición de una obra audiovisual se caracteriza por la intencionalidad y debe estar determinada por el ritmo de la escena, las mejores tomas, la interpretación del actor, la calidad de la iluminación, el enfoque de la cámara y el encuadre; si cada elección influye en el resultado de la obra, el material grabado, entregado a un dispositivo de IA, planteará varias preguntas: ¿qué estándar de sincronización escénica adoptará esta IA? ¿Creará combinaciones de diferentes puntos de vista de la escena? ¿O, por el contrario, seguirá un modelo preestablecido? ¿Qué interpretaciones determinará la selección de tomas? ¿Seguiría una IA el estándar de edición occidental, predominantemente estadounidense, considerándolo el más utilizado? ¿O el estándar de una industria cinematográfica específica? O, como afirma Donnarumma (2022), ¿utilizaría la repetición y la imitación para normalizar estéticamente lo «nuevo» ? De estas preguntas surge una pregunta esencial: ¿Es una obra de arte un producto resultante de un proceso estrictamente técnico —o, en sentido estricto, tecnológico— o es un reflejo de elecciones subjetivas y de la visión individual de construir un discurso, utilizando los recursos de un lenguaje artístico específico? Esta pregunta esencial genera la pregunta específica de esta obra: Por muy avanzada que sea, ¿podría una IA reproducir las elecciones propias de la subjetividad humana? Además, ¿percibiría el público consumidor la diferencia entre las elecciones de una IA y las de un editor humano? Para intentar responder a esta pregunta específica, se realizó un experimento:
Materiales y Métodos
Experimento práctico
Para comprobar si el público notaba las diferencias entre una escena editada por inteligencia artificial y la misma escena editada por un humano, se produjo y editó una escena adaptada de la famosa obra de William Shakespeare, «Romeo y Julieta». La escena se filmó con múltiples cámaras para garantizar un metraje completo y estandarizado, y facilitar el proceso de edición con IA.
El metraje grabado se editó posteriormente en dos versiones distintas: una creada por un editor humano y la otra por una IA. Ambas versiones están disponibles en: https://bit.ly/46iXZro.
Las escenas ensambladas se mostraron a un grupo diverso de personas que desconocían el objetivo de la investigación, para evitar cualquier sesgo interpretativo. Los objetivos fueron:
1. Observar si el público podía percibir diferencias significativas entre las escenas editadas;
2. Cómo estas percepciones afectaron su conexión con la narrativa;
3. Determinar si, al menos entre algunos espectadores, existía un juicio de gusto que indicara una preferencia por una de las dos producciones.
El grupo de personas denominado «público consumidor» se decidió según la técnica de muestreo, lo que garantizaría la eficiencia de la investigación: «al proporcionar una base lógica para el estudio de solo partes de una población, sin perder información fundamental» (BAUER; AARTS, 2003, p. 40). Dado que «los parámetros de una población se calculan a través de las estimaciones observadas en la muestra» (BAUER; AARTS, 2003, p. 41), se definió que un grupo de 10 personas, con el perfil más diverso posible, garantizaría la fiabilidad de la muestra:
Tabla 1: Perfil da amostra dos participantes da pesquisa. MAZZIERO; NEVES, 2025.
|
Sexo |
Edad |
Ingreso mensual |
Ocupación |
|
Hombre |
16 |
1 salario mínimo brasileño |
Auxiliar de secretaría |
|
Hombre |
46 |
hasta 5 salarios mínimos |
Empleado de banco |
|
Hombre |
56 |
hasta 10 salarios mínimos |
Ingeniero |
|
Hombre transgénero |
26 |
hasta 2 salarios mínimos |
Taquillero de teatro |
|
Hombre transgénero |
36 |
mas de 10 salarios mínimos |
Profesional autónomo |
|
Mujer |
16 |
sin ingreso |
Estudiante |
|
Mujer |
46 |
hasta 5 salarios mínimos |
Servidora pública |
|
Mujer |
56 |
hasta 2 salarios mínimos |
Auxiliar de limpieza |
|
Mujer transgénero |
26 |
mas de 10 salarios mínimos |
Youtuber |
|
Mujer transgénero |
36 |
hasta 10 salarios mínimos |
Profesora |
Fuente: Elaboración propia
La muestra, reclutada mediante el registro en la plataforma Google Forms, se seleccionó aleatoriamente según el orden de la tabla anterior: género, edad, ingresos mensuales y profesión. Se estableció un único requisito en el primer formulario: solo aquellos que No tenía ninguna conexión profesional con la industria cinematográfica. El objetivo era crear una muestra de personas que no verían las escenas con una idea preconcebida del lenguaje cinematográfico. El experimento se dividió en cuatro etapas:
Construcción del Guión
El guion es una adaptación de la Escena del Balcón de la obra de Shakespeare «Romeo y Julieta». La escena se eligió por su carácter universal, lo que garantizaba la familiaridad, tanto de los actores como del público, con la estructura dramática propuesta. La adaptación la situó en un contexto contemporáneo, conservando su núcleo emocional: el difícil encuentro de dos jóvenes amantes. La adaptación ofreció una rica progresión dramática, combinando elementos emocionales de felicidad, tristeza, decepción e ira. Elegir esta curva emocional nos permitiría explorar cómo los diferentes niveles de emoción influyen en las decisiones de edición, tanto para humanos como para una IA.
Por lo tanto, el guion ofrecería material suficientemente expresivo como para desafiar ambos métodos de edición, sirviendo como campo de experimentación para la poética narrativa.
Rodaje de la escena
La escena se rodó en el entorno controlado de un estudio cinematográfico. Esta elección permitió la coherencia en aspectos técnicos clave, como la iluminación, la captura de audio y el encuadre, elementos esenciales para ambas producciones.
Se utilizaron cuatro cámaras simultáneamente: tres sobre trípodes, con ángulos fijos (un plano general y dos planos medios objetivos, exclusivos para cada actor), y una cámara manual, sin soporte, dedicada a los planos subjetivos con gran riqueza de detalles.

Figura 2: Planos de escena
Fuente: Foto de G. Neves, A. Fernandes y R. Alves. Reparto: Carol Dias y Théo Arthen.
La grabación se realizó en tomas continuas, utilizando una sola toma completa, con el fin de estandarizar el material disponible para los montajes y evitar mezclar diferentes tomas, que pudieran sesgar la comparación entre el trabajo humano y el automatizado; de esta manera, los cuatro ángulos fueron grabados en completa sincronización.
Trabajo de posproducción
La fase de posproducción fue la más compleja y reveladora de la investigación, ya que las diferencias entre las ediciones se hicieron más evidentes. La edición se produjo en dos versiones: una realizada por un editor humano y otra por software de IA.
En la versión generada por humanos, la edición se guió por una lógica narrativa emocional, que no se centró necesariamente en la imagen del actor que hablaría en ese momento —lo que se denomina un «corte directo al actor». De hecho, el corte directo al actor que habla se fusionó con las reacciones del actor sin hablar, así como con las expresiones faciales más relevantes para el contenido dramático de la escena. Naturalmente, esta combinación de imágenes surge de la experiencia, el punto de vista y el lenguaje artístico del editor de escena.
Para la edición generada por IA, se probó primero un complemento desarrollado originalmente para la edición de podcasts (AUTOPOD, 2023), que ha sido adaptado para otros fines, incluyendo la edición de videos de entrevistas, videos corporativos y videos cinematográficos. Los resultados obtenidos en este experimento fueron significativamente insatisfactorios, ya que esta herramienta solo realizó cortes automáticos cuando identificó cambios en el audio de la escena, es decir, cuando hubo un cambio en el discurso de los actores. Por lo tanto, la herramienta negó cualquier posibilidad de análisis visual, interpretación de encuadres, expresiones o movimientos. Esta limitación fue evidente en el video final, que presentó cortes carentes de criterios narrativos y con poca o ninguna adaptación al aspecto emocional de la escena. Aunque de naturaleza cuantitativa, una indicación de esta limitación se puede ver en la comparación en la que la herramienta de IA realizó menos cortes en comparación con el mayor número de cortes en la edición realizada por un humano.

Figura 3: Timeline de AutoPod y Timeline humana, respectivamente. Adobe Premiere Pro, 2025.
Fuente: Elaboración propia
Se utilizó entonces un segundo programa: una versión actualizada de un programa de edición existente, ahora con funciones que incluían edición multicámara con IA (BLACKMAGIC DESIGN, 2025). A diferencia del primero, este software ofrecía un enfoque más integral para el uso de la IA en la automatización de la edición: la herramienta de corte automático permite diferenciar entre planos generales, medios y cortos, así como definir cómo debe actuar la IA durante los momentos de silencio de una escena, priorizando los planos generales.
Cabe destacar que, durante las pruebas de la herramienta, se desactivó la opción de planos generales, precisamente para observar qué soluciones encontraría la IA de forma autónoma.
A diferencia del primer software utilizado, que funciona exclusivamente con el audio de la escena, este segundo software realiza un análisis más exhaustivo, considerando elementos visuales como el encuadre, la composición e incluso los movimientos corporales o los cambios de expresión.
Cabe destacar que, si bien esta herramienta aún está lejos de sustituir el trabajo de un editor en obras audiovisuales como películas, series o telenovelas, ya ha demostrado ser bastante eficaz en ediciones más técnicas, especialmente en formatos como podcasts, entrevistas y vídeos corporativos. En estas situaciones, donde la poesía y la narrativa son menos importantes, ya que el objetivo principal es asegurar la visibilidad del orador, el programa ofrece importantes mejoras de tiempo y productividad.
Recopilación de datos
Dado que «cada paso del proceso de análisis de materiales audiovisuales implica traducción, y cada traducción implica decisiones y elecciones, siempre habrá alternativas viables a las elecciones concretas realizadas» (Rose, 2003, p.343), el instrumento de recopilación de datos para esta investigación se desarrolló para investigar cómo el público percibe e interpreta las diferencias entre dos versiones de la misma escena: la editada por un humano y la otra por una IA. Se utilizaron entrevistas en profundidad, adecuadas para probar conceptos y utilizar los resultados para desarrollar un marco conceptual para investigaciones posteriores (Gaskell, 2003).
Se invitó a los participantes a ver ambas versiones de la escena. Posteriormente, los investigadores comentaron las escenas con los espectadores. Una vez grabadas las conversaciones, se invitó a los participantes a verlas de nuevo, pero esta vez se les indicó que prestaran atención a todo lo que consideraran relevante para los aspectos técnicos del discurso cinematográfico: ritmo, fluidez narrativa, aspectos visuales, etc. Estas conversaciones también se grabaron. Se despidió a los participantes; sus respuestas fueron analizadas.
Resultados
Análisis de las entrevistas en profundidad
Las respuestas de los participantes sobre la escena generada por IA indicaron unánimemente fallos en el ritmo y una mala colocación de la cámara. Los 10 participantes también notaron cortes abruptos, encuadres considerados «aleatorios» y cambios de plano sin coherencia narrativa. La combinación de estos factores provocó una sensación de extrañeza: «todo parecía muy truncado» (PARTICIPANTE 4) e incluso momentos cómicos: «a veces me daban ganas de reír porque todo parecía descuidado» (PAR. 7).
Siete de los diez participantes indicaron la percepción de una edición desorganizada, que interrumpía la fluidez y disminuía la conexión emocional con la historia: «La imagen a menudo 'saltaba' del actor a la actriz» (PAR. 7). Seis participantes informaron haber notado que los personajes estaban fuera de plano durante demasiado tiempo: «Hay una parte en la que se levantan y están demasiado a la derecha; estuvieron fuera de plano durante mucho tiempo, más de lo debido» (PAR. 2), o que los cortes no seguían la intención dramática de la escena: «No lo entendí bien en ese momento; creo que la cámara tardó un poco en ajustarse» (PAR. 1).
En cuanto a la escena editada por un profesional, los diez participantes mencionaron haber notado una mayor naturalidad: «Las imágenes parecen fluir mejor» (PAR. 9) y cohesión textual: «Se entiende mejor el diálogo» (PAR. 3). Ocho de los diez participantes afirmaron que los cortes parecían intencionales y diseñados para resaltar las emociones de los personajes: «Mientras Romeo hablaba, se podía ver la reacción de Julieta» (PAR. 5). De igual manera, cinco participantes señalaron que la edición humana tendía a mostrar también las reacciones del personaje que escuchaba el diálogo, no solo del hablante, algo que consideraron importante para generar emoción: «Incluso parece que hay un cambio en la actuación, no necesariamente una acción diferente, ya que se trata de la misma grabación» (PAR. 6); y para dar profundidad a la escena: «Creo que el momento en que la cámara enfoca a cada personaje es el momento adecuado para ver lo que uno piensa sobre lo que dijo el otro», afirmó el participante 8, coincidiendo plenamente con Walter Murch: «Al observar un diálogo entre dos personas, no se centra la atención únicamente en el hablante. De hecho, mientras alguien habla, uno se gira y mira al oyente para ver qué piensa de lo que se dice. La pregunta es: «¿Cuándo, exactamente, gira uno? » (Murch, 2004, p. 71).
Discusión
Cabe destacar que, al ser animados a «prestar atención a todo lo que consideraban relevante en los aspectos técnicos de la construcción del discurso cinematográfico», algunos participantes incluso mencionaron elementos inexistentes: «la segunda escena [editada por un ser humano] parecía tener luces y sombras más cohesivas» (PAR. 7), ya que no había diferencia de iluminación ni color entre las dos versiones, ya que ambas utilizaban exactamente el mismo material grabado. Sin embargo, es importante considerar que este relato puede ilustrar cómo la edición puede generar diferentes percepciones e influir en la percepción del público sobre las características técnicas de una escena.
Al final de cada entrevista, se reveló a los participantes el propósito de la investigación, informándoles que una de las ediciones había sido creada por una IA y la otra por un humano. Tras esta revelación, se les preguntó si podían identificar a qué autor pertenecía cada edición. Todos los participantes identificaron correctamente a los editores de escena; algunos afirmaron que creían que solo un humano podía tomar decisiones tan sutiles sobre el ritmo y la emoción en los cortes: «Solo podía ser un humano» (PAR. 2), mientras que otros enfatizaron que tales decisiones eran esenciales para el lenguaje cinematográfico: «Quedó mucho mejor» (PAR. 5).
En general, las respuestas indicaron que la edición asistida por IA se caracterizó por una sensación de desconocimiento por parte del público, mientras que la edición humana se percibió como fluida y emocionalmente efectiva, como afirma Hordonay sobre una buena edición:
Las ediciones más hábiles no llaman la atención. Al contrario, desaparecen. Cuando funcionan, el público sale de la sala con la satisfacción de haber visto una película tal como se pretendía, de principio a fin, sin contratiempos, transiciones incómodas, conclusiones forzadas y absurdas, ni momentos de aburrimiento y confusión (Hornaday, 2021, p. 172).
La inmersión, fundamental en el contexto cinematográfico, se habría visto perjudicada por la edición con IA, precisamente porque, al desorientarse, el espectador se percataría de la edición y, en consecuencia, perdería parte de la concentración necesaria para su experiencia estética.
Conclusiones
Los resultados de esta investigación indicaron que, incluso con el avance de la IA en el ámbito audiovisual, aún existen claras limitaciones en la edición cinematográfica. Los participantes, sin formación técnica, notaron diferencias notables entre la edición realizada por un humano y la realizada por una IA. Según los entrevistados, estas diferencias eran evidentes, especialmente en los aspectos emocionales y el ritmo cinematográfico de cada versión de la escena.
Fue posible inferir que, en el montaje cinematográfico —un lenguaje con una gran carga subjetiva y emocional—, la IA aún estaría lejos de reemplazar al ojo humano. La poética intrínseca del montaje cinematográfico dependería de factores no abarcados por combinaciones de probabilidades, por reacciones mecánicas determinadas únicamente por la captura del audio de una escena, por cortes sincronizados con los diálogos o silencios de los actores; por el contrario, la poética del montaje cinematográfico estaría visceralmente interconectada con lo que el cineasta Andrei Tarkovsky llamó «la selección y el ajuste de partes y piezas»; selección y ajuste que dependería de una especie de capacidad subjetiva inherente a los seres humanos. Si, como afirmó Hordonay, «todo lo que vemos —y no vemos— en una película es, o al menos debería ser, intencional», correspondería a la etapa de montaje responder al propósito de cada corte, cada encuadre, cada plano elegido. Por lo tanto, en el contexto de la estética, el espectador interesado debe comprender el propósito poético de esa secuencia específica de escenas, esa secuencia de cortes, ese lapso de tiempo impreso en el montaje. Un editor humano puede plantear esta pregunta y recibir una respuesta; una edición realizada por una IA aún no es capaz de plantearla ni recibirla.
Así pues, si bien es probable que la tecnología avance rápidamente y comprenda mejor los aspectos emocionales y las estructuras narrativas de una película, la pregunta sigue siendo: ¿será la IA capaz de reproducir la sensibilidad y la creatividad humanas, fundamentales para el arte cinematográfico? Por ahora, a principios de esta segunda mitad de la segunda década del siglo XXI; con base en las respuestas de la muestra aquí especificada; y los resultados obtenidos en esta investigación, la edición realizada por un ser humano, un profesional del sector sigue siendo una pieza fundamental en la construcción del discurso cinematográfico.
Referencias bibliográficas
Aristóteles. (2017). Poética (Ed. Bilíngue, Ed. 34). Sao Paulo.
Autopod, Inc. (2023). AutoPod. https://www.autopod.fm/
Blackmagic Design. (2025). DaVinci Resolve 20. https://www.blackmagicdesign.com/products/davinciresolve
Demo, P. (2009). «Tecnofilia» & «Tecnofobia». Boletim Técnico do Senac, Rio de Janeiro/RJ.
Bauer, M., & Aarts, G. (2003). En M. W. Bauer & G. Gaskell (Eds.), Pesquisa Qualitativa com Texto, Imagem e Som: um manual prático. Petrópolis: Editora Vozes.
Bauer, M. W., & Gaskell, G. (2003). Pesquisa Qualitativa com Texto, Imagem e Som: um manual prático. Petrópolis: Editora Vozes.
Donnarumma, M. (2022). Against the norm: othering and otherness in AI aesthetics. Digital Culture & Society, 8(2), 39-66. https://doi.org/10.14361/dcs-2022-080205
Hornaday, A. (2021). Como falar sobre cinema: um guia para apreciar a sétima arte. Rio de Janeiro/RJ: Editora BestSeller.
Mazziero, K. (2023). Estética y Poética. Holguín, Cuba: Ediciones Holguín.
McKinsey & Company. (2024). The state of AI in 2024. McKinsey & Company. https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai-2024
Murch, W. (2004). Num piscar de olhos: a edição de filmes sob a ótica de um mestre. RJ: Editora Zahar.
Pereira, C. L., Loureiro, D., & Costa, D. (2024). Estética da IA: «Unreliable Memories» de Lev Manovich. Revista Apotheke, 10(2), 160-173. https://doi.org/10.5965/244712671022024156
Platão. (2017). A República (Ed. Bilíngue). Belém: EdUFPA.
Ramos, M. (2024). Uso de inteligência artificial aumenta e alcança 72% das empresas. CNN Brasil. https://www.cnnbrasil.com.br/economia/negocios/uso-de-inteligencia-artificial-aumenta-e-alcanca-72-das-empresas-diz-pesquisa/
Russel, S. (2021). Inteligência artificial a nosso favor: Como manter o controle sobre a tecnologia. São Paulo: Editora Companhia das Letras.
Conflicto de intereses
Los autores declaran no tener ningún conflicto de intereses.
Declaración de responsabilidad de autoría
Los autores del manuscrito señalado, DECLARAMOS que hemos contribuido directamente a su contenido intelectual, así como a la génesis y análisis de sus datos; por lo cual, estamos en condiciones de hacernos públicamente responsable de él y aceptamos que sus nombres figuren en la lista de autores en el orden indicado. Además, hemos cumplido los requisitos éticos de la publicación mencionada, habiendo consultado la Declaración de Ética y mala praxis en la publicación.
Kleber Mazziero de Souza (Autor principal Investigación) Diseño y ejecución; metodología coordinación y supervisión; administración del proyecto; conceptualización del estudio; desarrollo del marco teórico; análisis crítico de la literatura; redacción inicial del manuscrito y revisión metodológica.
Giovana de Souza Neves (Coautora) Diseño y ejecución; metodología coordinación y supervisión; administración del proyecto; conceptualización del estudio; desarrollo del marco teórico; análisis crítico de la literatura; redacción inicial del manuscrito y revisión metodológica.