Im frühen Film bezeichnete „Szene“ eine „Handlungsszene in einer Einstellung“; erst mit der Entwicklung der Montage differenzierte sich – vor allem im Englischen – der Sprachgebrauch, wenngleich es zu keiner Vereinheitlichung gekommen ist. Im Reden über narrativen Film ist eine dreigliedrige Hierarchie der Größen Einstellung (shot), Szene (scene) und Sequenz (sequence) üblich: Die Szene enthält eine Reihe von Handlungen, die zeitlich und/oder räumlich kontinuierlich zusammenhängen und meist als Folge von Einstellungen realisiert sind; die Sequenz ist dagegen eine Folge von Szenen, die eine einzelne Phase in der Entwicklung der Erzählung dokumentieren.
Man kann Szene und Sequenz in Anlehnung an Mitry dahingehend kontrastieren, dass die eine der Handlungs-, die andere der kinematographischen Struktur zuzurechnen ist. Der Szene auf der Handlungsseite korrespondiert die Einstellung in der kinematographischen Struktur, der Episode die Sequenz. Dabei dienen die Dimensionen Handlung/Erzählung, Raum und Zeit dazu, die Bezugsgröße „Sequenz“ zu definieren.