Ein kosteneffizienter Ansatz für die Entnahme zufällig angeordneter Teile aus Behältern

Von Keith Larson

Zur Verfügung gestellt von Nordamerikanische Fachredakteure von DigiKey

2026-02-10

Mit der Umstellung der Industrie auf zunehmend automatisierte Fertigungsstraßen werden viele komplexe Aufgaben, die früher dem menschlichen Bedienpersonal vorbehalten waren, nun von Maschinen übernommen. Zu den komplexesten gehört die Entnahme zufällig angeordneter Teile aus Behältern (Englisch: Random Bin Picking). Das heißt, die Fähigkeit, in ein Tablett mit wahllos angeordneten Bauteilen zu schauen und dann dasjenige zu identifizieren und herauszuholen, das der nächsten Aufgabe der Produktionslinie entspricht - und das vielleicht halbwegs unter einem Stapel anderer Bauteile versteckt ist.

Die Anwendungen für die Entnahme zufällig angeordneter Teile reichen von der maschinellen Beladung bis hin zur Konfektionierung und Sortierung, und die Technologie ist in der Automobil-, Elektronik-, E-Commerce- und Medizintechnikbranche weit verbreitet. Während die Aufgabe für einen Menschen relativ einfach ist, muss der zugewiesene Roboterarm Highspeed-3D-Bildverarbeitung, Mustererkennung und Pfadplanungsalgorithmen nutzen, um erfolgreich zu sein. In jüngster Zeit tragen auch Ansätze des maschinellen Lernens dazu bei, die Identifizierung und die erfolgreiche Entnahme von Komponenten aus Behältern zu verfeinern.

Strukturiertes Licht versus Laserscanning

Während die Verwendung von Laserlicht zum methodischen Scannen und Abbilden von Oberflächen allgemein bekannt ist, nutzen die meisten modernen Stichprobenverfahren „strukturiertes Licht“, das schneller, sicherer und kostengünstiger ist als Laser-Mapping. Neben der Behälterentnahme wird das Scannen mit strukturiertem Licht häufig in Bereichen wie Industriedesign, Qualitätskontrolle, Augmented-Reality-Spiele und medizinische Bildgebung eingesetzt. Die Lichtverhältnisse in der Umgebung und die reflektierenden Oberflächen der Bauteile sind potenziell erschwerende Faktoren.

Bei strukturiertem Licht werden schnell eine Reihe von Mustern, wie Streifen und Gitter (Abbildung 1), auf den Inhalt des Behälters projiziert. Aus jedem anderen Winkel als dem des Projektors sind die Muster verzerrt. Diese Verzerrungen offenbaren die dreidimensionale Komplexität des Inhalts des Behälters und werden in einer Reihe von Standbildern festgehalten, und hier kommt der Bedarf an Highspeed-Verbindungen und Hochleistungsrechnern ins Spiel.

Das Bild der strukturierten Lichtabtastung offenbart die Identität, den Ort und die Ausrichtung Abbildung 1: Durch die Erfassung und Analyse der Bilder, die durch die Projektion von Hell-Dunkel-Mustern in einen Behälter voller Bauteile entstehen, zeigt das Scannen mit strukturiertem Licht die Identität, Position und Ausrichtung der verschiedenen Teile innerhalb des Behälters. (Bildquelle: Lattice Semiconductor)

FPGAs übernehmen sich wiederholende Aufgaben

Die meisten strukturierten Lichtlösungen bestehen aus zwei Modulen, die über Ethernet miteinander verbunden sind: einem Sensormodul und einem Computermodul. Das Sensormodul ist mit einem Projektor verbunden und löst die Projektion einer Reihe von strukturierten Lichtmustern in den Behälter aus. Eine Kamera, die in Bezug auf den Projektor außermittig positioniert ist, nimmt die resultierenden Bilder auf. Im Falle der Lösung zur strukturierten Lichtabtastung von Lattice Semiconductor wird eine Reihe von 41 diskreten Bildern erzeugt, darunter positive, negative, horizontale und vertikale Muster. Die von der Kamera aufgenommene Bildsequenz wird über eine MIPI-CSI-Verbindung (CSI = Camera Serial Interface) an das Sensormodul zurückgesendet.

Das Sensormodul umfasst auch FPGA-Ressourcen (Field Programmable Gate Array), die die Serie von 41 Bildern in ein einziges kodiertes 10-Bit-Bild kodieren, wobei die Position eines gemeinsamen „entsprechenden Pixels“ aus den erzeugten Bildern angegeben wird. Dieses kodierte Bild wird dann über eine Ethernet-Verbindung an das Computermodul weitergeleitet. Diese Kodierung erhöht die Geschwindigkeit der Übertragung zum Rechenmodul sowie die Reaktionsfähigkeit und Leistung des Gesamtsystems erheblich. Das Versenden von 41 Rohbildern mit einer Auflösung von 1920 x 1080 Pixeln bedeutet beispielsweise 680 MB Datenverkehr, während das einzelne kodierte Bild nur 41 MB an Daten ausmacht. Dies entspricht einer Reduzierung des Datenvolumens im Verhältnis 16:1 und einer entsprechenden Steigerung der Systemleistung.

Zusätzliche FPGAs im Sensormodul können die Aufgaben des Computermoduls weiter entlasten, indem sie die Pixel-für-Pixel-Tiefenkarte generieren, die die einzelnen Objekte im Behälter effektiv umreißt und dem Computermodul hilft, ein optimales Aufnahmeziel für den zugehörigen Roboterarm zu berechnen. Dies ist eine sich sehr oft wiederholende Aufgabe, die parallel für jedes Pixel durchgeführt werden kann. Alternativ kann der Nutzer dieselbe Ressource des Rechenmoduls verwenden, aber zusätzliche Funktionen hinzufügen. Ebenso kann der FPGA die gesamte oder einen Teil der auf maschinellem Lernen basierenden Objekterkennung und -segmentierung übernehmen, um das Rechnermodul weiter zu entlasten.

Hardware versus Software

Der Grund, warum eine Kombination aus FPGAs im Sensormodul und CPUs/GPUs im Computermodul bei dieser Anwendung so gut funktioniert, liegt in den sich ergänzenden Stärken der beiden Plattformen. FPGAs eignen sich hervorragend für sich ständig wiederholende Aufgaben, wie z. B. die sensorspezifische Verarbeitung und die Synchronisierung auf Bildebene, die erforderlich ist, um die Informationen von 41 Bildern in einem einzigen kodierten Bild zusammenzufassen. Diese Aufgabe eignet sich gut für eine konfigurierbare Hardware-Implementierung. Die Stärke der CPU/GPU liegt hingegen in komplexen Berechnungen auf hoher Ebene, wie z. B. bei der Optimierung und Entscheidungsfindung, die am einfachsten in Software implementiert werden können (Abbildung 2).

Abbildung 2: Durch eine angemessene Aufteilung der Rechenlast zwischen FPGA- und CPU/GPU-Ressourcen optimiert der Ansatz von Lattice Semiconductor für die Entnahme zufällig angeordneter Teile aus Behältern sowohl die Systemleistung als auch die Systemkosten aus Sicht der Materialkosten. (Bildquelle: Lattice Semiconductor)

Im Fall der Anwendung zur Entnahme zufällig angeordneter Teile aus Behältern werden durch die lokale FPGA-Kodierung im Sensormodul die Daten, die an das Rechenmodul gesendet werden müssen, drastisch reduziert, wodurch sich die Geschwindigkeit der Entnahmeausführung erhöht. Gleichzeitig reduziert der FPGA die Rechenanforderungen an die CPU/GPU im Rechenmodul, so dass ein kostengünstigerer Prozessor eingesetzt werden kann.

Der kleine Formfaktor und der niedrige Stromverbrauch der FPGAs bedeuten auch, dass das Sensormodul in einem relativ kleinen Kunststoffgehäuse untergebracht werden kann, ohne dass ein Lüfter oder ein Kühlkörper für die Leistungsabgabe erforderlich ist. Der Gesamteffekt ist eine niedrigere Materialliste für die Gesamtlösung.

Den Kreislauf schließen

Sobald das kodierte Bild vom Sensormodul an das Computermodul übertragen wurde, erzeugt die CPU/GPU mithilfe der Triangulation ein Tiefenbild aus dem kodierten Bild, ähnlich wie eine topografische Karte des Meeresbodens. Dieses Tiefenbild wird dann für die Objekterkennung (Segmentierung) und die anschließende Berechnung des Entnahmepunkts (Englisch: Pick-Point) verwendet. Während bei der Identifizierung von Objekten und der Berechnung von Entnahmepunkten die computerbasierte Bildverarbeitung die Hauptrolle spielt, werden bei komplexeren Anwendungen manchmal CAD-Modelle verwendet, um die Objekterkennung durch geometrischen Abgleich zu erleichtern. In jüngster Zeit wurden auf maschinellem Lernen basierende Ansätze entwickelt, um kompliziertere Szenarien zu bewältigen; einige nutzen Deep Learning, um die Leistung auf der Grundlage der Ergebnisse jeder progressiven Auswahl zu verbessern.

Sobald die 3D-Darstellung des Behälterinhalts abgeschlossen ist und ein geeigneter Entnahmepunkt für die nächste Komponente ausgewählt wurde, werden dem Roboter Anweisungen zur Ausführung übermittelt. Sobald die Entnahme abgeschlossen ist, beginnt der Zyklus von neuem.

Fazit

Strukturiertes Licht ist sowohl sicherer als auch leistungsfähiger als Laser, wenn es um die Entnahme zufällig angeordneter Teile aus Behältern geht. Außerdem ist ein hybrider Ansatz, der sowohl FPGA- als auch CPU/GPU-Ressourcen nutzt, am leistungsfähigsten und auch aus Sicht der Materialkosten am günstigsten. Dies liegt zum einen an der sinnvollen Arbeitsteilung zwischen den beiden Halbleitertechnologien und zum anderen an der relativ geringen Leistungsaufnahme der FPGAs im Sensormodul, die wiederum zusätzliche Kühlmaßnahmen überflüssig macht.

Haftungsausschluss: Die Meinungen, Überzeugungen und Standpunkte der verschiedenen Autoren und/oder Forumsteilnehmer dieser Website spiegeln nicht notwendigerweise die Meinungen, Überzeugungen und Standpunkte der DigiKey oder offiziellen Politik der DigiKey wider.