ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [논문 읽기] (2019) Dex-Net 4.0 : Learning ambidextrous robot grasping policies
    논문 읽기/Dex-Net 2022. 3. 18. 10:27

    * 요약

       Universal Picking(UP), 혹은 더미에서 다양한 객체를 신뢰할만한 수준으로 로봇이 파지하는 것은, 전자상거래 주문처리, 제조, 검사, 집 서비스 로봇에서 어려운 도전과제이다. 센싱, 조작, 물리적 접촉에서 내재하는 불확정성 때문에 UP의 비율, 신뢰성, 범위를 최적화하는 것은 매우 어렵다. 이 논문은 "양손잡이형" 로봇 파지를 다룬다. 정확히는 2개 이상의 로봇팔을 사용한다. 우리는 Dex-Net 4.0을 제시한다. 이번 모델은 이전 버전보다 상당히 진보된 모델이다. 이전 모델의 경우, 물리학과 기하학의 분석적 모델을 통해 domain randomization을 사용하여 합성 데이터셋을 훈련시킴으로써 주어진 그리퍼에 policy를 학습한다. 우리는 3차원 객체의 더미로부터 발생하는 5백만개의 합성 depth 이미지, 파지, 보상을 통해 parallel-jaw와 진공기반의 suction cup 그리퍼에 policy를 훈련시킨다. 두개의 그리퍼를 가진 물리적 로봇에서, Dex-Net 4.0 policy는 시간당 평균 300번 이상의 파지와 95% 이상의 신뢰성을 보이며 25개의 객체까지 bin에서 지속적으로 꺼낼 수 있다.

     

    * 소개

       UP는 물류창고, 제조사, 제약사, 소매점, 서비스 로봇 등에서의 적용에 있어 상당한 혜택을 줄 수 있다. UP는 로봇 인지와 조작에 있어 내재하는 제약조건 때문에 상당히 어려운 과제이다. 센서 noise와 occlusion은 환경에서 객체의 정확한 기하학적 구조와 위치를 애매하게 만든다. 무게중심이나 마찰과 같은 물리적 조건을 다루는 파라미터는 직접적으로 관찰할수는 없다. 정확하지 않은 작동과 calibration은 로봇팔 positioning에 있어 부정확한 정보를 주게된다. 그러므로, UP policy는 환경에서의 로봇이나 객체의 정확한 상태를 알 수 있다는 가정을 할 수가 없다.

       UP를 하기 위한 연구 중 하나는 3차원 객체 모델에서 파지 데이터베이스를 만들어 내는 방법을 사용한다. 해당 모델은 모델의 부정확함에 통계학적 샘플링을 통해 기하학이나 물리학으로부터 유래된 파지 수행 지표를 사용한다. 이 분석적 방식은 알고있는 객체에 센서 데이터를 등록하기 위해 인지 시스템을 필요로 한다. 그리고 실제 다양한 객체에 있어서는 일반화하를 잘하지 못한다. 다른 연구에서는 DNN같은 function approximator을 훈련하는 ML을 사용한다. 이 방법은 실험에 근거한 성공과 실패를 통한 다량의 훈련데이터셋을 사용하여 이미지로부터 파지 후보의 성공 확률을 예측한다. 훈련데이터셋은 사람이나 실제 실험을 통해 수집된다. 이러한 데이터를 수집하는 것은 매우 지루할 뿐만 아니라 calibration과 하드웨어에서의 변화 때문에 부정확한 부분을 가지치기할 필요가 있다.

       데이터 수집에 사용되는 비용을 줄이기 위해, 우리는 하이브리드 방식을 사용한다. 이 방식은 기하학과 역학으로부터 합성 훈련데이터셋을 발생시키는 모델을 사용한다. 그러나, 합성 데이터로 훈련한 policy는 실제 로봇의 수행 성과를 낮춘다. 이는 모델과 실제 시스템 사이에서의 내재하는 차이에 기인한다. 이 simulation-to-reality transfer 문제는 로봇 학습에 있어 아주 어려운 도전과제이다. 차이를 줄이기위해, 하이브리드 방식은 객체, 센서, 물리적 파라미터에 있어 domain randomization을 사용한다. 이는 센싱, 조작, 물리학의 부정확함에 강인한 파지를 policy로 하여금 학습하게 만든다. 게다가, 이 방식은 depth 이미지에 기반한 파지를 계획한다. 이는 ray tracing을 사용하여 정확하게 simulated 될 수 있고, 객체 색깔에 강인하다.

       하이브리드 방식은 단일 그리퍼를 사용하는 로봇에 신뢰할만한 UP policy를 학습해왔다. 그러나, 실제 다양한 객체를 믿을만하게 다루기 위해서는 서로 다른 파지 방법을 사용할 필요가 있다. 예를 들어, 진공 기반의 suction-cup 그리퍼는 구멍이없고, 평평한 표면을 가진 객체를 쉽게 잡을 수 있지만, 클립 같이 작은 객체나 옷 같이 구멍이 있는 객체는 잡기가 쉽지 않다.

       Amazon Robotics Challenge에서는, 로봇에 한개 이상의 팔을 사용하여 범위를 넓히는 것은 매우 흔한 일이다. 실제 사용자는 실시간으로 어떤 그리퍼를 사용할지 결정하는 policy를 hand-code한다. 이러한 hand-code 방식은 새로운 카메라나 그리퍼 그리고 로봇에 적용하기에 어려운 지점이 있다.

       여기서 우리는 UP를 위해 하이브리드 방식을 사용하여 "양손잡이형" 로봇 policy 학습을 소개한다. 우리는 Dex-Net 4.0 데이터셋 발생 모델을 제안한다. 이 모델은 Dex-Net 2.0과 Dex-Net 3.0 그리퍼 사용 모델에서 확장되었다. framework는 모든 파지를 흔한 지표로 평가한다: 외부힘에 대한 저항성, 중력과 같은 업무에 관련한 힘이나 토크에 저항하는 능력.

       우리는 parallel-jw gripper와 vacuum-based suction cup 그리퍼를 위한 모델을 사용한다. 그리고 5백만개 이상의 파지를 담고 있는 Dex-Net 4.0 학습 데이터셋을 발생시킨다. 이 데이터셋은 합성 point cloud와 simulated heap에서 1664개의 서로 다른 3D 객체로부터 계산된 파지 지표와 연관되어있다. 우리는 각 그리퍼에 서로 다른 Grasp Quality Convolutional Neural Networks(GQ-CNNs)을 각각 훈련시킨다. 그리고 주어진 point cloud에서 객체 파지를 계획하기 위해 각각 훈련시킨 GQ-CNN을 합친다.

       이 논문의 기여점은 다음과 같다:

    1) Partially Observable Markov Decision Process(POMDP) framework : 흔한 보상 함수로서 강인한 저항성을 바탕으로한 양손잡이형 로봇 파지를 위해

    2) Dex-Net 4.0 데이터셋으로 학습된 양손잡이형 파지 정책. 각 그리퍼에 서로 다른 GQ-CNN을 사용하여 품질을 최대화한 파지를 계획

    3) 50개의 다양한 객체의 더미 속에서 빈피킹 수행성을 평가하는 실험. hand-coded한 방식과 learned baseline 간 비교

       실험은 Dex-Net 4.0 정책이 시간당 평균 300번의 파지와 95% 신뢰성 결과를 보여주었다.

     

    * MATERIALS AND METHODS

    - Description of baseline

    우리는 세가지 baseline과 수행 성과를 비교했다.

    1) Heuristic (suction). 객체 중심로 inverse distance를 기반으로한 평면 파지. 객체 중심은 Point Cloud Library (PCL)로부터 Euclidean clustering segmentation 알고리즘으로 객체 instance segmask의 평균 픽셀로 예측된다. 평면은 모든 3D 포인트에 대하여 가장 완벽한 평면과의 MSE를 계산하여 결정된다. 3D 포인트는 10mm 반지름의 구 안에 있다. (suction cup size에 기반한 것). (i) MSE가 절대적 threshold보다 적거나 (ii) MSE가 모든 후보 파지의 5% 안에 든다면, 파지는 평면이라고 고려된다. 하이퍼파라미터는 실제 로봇에서 수행성과를 최적화하기 위해 hand-code된다.

    2) Heuristic (composite). 앞선 suction heuristic과 antipodality에 기반한 parallel-jaw heuristic으로 계획된 grasp. parallel-jaw heuristic은 객체의 예측된 중심에서 inverse distance에 기반하여 antipodal 파지의 순위를 매긴다. antipodality는 예측된 point cloud 표면 normal vector를 기반으로 결정된다. 빈 표면 위의 그리퍼 높이는 파지 구역 안에서의 가장 높은 지점으로부터 일정한 offset이다. 두가지 그리퍼에서 예측된 객체 중심에서 가장 가가운 파지는 실행을 위해 선택된다.

    3) Dex-Net 2.0과 3.0 (composite). clutter 속에서 parallel-jaw와 suction-cup의 품질을 예측하기 위해 훈련된 각각의 GQ-CNN으로부터 예측된 품질을 기반으로한 파지. GQ-CNN은 simulated heap에 Dex-Net 2.0과 3.0 base 네트워크를 fine-tune하여 훈련된다. algorithmic supervisor로부터 모방 학습된.

     

    ※ 모방학습 vs 강화학습

    출처 : https://blog.naver.com/ehdrndd/221969324621

     

    - Implementation of policies

    우리는 실제 로봇에서 point clouds로부터 파지를 계획하기 위해 훈련된 GQ-CNN을 사용했다. 또한, 양쪽 그리퍼에 걸쳐 가장 높은 품질의 파지를 찾기 위해 derivative-free optimization을 사용했다. 이 정책은 크로스 엔트로피를 사용하여 각 그리퍼마다 가장 높은 품질의 파지를 최적화하고, 그리고나서 가장 높은 품질의 파지를 선택한다. bin 자체를 파지하는 경우를 피하기 위해, 우리는 비어있는 bin의 참조 depth image를 사용하여 foreground에서 bin의 background 픽셀을 빼주어 파지하기에 더 좋은 환경을 만들었다. 로봇에 피해를 입히지 않기 위해 bin에 충돌하지 않는 파지 환경을 만들었다. 이러한 환경 속에서, CEM은 point cloud로부터 무작위로 일정하게 최초의 파지 후보를 샘플링한다. 그리고 나서 가장 높은 품질을 가지는 파지에 fit한 Gaussian mixture model (가우시안 혼합 모델 GMM)으로부터 파지를 반복적으로 리샘플링한다. suction-cup gripper의 경우, 최초의 파지 후보는 3D point를 선택하고 표면 안쪽으로의 normal vector를 따르는 접근 방향을 선택하영 샘플링한다. parallel-jaw gripper의 경우, 최초의 파지 후보는 friction cone analysis를 사용하여 antipodal point pairs를 찾아내어 샘플링한다.

     

    ※ 배경과 상자를 제거하기 위한 방법

    배경 하나 찍고, (배경+빈상자) 하나 찍으면. (배경+빈상자) - 배경으로 (빈상자)만 가질 수 있게된다.

    그 다음부터 물건상자가 들어올때, 물건상자에서 배경을 빼면 배경없는 물건상자만 남는다

    빈상자를 물건상자에 맞추어 배경없는 물건상자에서 빈상자를 빼주면 물건만 남게된다.

     

Designed by Tistory.