래퍼 목록

Gymnasium은 아래에 나열된 여러 가지 일반적으로 사용되는 래퍼를 제공합니다. 특정 래퍼에 대한 자세한 정보는 해당 래퍼 유형 페이지에서 찾을 수 있습니다.

이름

설명

AtariPreprocessing

Atari 환경을 위한 일반적인 전처리 기법을 구현합니다(프레임 스태킹 제외).

Autoreset

래핑된 환경은 종료되거나 잘린 상태에 도달하면 자동으로 재설정됩니다.

ClipAction

``step``에 전달되는 ``action``이 환경의 action_space 내에 있도록 자릅니다.

ClipReward

환경의 보상을 상한과 하한 사이로 자릅니다.

DelayObservation

환경에서 반환되는 관찰에 지연을 추가합니다.

DtypeObservation

관찰 배열의 dtype을 지정된 dtype으로 수정합니다.

FilterObservation

키 또는 인덱스 집합으로 Dict 또는 Tuple 관찰 공간을 필터링합니다.

FlattenObservation

환경의 관찰 공간과 resetstep 함수에서 나오는 각 관찰을 평탄화합니다.

FrameStackObservation

마지막 N 타임스텝의 관찰을 순환적으로 쌓습니다.

GrayscaleObservation

reset``step``에 의해 계산된 이미지 관찰을 RGB에서 그레이스케일로 변환합니다.

HumanRendering

“rgb_array” 렌더링을 지원하는 환경에 대해 사람과 유사한 렌더링을 허용합니다.

JaxToNumpy

Jax 기반 환경을 NumPy 배열과 상호 작용할 수 있도록 래핑합니다.

JaxToTorch

Jax 기반 환경을 PyTorch 텐서와 상호 작용할 수 있도록 래핑합니다.

MaxAndSkipObservation

N번째 프레임(관찰)을 건너뛰고 마지막 두 관찰 사이의 최대값을 반환합니다.

NormalizeObservation

관찰을 평균 중심으로 단위 분산을 갖도록 정규화합니다.

NormalizeReward

즉각적인 보상을 정규화하여 지수 이동 평균이 고정된 분산을 갖도록 합니다.

NumpyToTorch

NumPy 기반 환경을 PyTorch 텐서와 상호 작용할 수 있도록 래핑합니다.

OrderEnforcing

reset``이 호출되기 전에 ``step 또는 ``render``가 호출되면 오류를 발생시킵니다.

PassiveEnvChecker

수동 환경 검사기 래퍼로, gymnasium의 API를 따르는지 확인하기 위해 step, resetrender 함수를 둘러쌉니다.

RecordEpisodeStatistics

이 래퍼는 누적 보상과 에피소드 길이를 추적합니다.

RecordVideo

환경의 렌더링 함수를 사용하여 환경 에피소드의 비디오를 기록합니다.

RenderCollection

환경의 렌더링된 프레임을 수집하여 ``render``가 ``list[RenderedFrame]``를 반환하도록 합니다.

AddRenderObservation

환경의 관찰에 렌더링된 관찰을 포함합니다.

RescaleAction

환경의 Box 액션 공간을 [min_action, max_action] 범위 내로 어파인(선형) 방식으로 스케일을 조정합니다.

RescaleObservation

환경의 Box 관찰 공간을 [min_obs, max_obs] 범위 내로 어파인(선형) 방식으로 스케일을 조정합니다.

ReshapeObservation

배열 기반 관찰의 모양을 지정된 모양으로 변경합니다.

ResizeObservation

OpenCV를 사용하여 이미지 관찰의 크기를 지정된 모양으로 조정합니다.

StickyAction

동일한 step 함수에 대해 액션이 반복될 확률을 추가합니다.

TimeAwareObservation

에피소드 내에서 경과된 타임스텝 수를 관찰에 추가합니다.

TimeLimit

최대 타임스텝 수를 초과하는 경우 환경을 자르는 방식으로 환경의 스텝 수를 제한합니다.

TransformAction

수정된 값을 환경 step 함수에 전달하기 전에 ``action``에 함수를 적용합니다.

TransformObservation

환경의 reset``step``에서 받은 ``observation``에 함수를 적용하여 사용자에게 다시 전달합니다.

TransformReward

환경의 ``step``에서 받은 ``reward``에 함수를 적용합니다.

벡터 전용 래퍼

이름

설명

DictInfoToList

벡터화된 환경의 info를 ``dict``에서 ``List[dict]``로 변환합니다.

VectorizeTransformAction

벡터 환경을 위한 단일 에이전트 변환 액션 래퍼를 벡터화합니다.

VectorizeTransformObservation

벡터 환경을 위한 단일 에이전트 변환 관찰 래퍼를 벡터화합니다.

VectorizeTransformReward

벡터 환경을 위한 단일 에이전트 변환 보상 래퍼를 벡터화합니다.