외부 환경¶
자체 환경 (First-Party Environments)¶
Farama 재단은 Gymnasium API를 사용하는 다양한 프로젝트를 유지 관리하고 있습니다. 환경은 다음과 같습니다: 그리드 월드 (Minigrid), 로보틱스 (Gymnasium-Robotics), 3D 내비게이션 (Miniworld), 웹 인터랙션 (MiniWoB++), 아케이드 게임 (Arcade Learning Environment), 둠 (ViZDoom), 메타 목표 로보틱스 (Metaworld), 자율 주행 (HighwayEnv), 레트로 게임 (stable-retro), 그리고 더 많은 환경이 있습니다.
Farama 재단은 또한 RL을 위한 대체 API를 유지 관리합니다. 다음을 포함합니다: 다중 에이전트 RL (PettingZoo), 오프라인 RL (Minari), 다중 목표 RL (MO-Gymnasium), 목표 기반 RL (Gymnasium-Robotics).
Gymnasium을 사용하는 타사 환경 (Third-party environments)¶
이 페이지에는 Farama 재단에서 유지 관리하지 않는 환경이 포함되어 있으며, 따라서 의도한 대로 작동함을 보장할 수 없습니다.
환경을 기여하고 싶으시다면, Discord를 통해 연락 주신 후 이 파일을 편집하여 PR을 제출해 주세요. 해당 파일 안에 추가 지침이 있습니다.
자율 주행 환경 (Autonomous Driving environments)¶
자율 주행 차량 및 교통 관리.
BlueSky-Gym: 항공 교통 애플리케이션을 위한 강화 학습 환경
항공 교통 관리 작업을 위한 Gymnasium 환경 모음으로, 민간 및 도시 항공 애플리케이션 모두에 사용할 수 있습니다. 오픈 소스 항공 교통 시뮬레이터 BlueSky를 기반으로 구축되었습니다.
gym-electric-motor: 전기 모터 시뮬레이션을 위한 Gym 환경
다양한 유형의 전기 모터와 컨버터를 고려하여 광범위한 전기 구동 시뮬레이션을 위한 환경입니다.
racecar_gym: PyBullet을 사용한 미니 레이싱카 환경
PyBullet 물리 엔진을 사용한 미니 레이싱카를 위한 Gym 환경입니다.
sumo-rl: SUMO 교통 시뮬레이터를 사용한 강화 학습
SUMO 교통 시뮬레이터의 다양한 환경을 위한 Gymnasium 래퍼입니다. 단일 및 다중 에이전트 설정(pettingzoo 사용) 모두를 지원합니다.
생물학 / 의료 환경 (Biological / Medical environments)¶
생물 시스템과의 상호 작용.
ICU-Sepsis: 실제 의료 데이터를 기반으로 구축된 벤치마크 MDP
ICU-Sepsis는 중환자실(ICU)에서 패혈증 치료를 시뮬레이션하는 테이블형 강화 학습 환경입니다. ICU-Sepsis: A Benchmark MDP Built from Real Medical Data 논문에서 소개된 이 환경은 가볍고 사용하기 쉽지만, 대부분의 강화 학습 알고리즘에게는 도전적입니다.
경제 / 금융 환경 (Economic / Financial environments)¶
경제 관련 모든 것.
gym-anytrading: FOREX 및 주식 거래를 위한 금융 거래 환경
AnyTrading은 강화 학습 기반 거래 알고리즘을 위한 Gym 환경 모음으로, 단순성, 유연성 및 포괄성에 중점을 둡니다.
gym-mtsim: MetaTrader 5 플랫폼을 위한 금융 거래
MtSim은 강화 학습 기반 거래 알고리즘을 위한 MetaTrader 5 거래 플랫폼 시뮬레이터입니다.
-
Gym Trading Env는 역사적 데이터를 기반으로 주식(또는 암호화폐) 시장을 시뮬레이션합니다. 빠르고 쉽게 사용자 정의할 수 있도록 설계되었습니다.
전기 / 에너지 환경 (Electrical / Energy environments)¶
전자의 흐름 관리.
EV2Gym: EV 스마트 충전을 위한 현실적인 EV-V2G-Gym 시뮬레이터
EV2Gym은 소규모 및 대규모 EV(전기 자동차) 스마트 충전 시뮬레이션을 위한 완벽하게 사용자 정의 가능하고 쉽게 구성 가능한 환경입니다. 또한 수학적 프로그래밍, 모델 예측 제어 및 휴리스틱과 같은 비RL 기준 구현도 포함합니다.
게임 환경 (Game environments)¶
보드 게임, 비디오 게임 및 기타 모든 대화형 엔터테인먼트 매체.
Craftium: RL 환경 생성을 위한 확장 가능한 프레임워크
Craftium은 Minetest 게임 엔진을 Gymnasium API로 래핑하여 Minecraft와 같은 RL 환경을 설계하기 위한 현대적이고 사용하기 쉬운 플랫폼을 제공합니다.
-
Flappy Bird를 Farama Gymnasium 환경으로 구현했습니다.
flappy-bird-gymnasium: Gymnasium용 Flappy Bird 환경
매우 인기 있는 아케이드 스타일 모바일 게임인 Flappy Bird의 클론에서 단일 에이전트 강화 학습 알고리즘을 위한 간단한 환경입니다. 상태 및 픽셀 관찰 환경을 모두 사용할 수 있습니다.
Generals.io bots: generals.io 에이전트 개발
Generals.io는 2D 그리드에서 진행되는 빠르게 진행되는 전략 게임입니다. Gymnasium/PettingZoo API를 통해 봇 개발을 쉽게 할 수 있습니다.
pystk2-gymnasium: SuperTuxKart 레이스 gymnasium 래퍼
SuperTuxKart 주변의 파이썬 래퍼를 사용하여 월드 상태에 접근하고 레이스를 제어할 수 있습니다.
-
QWOP는 100미터 트랙을 매우 빠르게 달리는 게임입니다. 이 Gymnasium 환경을 사용하면 자신만의 에이전트를 훈련시키고 현재 세계 기록(인간 5.0초, AI 4.7초)을 깨뜨릴 수 있습니다.
Tetris Gymnasium: 완벽하게 구성 가능한 Gymnasium 호환 테트리스 환경
Tetris Gymnasium은 Gymnasium 환경으로 테트리스를 깔끔하게 구현한 것입니다. 광범위하게 사용자 정의(예: 보드 크기, 중력 등)할 수 있고, 문서화가 잘 되어 있으며, 훈련 스크립트 제공과 같은 사용 방법에 대한 많은 예제를 포함합니다.
-
tmrl은 실시간 애플리케이션에서 심층 강화 학습 AI를 훈련하기 위한 분산 프레임워크입니다. TrackMania 2020 비디오 게임에서 시연됩니다.
수학 / 계산 환경 (Mathematics / Computational)¶
계산량 감소, 수학 정리 증명 등.
spark-sched-sim: Apache Spark에서 DAG 작업 스케줄링 환경
spark-sched-sim은 RL 기반 작업 스케줄링 알고리즘을 위해 Spark 클러스터를 시뮬레이션합니다. Spark 작업은 방향 비순환 그래프(DAG)로 인코딩되어 RL 컨텍스트에서 그래프 신경망(GNN)을 실험할 기회를 제공합니다.
gym-saturation: 정리 증명에 사용되는 환경
포화 알고리즘(예: Vampire) 기반 자동 정리 증명기를 안내하기 위한 환경입니다.
로보틱스 환경 (Robotics environments)¶
자율 로봇.
-
BSK-RL은 우주선 태스크 문제를 위한 Gymnasium 환경을 구축하기 위한 파이썬 패키지입니다. 모듈식 고속 우주선 시뮬레이션 프레임워크인 Basilisk 위에 구축되어 시뮬레이션 환경이 고정밀이며 계산 효율적입니다. BSK-RL은 이러한 환경에서 작업하기 위한 유틸리티 및 예제 모음도 포함합니다.
-
Connect-4-Gym은 스스로 플레이하여 학습하고 Elo 레이팅을 할당하는 AI 생성을 위해 설계된 환경입니다. 이 환경을 사용하여 클래식 보드 게임 Connect Four에서 강화 학습 에이전트를 훈련하고 평가할 수 있습니다.
-
FlyCraft는 고정익 UAV 태스크를 위한 Gymnasium 환경입니다. 기본적으로 FlyCraft는 자세 제어 및 속도 벡터 제어의 두 가지 태스크를 제공합니다. 이러한 태스크는 다중 목표 및 장기적 특성을 가지므로 RL 탐색에 상당한 어려움을 안겨줍니다. 또한 보상은 마코프적이거나 비마코프적으로 구성될 수 있어 FlyCraft는 비마코프 문제 연구에 적합합니다.
-
JAX에서 구현된 RL 환경으로, Gymnasium, MinAtari, bsuite 등 여러 환경을 지원하는 고도로 벡터화된 환경을 사용할 수 있습니다.
-
gym-jiminy는 Pinocchio를 사용하여 물리 평가를 수행하고 Meshcat을 사용하여 웹 기반 3D 렌더링을 수행하는 매우 빠르고 가벼운 다관절 시스템 시뮬레이터인 Jiminy를 사용하여 초기 Gym을 로보틱스용으로 확장한 것입니다.
gym-pybullet-drones: 쿼드콥터 제어 환경
PyBullet을 사용하여 Bitcraze Crazyflie 2.x 나노쿼드 로터의 동역학을 시뮬레이션하는 간단한 환경입니다.
-
Itomori는 위험 인식 UAV 비행을 위한 환경이며, Chance-Constrained Markov Decision Processes (CCMDP)를 해결하기 위한 도구를 제공합니다. 이 환경은 GPS 불확실성, 충돌 위험, 적응형 비행 계획과 같은 변수를 통합하여 복잡하고 위험한 환경에서의 UAV 내비게이션을 시뮬레이션, 시각화 및 평가할 수 있습니다. Itomori는 조정 가능한 매개변수, 상세한 시각화 및 불확실한 환경에서 에이전트 행동에 대한 통찰력을 제공하여 UAV 경로 계획 연구를 지원하기 위해 고안되었습니다.
OmniIsaacGymEnvs: NVIDIA Omniverse Isaac 용 Gym 환경
Omniverse Isaac 시뮬레이터를 위한 강화 학습 환경입니다.
panda-gym: PyBullet 물리 엔진을 사용하는 로보틱스 환경
PyBullet 기반으로 물체를 움직이는 로봇 팔 시뮬레이션입니다.
PyFlyt: 강화 학습 연구를 위한 UAV 비행 시뮬레이터 환경
다양한 UAV에서 강화 학습 알고리즘을 테스트하기 위한 라이브러리입니다. Bullet 물리 엔진 위에 구축되었으며, 유연한 렌더링 옵션, 시간 이산 스텝 가능 물리, Python 바인딩 및 복엽기, 쿼드콥터, 로켓 등 생각할 수 있는 모든 구성의 사용자 정의 드론 지원을 제공합니다.
safe-control-gym: RL 알고리즘의 안전성 평가
CasADi (기호적) 사전 역학 및 제약 조건이 있는 PyBullet 기반 CartPole 및 Quadrotor 환경을 통해 안전성, 견고성 및 일반화 능력을 평가합니다.
Safety-Gymnasium: 실제 RL 시나리오에서 안전 보장
높은 확장성과 사용자 정의가 가능한 안전 강화 학습 라이브러리입니다.
통신 시스템 환경 (Telecommunication Systems environments)¶
무선 및/또는 유선 통신 시스템과 상호 작용 및/또는 관리.
mobile-env: 무선 모바일 네트워크 조정을 위한 환경
무선 모바일 네트워크에서 자율 조정을 위한 개방적이고 미니멀리스트한 Gymnasium 환경입니다.
기타 (Other)¶
Buffalo-Gym: 다중 암 밴딧 Gymnasium
Buffalo-Gym은 주로 RL 구현 디버깅을 돕기 위해 구축된 다중 암 밴딧(MAB) Gymnasium입니다. MAB는 에이전트가 무엇을 학습하고 있는지, 그리고 그것이 올바른지 추론하기 쉬운 경우가 많습니다. Buffalo-gym은 밴딧, 콘텍스트 밴딧, 그리고 엘리어싱이 있는 콘텍스트 밴딧을 포함합니다.
-
길이가 가변적인 폴을 가진 CartPole 또는 지면 마찰이 다른 Brax 로봇과 같이 일반화를 위한 훈련 및 테스트 분포를 가능하게 하는 인기 있는 강화 학습 환경의 콘텍스트 확장입니다.
-
동적 알고리즘 구성을 위한 벤치마크 라이브러리입니다. 다양한 DAC 방법의 재현성 및 비교 가능성, 그리고 최적화 프로세스의 쉬운 분석에 중점을 둡니다.
gym-cellular-automata: 셀룰러 오토마타 환경
에이전트가 셀 상태를 변경하여 _셀룰러 오토마타_와 상호 작용하는 환경입니다.
Gym-Gridworlds: 사용자 정의 가능한 미니멀리스트 그리드 월드 모음
기본 클래스는 “목표 지점 이동”을 구현하지만, 다양한 그리드, 보상, 역학 및 태스크로 다른 태스크에 맞게 쉽게 사용자 정의할 수 있습니다. 다양한 관찰 유형(이산, 좌표, 이진, 픽셀, 부분)을 지원합니다. 테이블형 및 함수 근사 RL 알고리즘을 빠르게 테스트하고 프로토타이핑하는 데 유용합니다.
-
이산 MDP를 gym 환경으로 쉽게 구현하기 위한 환경입니다. 행렬 세트(
P_0(s)
,P(s'| s, a)
및R(s', s, a)
)를 이러한 동역학에 의해 지배되는 이산 MDP를 나타내는 gym 환경으로 변환합니다. SimpleGrid: Gymnasium을 위한 간단한 그리드 환경
SimpleGrid는 Gymnasium을 위한 매우 간단하고 미니멀한 그리드 환경입니다. 사용 및 사용자 정의가 쉽고 다양한 RL 알고리즘을 신속하게 테스트하고 프로토타이핑하기 위한 환경을 제공합니다.
Gym을 사용하는 타사 환경 (Third-Party Environments using Gym)¶
다양한 버전의 Gym을 사용하는 타사 환경이 많이 있습니다. 이들 중 상당수는 Gymnasium과 함께 작동하도록 조정될 수 있지만(Gym과의 호환성 참고), 완전히 기능함을 보장하지는 않습니다.
비디오 게임 환경 (Video Game environments)¶
-
생물을 훈련시켜 서로 싸우게 하는 3대3 MOBA 환경입니다.
SlimeVolleyGym: 슬라임 배구 게임을 위한 간단한 환경
슬라임 배구 게임의 클론에서 단일 및 다중 에이전트 강화 학습 알고리즘 벤치마킹을 위한 간단한 환경입니다.
Unity ML Agents: Unity 게임 엔진용 환경
Unity 게임 엔진을 사용한 임의 및 미리 만들어진 환경을 위한 Gym 및 PettingZoo 래퍼입니다.
-
AI 시뮬레이션을 위해 Open 3D Engine을 사용하며 Gym과 상호 운용할 수 있습니다. PyBullet 물리를 사용합니다.
로보틱스 환경 (Robotics environments)¶
-
Mars Explorer는 Gym 호환 환경으로, 강력한 심층 강화 학습 방법론과 알 수 없는 지형 탐색/커버 문제 사이의 격차를 해소하기 위한 초기 노력으로 설계 및 개발되었습니다.
-
Robo-gym은 시뮬레이션 및 실제 로보틱스 모두에 적용 가능한 로봇 태스크를 포함하는 강화 학습 환경 모음을 제공합니다.
Offworld-gym: 실제 로봇을 무료로 원격 제어
인터넷을 통해 실험실의 실제 로봇을 제어할 수 있는 Gym 환경입니다.
-
소프트 로봇 설계 및 제어를 공동 최적화하기 위한 대규모 벤치마크입니다.
-
PyBullet을 사용하여 상호 작용적인 물리를 갖춘 고품질의 사실적인 장면을 제공하는 시뮬레이션 환경입니다.
-
이것은 Isaac Gym을 통해 양손 능숙 조작 태스크를 제공하는 라이브러리입니다.
자율 주행 환경 (Autonomous Driving environments)¶
gym-duckietown: 자율 주행 차량 차선 추종
Duckietown 프로젝트(소규모 자율 주행 차량 코스)를 위해 구축된 차선 추종 시뮬레이터입니다.
-
구성 가능한 보상, 액션 공간 및 관찰 공간을 제공하는 CommonRoad 벤치마크와 호환되는 다양한 교통 시나리오에 대한 모션 계획 문제를 해결하기 위한 Gym입니다.
racing_dreamer: 자율 주행 레이싱의 잠재 상상
시뮬레이션에서 모델 기반 RL 에이전트를 훈련시키고 미세 조정을 거치지 않고 소규모 레이싱카로 이전합니다.
l2r: 에이전트가 레이싱 방법을 학습하는 다중 모달 제어 환경
자율 주행 레이싱을 위한 오픈 소스 강화 학습 환경입니다.
기타 환경 (Other environments)¶
-
LLVM 단계 순서 지정, GCC 플래그 튜닝, CUDA 루프 중첩 코드 생성과 같은 컴파일러 최적화 태스크를 위한 강화 학습 환경입니다.
-
환경은 플레이어가 모든 상자를 창고의 저장 위치로 밀어야 하는 운송 퍼즐로 구성됩니다.
NLPGym: NLP 태스크 해결을 위한 RL 에이전트 개발 도구 키트
NLPGym은 시퀀스 태깅, 질문 응답, 시퀀스 분류와 같은 표준 NLP 태스크를 위한 대화형 환경을 제공합니다.
-
ShinRL: 이론적 및 실제적 관점에서 RL 알고리즘 평가 라이브러리 (Deep RL Workshop 2021)
openmodelica-microgrid-gym: 마이크로그리드에서 전력 전자 컨버터 제어 환경
OpenModelica Microgrid Gym (OMG) 패키지는 전력 전자 컨버터에 의한 에너지 변환을 기반으로 하는 마이크로그리드 시뮬레이션 및 제어 최적화를 위한 소프트웨어 도구 상자입니다.
-
GymFC는 신경 비행 제어기를 합성하기 위한 모듈식 프레임워크입니다. 세계 최초의 오픈 소스 신경망 비행 제어 펌웨어인 Neuroflight를 위한 정책을 생성하는 데 사용되었습니다.