집중 학습 수익률 중 중요한 특징은 () 이 있다는 것입니다.
< /p>
집중 학습의 수익률 한 가지 중요한 특징은 다음과 같습니다. < /p>
집중 학습의 수익률 한 가지 중요한 특징은 지연성입니다. 즉, 주어진 상황에서 조치를 취하고 보상을 받는 시간이 지연될 수 있습니다. 많은 경우 이 작업이 필요할 수 있습니다. 학습 과정에서 지능은 환경을 탐색하고 최대한의 수익을 얻기 위해 조치를 취하는 방법을 이해할 시간이 필요하기 때문입니다. < /p>
1, 집중 학습의 지연 수익률 < /p>
집중 학습에서 에이전트는 환경과 상호 작용하여 주어진 상황에서 최상의 조치를 취하는 방법을 배웁니다. 이러한 상호 작용 과정은 점진적으로 진행되며, 행동을 취하고 피드백을 받을 때마다 에이전트는 행동을 취하는 방법에 대한 이해를 업데이트합니다. 이러한 단계별 업데이트 프로세스로 인해 보고된 값이 지연됩니다. < /p>
2, 에이전트가 환경 내에서 조치를 취한 후 < /p>
에이전트가 환경 내에서 조치를 취한 후 환경이 조치에 대한 피드백을 기다리고 있습니다. 이 피드백은 일정 기간 후에 얻을 수 있습니다. 이 기간 동안, 지능은 계속해서 다른 행동을 취할 수 있으며, 이는 처음에 취한 행동에 대한 견해를 바꿀 수 있다. 이 지연 피드백은 반환 값의 지연을 초래합니다. < /p>
3, 에이전트가 작업의 실제 결과를 이해하기에 충분한 시간을 기다려야 하기 때문에 < /p>
. 지연 수익은 정책 선택에 중요한 영향을 미칩니다. 지연 보상이 있는 환경에서 인텔리전스는 즉각적인 수익과 미래의 수익을 가늠할 수 있는 방법이 필요합니다. 이는 미래 수익에 대한 중요도를 제어할 수 있는 할인 요소라는 매개변수를 사용하여 수행할 수 있습니다. < /p>
4, 할인 요소가 작은 경우 < /p>
할인 요소가 작은 경우 에이전트는 향후 수익률에 더 많은 관심을 기울입니다. 만약 할인율이 크다면, 지능은 즉각적인 수익을 더욱 중시할 것이다. 할인 계수 선택은 정책 선택에 중요한 영향을 미칩니다. 장기적인 영향을 미치는 환경에서 작은 할인 요소를 선택하면 에이전트가 미래의 수익을 더욱 중시하고 장기적인 전략을 채택할 수 있습니다. < /p >