EITC/AI/ARL ਐਡਵਾਂਸਡ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ, ਨਕਲੀ ਬੁੱਧੀ ਵਿੱਚ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਲਈ ਡੀਪਮਾਈਂਡ ਦੀ ਪਹੁੰਚ 'ਤੇ ਯੂਰਪੀਅਨ ਆਈਟੀ ਸਰਟੀਫਿਕੇਸ਼ਨ ਪ੍ਰੋਗਰਾਮ ਹੈ।
EITC/AI/ARL ਐਡਵਾਂਸਡ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦਾ ਪਾਠਕ੍ਰਮ ਹੇਠਾਂ ਦਿੱਤੇ ਢਾਂਚੇ ਦੇ ਅੰਦਰ ਸੰਗਠਿਤ ਡੀਪਮਾਈਂਡ ਦੇ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਤੋਂ ਮਜ਼ਬੂਤੀ ਸਿੱਖਣ ਦੀਆਂ ਤਕਨੀਕਾਂ ਵਿੱਚ ਸਿਧਾਂਤਕ ਪਹਿਲੂਆਂ ਅਤੇ ਵਿਹਾਰਕ ਹੁਨਰਾਂ 'ਤੇ ਕੇਂਦ੍ਰਤ ਕਰਦਾ ਹੈ, ਇਸ EITC ਸਰਟੀਫਿਕੇਸ਼ਨ ਲਈ ਇੱਕ ਸੰਦਰਭ ਵਜੋਂ ਵਿਆਪਕ ਵੀਡੀਓ ਡਾਇਡੈਕਟਿਕ ਸਮੱਗਰੀ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ।
ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (ਆਰਐਲ) ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਇੱਕ ਖੇਤਰ ਹੈ ਜਿਸ ਨਾਲ ਸਬੰਧਤ ਹੈ ਕਿ ਕਿਵੇਂ ਬੁੱਧੀਮਾਨ ਏਜੰਟ ਇਕੱਠੇ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਇਨਾਮ ਦੀ ਧਾਰਣਾ ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਨ ਲਈ ਵਾਤਾਵਰਣ ਵਿੱਚ ਕਾਰਵਾਈਆਂ ਕਰਨ. ਪੁਨਰ ਨਿਗਰਾਨੀ ਸਿਖਲਾਈ ਨਿਗਰਾਨੀ ਅਧੀਨ ਸਿਖਲਾਈ ਅਤੇ ਬਿਨਾਂ ਨਿਰੀਖਣ ਦੇ ਨਾਲ-ਨਾਲ ਤਿੰਨ ਬੁਨਿਆਦੀ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਦੇ ਨਮੂਨੇ ਹਨ.
ਪੁਸ਼ਟੀਕਰਣ ਸਿਖਲਾਈ ਲੇਬਲ ਵਾਲੇ ਇਨਪੁਟ/ਆਉਟਪੁੱਟ ਜੋੜਾਂ ਨੂੰ ਪੇਸ਼ ਕਰਨ ਦੀ ਜ਼ਰੂਰਤ ਨਹੀਂ, ਅਤੇ ਉਪ-ਅਨੁਕੂਲ ਕਿਰਿਆਵਾਂ ਨੂੰ ਸਪਸ਼ਟ ਤੌਰ ਤੇ ਸਹੀ ਕਰਨ ਦੀ ਜ਼ਰੂਰਤ ਵਿੱਚ ਨਿਗਰਾਨੀ ਅਧੀਨ ਸਿੱਖਣ ਨਾਲੋਂ ਵੱਖਰੀ ਹੈ. ਇਸ ਦੀ ਬਜਾਏ ਫੋਕਸ (ਅਣਚਾਹੇ ਪ੍ਰਦੇਸ਼ ਦੇ) ਅਤੇ ਸ਼ੋਸ਼ਣ (ਮੌਜੂਦਾ ਗਿਆਨ ਦੇ) ਵਿਚਕਾਰ ਸੰਤੁਲਨ ਲੱਭਣ 'ਤੇ ਹੈ.
ਵਾਤਾਵਰਣ ਨੂੰ ਆਮ ਤੌਰ 'ਤੇ ਮਾਰਕੋਵ ਫੈਸਲੇ ਦੀ ਪ੍ਰਕਿਰਿਆ (ਐਮਡੀਪੀ) ਦੇ ਰੂਪ ਵਿਚ ਦੱਸਿਆ ਜਾਂਦਾ ਹੈ, ਕਿਉਂਕਿ ਇਸ ਪ੍ਰਸੰਗ ਲਈ ਬਹੁਤ ਸਾਰੇ ਸੁਧਾਰ-ਸਿਖਲਾਈ ਐਲਗੋਰਿਦਮ ਗਤੀਸ਼ੀਲ ਪ੍ਰੋਗਰਾਮਿੰਗ ਤਕਨੀਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ. ਕਲਾਸੀਕਲ ਡਾਇਨੈਮਿਕ ਪ੍ਰੋਗਰਾਮਿੰਗ methodsੰਗਾਂ ਅਤੇ ਸੁਧਾਰਨ ਸਿਖਲਾਈ ਐਲਗੋਰਿਦਮਾਂ ਵਿਚਕਾਰ ਮੁੱਖ ਅੰਤਰ ਇਹ ਹੈ ਕਿ ਬਾਅਦ ਵਾਲੇ ਐਮਡੀਪੀ ਦੇ ਸਹੀ ਗਣਿਤ ਦੇ ਮਾਡਲ ਦਾ ਗਿਆਨ ਨਹੀਂ ਲੈਂਦੇ ਅਤੇ ਉਹ ਵੱਡੇ ਐਮਡੀਪੀਜ਼ ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦੇ ਹਨ ਜਿੱਥੇ ਸਹੀ methodsੰਗ ਅਸੰਭਵ ਹੋ ਜਾਂਦੇ ਹਨ.
ਇਸਦੀ ਸਧਾਰਣਤਾ ਦੇ ਕਾਰਨ, ਸੁਧਾਰ-ਸਿਖਲਾਈ ਦਾ ਬਹੁਤ ਸਾਰੇ ਵਿਸ਼ਿਆਂ ਵਿੱਚ ਅਧਿਐਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਗੇਮ ਥਿ theoryਰੀ, ਕੰਟਰੋਲ ਥਿ theoryਰੀ, ਆਪ੍ਰੇਸ਼ਨ ਰਿਸਰਚ, ਇਨਫਰਮੇਸ਼ਨ ਥਿ ,ਰੀ, ਸਿਮੂਲੇਸ਼ਨ-ਬੇਸਡ ਓਪਟੀਮਾਈਜ਼ੇਸ਼ਨ, ਮਲਟੀ-ਏਜੰਟ ਸਿਸਟਮ, ਸਵਰਮ ਇੰਟੈਲੀਜੈਂਸ ਅਤੇ ਅੰਕੜੇ. ਕਾਰਜਾਂ ਦੀ ਖੋਜ ਅਤੇ ਨਿਯੰਤਰਣ ਸਾਹਿਤ ਵਿੱਚ, ਮਜਬੂਤ ਸਿੱਖਿਆ ਨੂੰ ਲਗਭਗ ਗਤੀਸ਼ੀਲ ਪ੍ਰੋਗਰਾਮਿੰਗ, ਜਾਂ ਨਿuroਰੋ-ਡਾਇਨਾਮਿਕ ਪ੍ਰੋਗਰਾਮਿੰਗ ਕਿਹਾ ਜਾਂਦਾ ਹੈ. ਪੁਨਰਗਠਨ ਸਿੱਖਿਆ ਵਿੱਚ ਰੁਚੀ ਦੀਆਂ ਮੁਸ਼ਕਲਾਂ ਦਾ ਅਨੁਕੂਲ ਨਿਯੰਤਰਣ ਦੇ ਸਿਧਾਂਤ ਵਿੱਚ ਵੀ ਅਧਿਐਨ ਕੀਤਾ ਗਿਆ ਹੈ, ਜੋ ਕਿ ਜਿਆਦਾਤਰ ਸਰਬੋਤਮ ਹੱਲਾਂ ਦੀ ਮੌਜੂਦਗੀ ਅਤੇ ਵਿਸ਼ੇਸ਼ਤਾ, ਅਤੇ ਉਹਨਾਂ ਦੀ ਸਹੀ ਗਣਨਾ ਲਈ ਐਲਗੋਰਿਦਮ ਨਾਲ ਸਬੰਧਤ ਹੈ, ਅਤੇ ਸਿੱਖਣ ਜਾਂ ਲਗਭਗ ਦੇ ਨਾਲ ਘੱਟ, ਖਾਸ ਕਰਕੇ ਦੀ ਗੈਰ ਮੌਜੂਦਗੀ ਵਿੱਚ. ਵਾਤਾਵਰਣ ਦਾ ਇੱਕ ਗਣਿਤ ਦਾ ਮਾਡਲ. ਅਰਥਸ਼ਾਸਤਰ ਅਤੇ ਖੇਡ ਸਿਧਾਂਤ ਵਿੱਚ, ਮਜ਼ਬੂਤੀ ਸਿਖਲਾਈ ਦੀ ਵਰਤੋਂ ਇਹ ਸਮਝਾਉਣ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ ਕਿ ਬੰਨ੍ਹੇ ਸਮਝਦਾਰੀ ਦੇ ਤਹਿਤ ਸੰਤੁਲਨ ਕਿਵੇਂ ਪੈਦਾ ਹੋ ਸਕਦਾ ਹੈ.
ਬੁਨਿਆਦੀ ਸੁਧਾਰ ਨੂੰ ਮਾਰਕੋਵ ਫੈਸਲੇ ਦੀ ਪ੍ਰਕਿਰਿਆ (ਐਮਡੀਪੀ) ਦੇ ਰੂਪ ਵਿੱਚ ਨਮੂਨਾ ਦਿੱਤਾ ਗਿਆ ਹੈ. ਗਣਿਤ ਵਿੱਚ, ਇੱਕ ਮਾਰਕੋਵ ਫੈਸਲੇ ਦੀ ਪ੍ਰਕਿਰਿਆ (ਐਮਡੀਪੀ) ਇੱਕ ਵੱਖਰੀ ਸਮੇਂ ਦੀ ਸਟੋਕੈਸਟਿਕ ਨਿਯੰਤਰਣ ਪ੍ਰਕਿਰਿਆ ਹੁੰਦੀ ਹੈ. ਇਹ ਉਹਨਾਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਫੈਸਲਾ ਲੈਣ ਦੇ ਮਾਡਲਿੰਗ ਲਈ ਇੱਕ ਗਣਿਤ ਦਾ frameworkਾਂਚਾ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਜਿੱਥੇ ਨਤੀਜੇ ਅੰਸ਼ਕ ਤੌਰ ਤੇ ਬੇਤਰਤੀਬੇ ਹੁੰਦੇ ਹਨ ਅਤੇ ਕੁਝ ਹੱਦ ਤਕ ਕਿਸੇ ਨਿਰਣਾ ਨਿਰਮਾਤਾ ਦੇ ਨਿਯੰਤਰਣ ਵਿੱਚ ਹੁੰਦੇ ਹਨ. ਐਮਡੀਪੀਜ਼ ਡਾਇਨਾਮਿਕ ਪ੍ਰੋਗਰਾਮਿੰਗ ਦੁਆਰਾ ਹੱਲ ਕੀਤੀਆਂ solvedਪਟੀਮਾਈਜ਼ੇਸ਼ਨ ਸਮੱਸਿਆਵਾਂ ਦਾ ਅਧਿਐਨ ਕਰਨ ਲਈ ਲਾਭਦਾਇਕ ਹਨ. ਐਮਡੀਪੀਜ਼ ਘੱਟੋ ਘੱਟ 1950 ਦੇ ਦਹਾਕੇ ਦੇ ਸ਼ੁਰੂ ਵਿੱਚ ਜਾਣੇ ਜਾਂਦੇ ਸਨ. ਮਾਰਕੋਵ ਦੇ ਫੈਸਲਿਆਂ ਦੀਆਂ ਪ੍ਰਕਿਰਿਆਵਾਂ ਬਾਰੇ ਖੋਜ ਦਾ ਇੱਕ ਮੁੱਖ ਅੰਗ ਰੋਨਾਲਡ ਹਾਵਰਡ ਦੀ 1960 ਦੀ ਕਿਤਾਬ, ਡਾਇਨੈਮਿਕ ਪ੍ਰੋਗ੍ਰਾਮਿੰਗ ਅਤੇ ਮਾਰਕੋਵ ਪ੍ਰਕਿਰਿਆਵਾਂ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਆਇਆ. ਉਹ ਬਹੁਤ ਸਾਰੇ ਵਿਸ਼ਿਆਂ ਵਿੱਚ ਵਰਤੇ ਜਾਂਦੇ ਹਨ, ਰੋਬੋਟਿਕਸ, ਆਟੋਮੈਟਿਕ ਨਿਯੰਤਰਣ, ਅਰਥ ਸ਼ਾਸਤਰ ਅਤੇ ਨਿਰਮਾਣ ਸਮੇਤ. ਐਮਡੀਪੀਜ਼ ਦਾ ਨਾਮ ਰੂਸੀ ਗਣਿਤ ਵਿਗਿਆਨੀ ਆਂਡਰੇ ਮਾਰਕੋਵ ਤੋਂ ਆਇਆ ਹੈ ਕਿਉਂਕਿ ਉਹ ਮਾਰਕੋਵ ਚੇਨ ਦਾ ਵਿਸਥਾਰ ਹਨ.
ਹਰ ਸਮੇਂ ਪੜਾਅ 'ਤੇ, ਪ੍ਰਕਿਰਿਆ ਕੁਝ ਰਾਜ ਐਸ ਵਿਚ ਹੁੰਦੀ ਹੈ, ਅਤੇ ਫੈਸਲਾ ਲੈਣ ਵਾਲਾ ਕੋਈ ਵੀ ਕਾਰਜ ਚੁਣ ਸਕਦਾ ਹੈ ਜੋ ਰਾਜ ਸ. ਵਿਚ ਉਪਲਬਧ ਹੈ. ਪ੍ਰਕ੍ਰਿਆ ਅਗਲੀ ਵਾਰ ਕਦਮ' ਤੇ ਬੇਤਰਤੀਬੇ ਤੌਰ 'ਤੇ ਇਕ ਨਵੇਂ ਰਾਜ ਦੇ ਐਸ ਵਿਚ ਤਬਦੀਲ ਹੋ ਕੇ ਜਵਾਬ ਦਿੰਦੀ ਹੈ. ਫੈਸਲਾ ਲੈਣ ਵਾਲਾ ਇਕ ਅਨੁਸਾਰੀ ਇਨਾਮ ਰਾ (ਐਸ, ਐਸ ') ਦਿੰਦਾ ਹੈ.
ਸੰਭਾਵਨਾ ਹੈ ਕਿ ਪ੍ਰਕਿਰਿਆ ਆਪਣੇ ਨਵੇਂ ਰਾਜ S 'ਚ ਚਲੀ ਜਾਂਦੀ ਹੈ ਚੁਣੀਆਂ ਹੋਈਆਂ ਕਾਰਵਾਈਆਂ ਦੁਆਰਾ ਪ੍ਰਭਾਵਿਤ ਹੁੰਦੀ ਹੈ. ਖਾਸ ਤੌਰ 'ਤੇ, ਇਹ ਰਾਜ ਪਰਿਵਰਤਨ ਫੰਕਸ਼ਨ Pa (S, S') ਦੁਆਰਾ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ. ਇਸ ਤਰ੍ਹਾਂ, ਅਗਲਾ ਰਾਜ ਐਸ 'ਮੌਜੂਦਾ ਰਾਜ ਦੇ ਐਸ ਅਤੇ ਫੈਸਲੇ ਲੈਣ ਵਾਲੇ ਦੀ ਕਾਰਵਾਈ' ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ. ਪਰ ਐਸ ਅਤੇ ਏ ਨੂੰ ਦਿੱਤੇ ਹੋਏ, ਇਹ ਪਿਛਲੇ ਸਾਰੇ ਰਾਜਾਂ ਅਤੇ ਕਿਰਿਆਵਾਂ ਤੋਂ ਸ਼ਰਤ ਅਨੁਸਾਰ ਸੁਤੰਤਰ ਹੈ. ਦੂਜੇ ਸ਼ਬਦਾਂ ਵਿੱਚ, ਇੱਕ ਐਮਡੀਪੀ ਦੇ ਰਾਜ ਪਰਿਵਰਤਨ ਮਾਰਕੋਵ ਦੀ ਜਾਇਦਾਦ ਨੂੰ ਸੰਤੁਸ਼ਟ ਕਰਦੇ ਹਨ.
ਮਾਰਕੋਵ ਦੇ ਫੈਸਲੇ ਪ੍ਰਕਿਰਿਆਵਾਂ ਮਾਰਕੋਵ ਚੇਨ ਦਾ ਵਿਸਥਾਰ ਹਨ; ਫਰਕ ਕਾਰਜਾਂ (ਚੋਣ ਦੀ ਆਗਿਆ) ਅਤੇ ਇਨਾਮ (ਪ੍ਰੇਰਣਾ ਦੇਣਾ) ਜੋੜਨਾ ਹੈ. ਇਸਦੇ ਉਲਟ, ਜੇ ਹਰੇਕ ਰਾਜ ਲਈ ਸਿਰਫ ਇੱਕ ਹੀ ਕਿਰਿਆ ਮੌਜੂਦ ਹੈ (ਉਦਾਹਰਣ ਵਜੋਂ "ਇੰਤਜ਼ਾਰ ਕਰੋ") ਅਤੇ ਸਾਰੇ ਇਨਾਮ ਇਕੋ ਜਿਹੇ ਹਨ (ਉਦਾਹਰਣ ਲਈ "ਜ਼ੀਰੋ"), ਮਾਰਕੋਵ ਦੇ ਫੈਸਲੇ ਦੀ ਪ੍ਰਕਿਰਿਆ ਇੱਕ ਮਾਰਕੋਵ ਚੇਨ ਨੂੰ ਘਟਾਉਂਦੀ ਹੈ.
ਇੱਕ ਮਜਬੂਤ ਸਿੱਖਿਆ ਸਿਖਲਾਈ ਏਜੰਟ ਇਸ ਦੇ ਵਾਤਾਵਰਣ ਨਾਲ ਵੱਖਰੇ ਸਮੇਂ ਦੇ ਕਦਮਾਂ ਵਿੱਚ ਦਖਲ ਦਿੰਦਾ ਹੈ. ਹਰ ਵਾਰ ਟੀ ਤੇ, ਏਜੰਟ ਮੌਜੂਦਾ ਸਥਿਤੀ ਐਸ (ਟੀ) ਅਤੇ ਇਨਾਮ ਰਿ (ਟੀ) ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ. ਇਹ ਫਿਰ ਉਪਲਬਧ ਕਿਰਿਆਵਾਂ ਦੇ ਸਮੂਹ ਵਿੱਚੋਂ ਇੱਕ ਐਕਸ਼ਨ (ਟੀ) ਦੀ ਚੋਣ ਕਰਦਾ ਹੈ, ਜੋ ਬਾਅਦ ਵਿੱਚ ਵਾਤਾਵਰਣ ਨੂੰ ਭੇਜਿਆ ਜਾਂਦਾ ਹੈ. ਵਾਤਾਵਰਣ ਇੱਕ ਨਵੀਂ ਸਥਿਤੀ S (t + 1) ਵੱਲ ਜਾਂਦਾ ਹੈ ਅਤੇ ਪਰਿਵਰਤਨ ਨਾਲ ਜੁੜੇ ਇਨਾਮ r (ਟੀ + 1) ਨਿਰਧਾਰਤ ਕੀਤੇ ਜਾਂਦੇ ਹਨ. ਪੁਨਰਗਠਨ ਸਿਖਲਾਈ ਏਜੰਟ ਦਾ ਟੀਚਾ ਇਕ ਨੀਤੀ ਸਿੱਖਣਾ ਹੈ ਜੋ ਉਮੀਦ ਕੀਤੇ ਸੰਚਤ ਇਨਾਮ ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਦਾ ਹੈ.
ਐਮਡੀਪੀ ਵਜੋਂ ਸਮੱਸਿਆ ਨੂੰ ਬਣਾਉਣਾ ਮੰਨ ਲੈਂਦਾ ਹੈ ਕਿ ਏਜੰਟ ਮੌਜੂਦਾ ਵਾਤਾਵਰਣ ਦੀ ਸਥਿਤੀ ਨੂੰ ਸਿੱਧਾ ਵੇਖਦਾ ਹੈ. ਇਸ ਸਥਿਤੀ ਵਿੱਚ ਸਮੱਸਿਆ ਨੂੰ ਪੂਰੀ ਨਿਗਰਾਨੀ ਕਰਨ ਲਈ ਕਿਹਾ ਜਾਂਦਾ ਹੈ. ਜੇ ਏਜੰਟ ਕੋਲ ਸਿਰਫ ਰਾਜਾਂ ਦੇ ਇੱਕ ਉਪ ਸਮੂਹ ਤੱਕ ਪਹੁੰਚ ਹੈ, ਜਾਂ ਜੇ ਦੇਖਿਆ ਗਿਆ ਰਾਜ ਸ਼ੋਰ ਨਾਲ ਭ੍ਰਿਸ਼ਟ ਹੋ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਕਿਹਾ ਜਾਂਦਾ ਹੈ ਕਿ ਏਜੰਟ ਦੀ ਅੰਸ਼ਕ ਨਿਗਰਾਨੀ ਹੁੰਦੀ ਹੈ, ਅਤੇ ਰਸਮੀ ਤੌਰ 'ਤੇ ਸਮੱਸਿਆ ਨੂੰ ਅੰਸ਼ਕ ਤੌਰ' ਤੇ ਵੇਖਣਯੋਗ ਮਾਰਕੋਵ ਫੈਸਲੇ ਦੀ ਪ੍ਰਕਿਰਿਆ ਦੇ ਰੂਪ ਵਿੱਚ ਤਿਆਰ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ. ਦੋਵਾਂ ਮਾਮਲਿਆਂ ਵਿੱਚ, ਏਜੰਟ ਨੂੰ ਉਪਲਬਧ ਕਿਰਿਆਵਾਂ ਦੇ ਸਮੂਹ ਤੇ ਪਾਬੰਦੀ ਲਗਾਈ ਜਾ ਸਕਦੀ ਹੈ. ਉਦਾਹਰਣ ਦੇ ਲਈ, ਖਾਤੇ ਦੇ ਬਕਾਏ ਦੀ ਸਥਿਤੀ ਨੂੰ ਸਕਾਰਾਤਮਕ ਹੋਣ ਤੱਕ ਸੀਮਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ; ਜੇ ਰਾਜ ਦਾ ਮੌਜੂਦਾ ਮੁੱਲ 3 ਹੈ ਅਤੇ ਰਾਜ ਪਰਿਵਰਤਨ 4 ਦੁਆਰਾ ਮੁੱਲ ਨੂੰ ਘਟਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ, ਤਾਂ ਤਬਦੀਲੀ ਦੀ ਆਗਿਆ ਨਹੀਂ ਦਿੱਤੀ ਜਾਏਗੀ.
ਜਦੋਂ ਏਜੰਟ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦੀ ਤੁਲਨਾ ਇਕ ਏਜੰਟ ਨਾਲ ਕੀਤੀ ਜਾਂਦੀ ਹੈ ਜੋ ਵਧੀਆ actsੰਗ ਨਾਲ ਕੰਮ ਕਰਦਾ ਹੈ, ਤਾਂ ਪ੍ਰਦਰਸ਼ਨ ਵਿਚ ਅੰਤਰ ਪਛਤਾਵੇ ਦੀ ਧਾਰਣਾ ਨੂੰ ਜਨਮ ਦਿੰਦਾ ਹੈ. ਵਧੀਆ .ੰਗ ਨਾਲ ਕੰਮ ਕਰਨ ਲਈ, ਏਜੰਟ ਨੂੰ ਆਪਣੀਆਂ ਕਾਰਵਾਈਆਂ ਦੇ ਲੰਬੇ ਸਮੇਂ ਦੇ ਨਤੀਜਿਆਂ ਬਾਰੇ ਦੱਸਣਾ ਚਾਹੀਦਾ ਹੈ (ਭਾਵ, ਭਵਿੱਖ ਦੀ ਆਮਦਨੀ ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰੋ), ਹਾਲਾਂਕਿ ਇਸ ਨਾਲ ਜੁੜੇ ਤੁਰੰਤ ਇਨਾਮ ਨਕਾਰਾਤਮਕ ਹੋ ਸਕਦੇ ਹਨ.
ਇਸ ਤਰ੍ਹਾਂ, ਮਜ਼ਬੂਤੀ ਸਿਖਲਾਈ ਉਨ੍ਹਾਂ ਮੁਸ਼ਕਲਾਂ ਲਈ ਵਿਸ਼ੇਸ਼ ਤੌਰ 'ਤੇ suitedੁਕਵੀਂ ਹੈ ਜਿਸ ਵਿੱਚ ਲੰਬੇ ਸਮੇਂ ਦੀ ਬਨਾਮ ਥੋੜ੍ਹੇ ਸਮੇਂ ਦੇ ਇਨਾਮ ਵਪਾਰ ਸ਼ਾਮਲ ਹਨ. ਇਸ ਨੂੰ ਰੋਬੋਟ ਕੰਟਰੋਲ, ਐਲੀਵੇਟਰ ਸ਼ਡਿ ,ਲਿੰਗ, ਦੂਰਸੰਚਾਰ, ਬੈਕਗਾਮੋਨ, ਚੈਕਰ ਅਤੇ ਗੋ (ਅਲਫ਼ਾਗੋ) ਸਮੇਤ ਕਈ ਸਮੱਸਿਆਵਾਂ ਤੇ ਸਫਲਤਾਪੂਰਵਕ ਲਾਗੂ ਕੀਤਾ ਗਿਆ ਹੈ.
ਦੋ ਤੱਤ ਮਜਬੂਤੀ ਸਿਖਲਾਈ ਨੂੰ ਸ਼ਕਤੀਸ਼ਾਲੀ ਬਣਾਉਂਦੇ ਹਨ: ਪ੍ਰਦਰਸ਼ਨਾਂ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਲਈ ਨਮੂਨਿਆਂ ਦੀ ਵਰਤੋਂ ਅਤੇ ਵੱਡੇ ਵਾਤਾਵਰਣ ਨਾਲ ਨਜਿੱਠਣ ਲਈ ਫੰਕਸ਼ਨ ਦੇ ਲਗਭਗ ਦੀ ਵਰਤੋਂ. ਇਹਨਾਂ ਦੋਨਾਂ ਮਹੱਤਵਪੂਰਣ ਭਾਗਾਂ ਦੇ ਲਈ, ਸੁਧਾਰਨ ਸਿਖਲਾਈ ਨੂੰ ਹੇਠਲੀਆਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਵੱਡੇ ਵਾਤਾਵਰਣ ਵਿੱਚ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ:
- ਵਾਤਾਵਰਣ ਦਾ ਇੱਕ ਨਮੂਨਾ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ, ਪਰ ਇੱਕ ਵਿਸ਼ਲੇਸ਼ਕ ਹੱਲ ਉਪਲਬਧ ਨਹੀਂ ਹੈ.
- ਵਾਤਾਵਰਣ ਦਾ ਸਿਰਫ ਇਕ ਸਿਮੂਲੇਸ਼ਨ ਮਾਡਲ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ (ਸਿਮੂਲੇਸ਼ਨ-ਅਧਾਰਤ optimਪਟੀਮਾਈਜ਼ੇਸ਼ਨ ਦਾ ਵਿਸ਼ਾ).
- ਵਾਤਾਵਰਣ ਬਾਰੇ ਜਾਣਕਾਰੀ ਇਕੱਤਰ ਕਰਨ ਦਾ ਇਕੋ ਇਕ ਤਰੀਕਾ ਹੈ ਇਸ ਨਾਲ ਗੱਲਬਾਤ ਕਰਨਾ.
ਇਨ੍ਹਾਂ ਵਿੱਚੋਂ ਪਹਿਲੀਆਂ ਦੋ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਯੋਜਨਾਬੰਦੀ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਮੰਨਿਆ ਜਾ ਸਕਦਾ ਹੈ (ਕਿਉਂਕਿ ਮਾਡਲ ਦਾ ਕੁਝ ਰੂਪ ਉਪਲਬਧ ਹੈ), ਜਦੋਂ ਕਿ ਆਖਰੀ ਇੱਕ ਸੱਚੀ ਸਿੱਖਣ ਦੀ ਸਮੱਸਿਆ ਸਮਝੀ ਜਾ ਸਕਦੀ ਹੈ. ਹਾਲਾਂਕਿ, ਮਜਬੂਤ ਸਿੱਖਿਆ ਦੋਵਾਂ ਯੋਜਨਾਬੰਦੀ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਵਿੱਚ ਬਦਲ ਦਿੰਦੀ ਹੈ.
ਸ਼ੋਸ਼ਣ ਬਨਾਮ ਸ਼ੋਸ਼ਣ ਵਪਾਰ-ਬੰਦ ਦਾ ਬਹੁ-ਹਥਿਆਰਬੰਦ ਡਾਕੂ ਸਮੱਸਿਆ ਅਤੇ ਬੁਰਨੇਟਾਸ ਅਤੇ ਕਥਾਕੀਸ (1997) ਵਿਚ ਸੀਮਤ ਰਾਜ ਸਪੇਸ ਐਮਡੀਪੀਜ਼ ਦੁਆਰਾ ਸਭ ਤੋਂ ਚੰਗੀ ਤਰ੍ਹਾਂ ਅਧਿਐਨ ਕੀਤਾ ਗਿਆ ਹੈ.
ਮਜਬੂਤ ਸਿਖਲਾਈ ਲਈ ਚਲਾਕ ਖੋਜ ਪ੍ਰਣਾਲੀ ਦੀ ਜ਼ਰੂਰਤ ਹੈ; ਅਨੁਮਾਨਤ ਸੰਭਾਵਨਾ ਵੰਡ ਦੇ ਹਵਾਲੇ ਤੋਂ ਬਿਨਾਂ, ਨਿਯਮਿਤ ਤੌਰ ਤੇ ਕਿਰਿਆਵਾਂ ਦੀ ਚੋਣ ਕਰਨਾ, ਮਾੜੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਿਖਾਉਂਦਾ ਹੈ. (ਛੋਟੇ) ਸੀਮਤ ਮਾਰਕੋਵ ਫੈਸਲਿਆਂ ਦੀਆਂ ਪ੍ਰਕਿਰਿਆਵਾਂ ਦੇ ਮਾਮਲੇ ਨੂੰ ਮੁਕਾਬਲਤਨ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸਮਝਿਆ ਜਾਂਦਾ ਹੈ. ਹਾਲਾਂਕਿ, ਐਲਗੋਰਿਦਮ ਦੀ ਘਾਟ ਦੇ ਕਾਰਨ ਜੋ ਰਾਜਾਂ ਦੀ ਗਿਣਤੀ ਦੇ ਨਾਲ ਚੰਗੀ ਤਰ੍ਹਾਂ ਮਾਪਦੇ ਹਨ (ਜਾਂ ਬੇਅੰਤ ਰਾਜ ਦੀਆਂ ਖਾਲੀ ਥਾਵਾਂ ਨਾਲ ਸਮੱਸਿਆਵਾਂ ਦੇ ਸਕੇਲ), ਸਧਾਰਣ ਪੜਚੋਲ ਕਰਨ ਦੇ mostੰਗ ਸਭ ਤੋਂ ਵੱਧ ਵਿਹਾਰਕ ਹਨ.
ਭਾਵੇਂ ਕਿ ਪੜਤਾਲ ਦੇ ਮੁੱਦੇ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਭਾਵੇਂ ਰਾਜ ਨਿਰੀਖਣ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਸਮੱਸਿਆ ਇਹ ਦੱਸਣ ਲਈ ਪਿਛਲੇ ਤਜ਼ੁਰਬੇ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਬਣੀ ਰਹਿੰਦੀ ਹੈ ਕਿ ਕਿਹੜੀਆਂ ਕਾਰਵਾਈਆਂ ਵਧੇਰੇ ਸੰਚਤ ਇਨਾਮ ਦਿੰਦੀਆਂ ਹਨ.
ਪ੍ਰਮਾਣੀਕਰਣ ਪਾਠਕ੍ਰਮ ਨਾਲ ਆਪਣੇ ਆਪ ਨੂੰ ਵਿਸਥਾਰ ਵਿੱਚ ਜਾਣੂ ਕਰਵਾਉਣ ਲਈ ਤੁਸੀਂ ਹੇਠਾਂ ਦਿੱਤੀ ਸਾਰਣੀ ਦਾ ਵਿਸਤਾਰ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰ ਸਕਦੇ ਹੋ।
EITC/AI/ARL ਐਡਵਾਂਸਡ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਸਰਟੀਫਿਕੇਸ਼ਨ ਪਾਠਕ੍ਰਮ ਇੱਕ ਵੀਡੀਓ ਰੂਪ ਵਿੱਚ ਓਪਨ-ਐਕਸੈਸ ਡਾਇਡੈਕਟਿਕ ਸਮੱਗਰੀ ਦਾ ਹਵਾਲਾ ਦਿੰਦਾ ਹੈ। ਸਿੱਖਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਇੱਕ ਕਦਮ-ਦਰ-ਕਦਮ ਢਾਂਚੇ (ਪ੍ਰੋਗਰਾਮ -> ਪਾਠ -> ਵਿਸ਼ੇ) ਵਿੱਚ ਵੰਡਿਆ ਗਿਆ ਹੈ ਜੋ ਪਾਠਕ੍ਰਮ ਦੇ ਸੰਬੰਧਿਤ ਹਿੱਸਿਆਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ। ਡੋਮੇਨ ਮਾਹਰਾਂ ਨਾਲ ਅਸੀਮਤ ਸਲਾਹ ਵੀ ਪ੍ਰਦਾਨ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
ਸਰਟੀਫਿਕੇਸ਼ਨ ਪ੍ਰਕਿਰਿਆ ਦੇ ਵੇਰਵਿਆਂ ਲਈ ਜਾਂਚ ਕਰੋ ਕਿਦਾ ਚਲਦਾ.
ਪਾਠਕ੍ਰਮ ਹਵਾਲਾ ਸਰੋਤ
ਦੀਪ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਪ੍ਰਕਾਸ਼ਨ ਦੁਆਰਾ ਮਨੁੱਖੀ ਪੱਧਰ ਦਾ ਨਿਯੰਤਰਣ
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
ਯੂਸੀ ਬਰਕਲੇ ਵਿਖੇ ਡੂੰਘੀ ਪੁਨਰ-ਪ੍ਰਣਾਲੀ ਸਿਖਲਾਈ ਤੇ ਖੁੱਲਾ ਐਕਸੈਸ ਕੋਰਸ
http://rail.eecs.berkeley.edu/deeprlcourse/
ਆਰ ਐਲ ਨੇ ਮੈਨਿਫੋਲਡ.ਈ ਤੋਂ ਕੇ-ਆਰਮੈਡਡ ਡਾਕੂ ਸਮੱਸਿਆ ਲਈ ਅਰਜ਼ੀ ਦਿੱਤੀ
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
EITC/AI/ARL ਐਡਵਾਂਸਡ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਪ੍ਰੋਗਰਾਮ ਲਈ ਪੂਰੀ ਔਫਲਾਈਨ ਸਵੈ-ਸਿੱਖਣ ਦੀ ਤਿਆਰੀ ਸਮੱਗਰੀ ਨੂੰ ਇੱਕ PDF ਫਾਈਲ ਵਿੱਚ ਡਾਊਨਲੋਡ ਕਰੋ
EITC/AI/ARL ਤਿਆਰੀ ਸਮੱਗਰੀ - ਮਿਆਰੀ ਸੰਸਕਰਣ
EITC/AI/ARL ਤਿਆਰੀ ਸਮੱਗਰੀ - ਸਮੀਖਿਆ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਨਾਲ ਵਿਸਤ੍ਰਿਤ ਸੰਸਕਰਣ