Maximálisan rendszeresítve
A matematika , a regularizált maximális ( sima maximum ) egy halmazrendszer x 1 , ..., x n számok egy sima közelítése a maximális függvény max ( x 1 , ..., x n ) , azaz családi paraméterezett funkciók m α ( x 1 , ..., x n ) olyan, hogy a funkció m α szabályos bármely valós érték α , és hajlamos felé a maximális funkciót α → ∞ . A szabályozott minimum fogalma hasonló módon határozható meg. Számos esetben egy család használható a két funkció közelítésére, a nagyon nagy pozitív értékek maximuma, a negatív végtelen felé pedig a minimum:
mα→max mert α→∞, mα→min mert α→-∞.{\ displaystyle m _ {\ alpha} \ to \ max \ {\ textrm {for}} \ \ alfa \ to \ infty, \ m _ {\ alpha} \ to \ min \ {\ textrm {for}} \ \ alfa \ to - \ infty.}![{\ displaystyle m _ {\ alpha} \ to \ max \ {\ textrm {for}} \ \ alfa \ to \ infty, \ m _ {\ alpha} \ to \ min \ {\ textrm {for}} \ \ alfa \ to - \ infty.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6e654a2c05fd20588b6658e8240d3b1123fc88c3)
A kifejezés bármely olyan normalizáló funkcióra használható, amely a maximális függvényhez hasonlóan viselkedik, anélkül, hogy paraméterezné.
Példák
Az α > 0 paraméter nagy értéke esetén az alább definiált S α függvény , amelyet néha „ α -softmax” -nak nevezünk , a maximális függvény sima és differenciálható közelítése . A nagy abszolút érték negatív értéke esetén megközelíti a minimumot. Az α -oftmax függvényt a következő határozza meg:
Sα(x1,...,xnem)=∑én=1nemxéneαxén∑én=1nemeαxén{\ displaystyle S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} \ mathrm {e} ^ {\ alpha x_ {i}}} {\ sum _ {i = 1} ^ {n} \ mathrm {e} ^ {\ alpha x_ {i}}}}}![{\ displaystyle S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} \ mathrm {e} ^ {\ alpha x_ {i}}} {\ sum _ {i = 1} ^ {n} \ mathrm {e} ^ {\ alpha x_ {i}}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7a7414e010643db4882ff5a413e2e024e5380d49)
S α a következő tulajdonságokkal rendelkezik:
- Sα⟶α→+∞max{\ displaystyle S _ {\ alpha} {\ alul {0
![{\ displaystyle S _ {\ alpha} {\ alul {0](https://wikimedia.org/api/rest_v1/media/math/render/svg/dbacaaf52ef6c11e970a0926a36465ef802aba80)
-
S 0 a számtani átlagot adja eredményül
- Sα⟶α→-∞min{\ displaystyle S _ {\ alpha} {\ aláhúzás {\ alpha \ - - infty} {\ longrightarrow}} \ min}
![{\ displaystyle S _ {\ alpha} {\ aláhúzás {\ alpha \ - - infty} {\ longrightarrow}} \ min}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e4956c0378794be7d478fcca2fa6e75cfebbee6c)
Az S α gradiens a softmax függvényhez kapcsolódik és
egyenlő
∇xénSα(x1,...,xnem)=eαxén∑j=1nemeαxj[1+α(xén-Sα(x1,...,xnem))].{\ displaystyle \ nabla _ {x_ {i}} S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ mathrm {e} ^ {\ alpha x_ {i} }} {\ sum _ {j = 1} ^ {n} \ mathrm {e} ^ {\ alpha x_ {j}}}} [1+ \ alpha (x_ {i} -S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}))].}![{\ displaystyle \ nabla _ {x_ {i}} S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ mathrm {e} ^ {\ alpha x_ {i} }} {\ sum _ {j = 1} ^ {n} \ mathrm {e} ^ {\ alpha x_ {j}}}} [1+ \ alpha (x_ {i} -S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}))].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/372c48e5fe4de24ae5c1a21bbb967278994c45ec)
Ez teszi a softmax függvényt érdekessé a gradiens ereszkedést alkalmazó optimalizálási technikák számára .
Hölder szabványok
A legalizált maximum egy formája általánosított átlagon alapulhat . Például az x 1 , ..., x n pozitív értékekhez α > 1 sorrendű átlagot használhatunk , vagyis
Sα(x1,...,xnem)=(1nem∑j=1nemxjα)1α.{\ displaystyle S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = \ balra ({\ frac {1} {n}} \ sum _ {j = 1} ^ {n} x_ {j} ^ {\ alpha} \ right) ^ {\ frac {1} {\ alpha}}.}![{\ displaystyle S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = \ balra ({\ frac {1} {n}} \ sum _ {j = 1} ^ {n} x_ {j} ^ {\ alpha} \ right) ^ {\ frac {1} {\ alpha}}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/18300bc4557535c37bbdf886ee9db6491ded14b3)
LogSumExp
Egy másik legalizált maximum a "LogSumExp" néven ismert:
LSE(x1,...,xnem)=ln(exp(x1)+...+exp(xnem)){\ displaystyle \ mathrm {LSE} (x_ {1}, \ ldots, x_ {n}) = \ ln (\ exp (x_ {1}) + \ ldots + \ exp (x_ {n}))}![{\ displaystyle \ mathrm {LSE} (x_ {1}, \ ldots, x_ {n}) = \ ln (\ exp (x_ {1}) + \ ldots + \ exp (x_ {n}))}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d5229360a6111437a1b87923b3b0084c1f735dfa)
A függvény normalizálható, ha az x i mind pozitív, ami a [0, + ∞ [ n - [0, + ∞ [ :
g(x1,...,xnem)=ln(exp(x1)+...+exp(xnem)-(nem-1)){\ displaystyle g (x_ {1}, \ ldots, x_ {n}) = \ ln (\ exp (x_ {1}) + \ ldots + \ exp (x_ {n}) - (n-1))}![{\ displaystyle g (x_ {1}, \ ldots, x_ {n}) = \ ln (\ exp (x_ {1}) + \ ldots + \ exp (x_ {n}) - (n-1))}](https://wikimedia.org/api/rest_v1/media/math/render/svg/324a090c93ab11015e4ea03b7fba18eee5fbe961)
Az ( n - 1) kifejezés egy korrekciós együttható annak figyelembe vételére, hogy az exp (0) = 1 , így biztosítva, hogy g (0, ..., 0) = 0 legyen, ha az összes x i nulla.
A LogSumExp funkció beállítható az artefaktumok simításának elkerülése érdekében. Ezt a formát " α -quasimax" -nak hívjuk, amelyet a következők határoznak meg:
Qα(x1,...,xnem)=1αLSE(αx1,...,αxnem)=1αln(exp(αx1)+...+exp(αxnem)){\ displaystyle {\ mathcal {Q}} _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {1} {\ alpha}} \ mathrm {LSE} (\ alpha x_ {1}, \ ldots, \ alpha x_ {n}) = {\ frac {1} {\ alpha}} \ ln (\ exp (\ alpha x_ {1}) + \ ldots + \ exp (\ alpha x_ { nem}))}![{\ displaystyle {\ mathcal {Q}} _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {1} {\ alpha}} \ mathrm {LSE} (\ alpha x_ {1}, \ ldots, \ alpha x_ {n}) = {\ frac {1} {\ alpha}} \ ln (\ exp (\ alpha x_ {1}) + \ ldots + \ exp (\ alpha x_ { nem}))}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4cb249d4824a213c54400300550464d9a9c02d0d)
Használja numerikus módszerekben
A sima maximumok érdekesek lehetnek a diszkrét adatsorok extrém kereséseiben vagy a gradiens süllyedés optimalizálási algoritmusaiban.
Lásd is
Hivatkozások
-
(en) M. Lange, D. Zühlke, O. Holz és T. Villmann, „ Applications of l p -norms és zavartalan közelítő gradiens alapú tanulás vektor kvantálás ” , Proc. ESANN ,2014, P. 271–276 ( online olvasás )
-
(in) Takács Gábor " maximális Smooth algoritmusok besorolás, regresszió, és csoportos " , Acta Technica Jaurinensis , vol. 3, n o 1,2010, P. 27-63
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">