Obsah fóra
PravidláRegistrovaťPrihlásenie




Odpovedať na tému [ Príspevkov: 3 ] 
AutorSpráva
Offline

Prevádzkovateľ fóra
Prevádzkovateľ fóra
MySQL a odfiltrovanie odchylok

Registrovaný: 01.05.05
Príspevky: 13349
Témy: 1496
Bydlisko: Bratislava
Príspevok NapísalOffline : 22.06.2016 10:20

Potreboval by som odfiltrovat odchylky vo vysledokch, mam dva ciselne stlpce zistime AVG prveho stlcpa a videlim AVG druheho stlpca, cize robim taky pomer tych dvoch hodnot. Lenze su v nom odchylky

prvy_stlpec | druhy_stlpec
12000 | 150
1500 | 30
27000 | 78
17000 | 180
11000 | 90

Vysledok by mal byt okolo 130

No niekedy sa moze stat ze ak si cez WHERE odfiltrujem ine data, tak tam bude

prvy_stlpec | druhy_stlpec
10 | 500
12000 | 150
1500 | 30
27000 | 78
38600 | 250
7000000 | 2

Tu je ale vysledok 7009 ak dobre pocitam, no a to je ta chyba, lebo je to nezmysel skrz zle zadanych dat a toho by som sa chcel zbavit, cize prvy a posledny riadok skrz nejakej odchylky je abnormalny a nebol by zaratany (samozrejme nie je pravidlo ze odchylky su na prvom a poslednom riadku, mozu sa nachadzat kdekolvek), kedze tam by mal byt tiez vysledok okolo 155 co by bol uz spravny udaj, je jasne ze sa taka abnormalita moze objavit a mohlo by to byt aj spravne, ale je to tak 10% sanca, cize by som chcel tieto vysledky odstranit uz priamo v mysql, vedel by niekto helfnut ako na to?







_________________
Streacom DA2 | SilverStone Titanium SX800-LTI 800W | ASRock X299E-ITX/ac | Intel Core i9-9980XE & be quiet! Dark Rock TF | Kingston HyperX Impact 64 GB DDR4 2666 MHz | NVIDIA Titan RTX 24 GB | Intel SSD Optane 905P 480 GB NVMe U.2 & Intel SSD 750 1,2 TB NVMe U.2 & Intel SSD 660p 2 TB NVMe M.2 & Seagate BackUp Plus Portable 56 TB USB | 55" 4K OLED Dell Alienware AW5520QF & 24" LCD EIZO FlexScan EV2451 | Ergotron LX Wall Mount Keyboard Arm | Logitech Craft | Logitech G603 | Logitech F710 | Harman Kardon Sabre SB 35 & Sennheiser RS 175 | Microsoft Windows 7 Ultimate | APC Back-UPS ES 700 | Lenovo ThinkPad X250 | iPhone X 256 GB & Pitaka Aramid | SilverStone ML05B Milo | Corsair SF600 SFX 600W | ASRock X99E-ITX/ac | Intel Xeon E5-2683 v4 & NOCTUA NH-L12S | Kingston HyperX Savage 32 GB DDR4 2400 MHz | NVIDIA GeForce GT 710 1 GB | Intel SSD Optane Memory 32 GB NVMe M.2 & Intel SSD 730 240 GB SATA | Ubuntu Server
Offline

Skúsený užívateľ
Skúsený užívateľ
Obrázok užívateľa

Registrovaný: 17.07.11
Prihlásený: 29.12.20
Príspevky: 1516
Témy: 3
Príspevok NapísalOffline : 22.06.2016 10:43

Záleží, ako definuješ tú zlú hodnotu. Takto na pohľad to možno tebe je jasné, ale mne ani nie. V prvom príklade napr. ako viem, že 1500 nie je zlá hodnota? A v druhom príklade 10 je, alebo nie je zlá hodnota? Veď má blízko k 1500.
Ujasni, čo znamená "zlá hodnota" a možno že aj sám prídeš na to, ako na to ;)

K filtrovaniu extrémnych hodnôt sú ale bežné takéto postupy

1. Zoradíš podľa veľkosti a trebárs 5% výsledkov odsekneš z hora aj z dola (ostane ti 90% hodnôt v prostriedku). Tým priemer necháš v podstate správny (+-), aj keby tam boli validné hodnoty. Tie extrémne to odfiltruje. Tu je ale predpoklad, že tých extrémnych tam bude naozaj málo hore aj dole. (A nemusíš ísť po percentách, ale napr zoberieš dve z hora a dve z dola).
Ale záleží, ako veľmi presný ten priemer potrebuješ.

2. Preložíš dáta sigmoidou a zmažeš zase napr. 5% z hora aj z dola. To je len trocha sofistikovanejšia prvá možnosť.

mimo. Napadá ma, možno úplná blbosť, spočítať priemer z prvej možnosti (čiže 90% hodnôt v strede) a potom vybrať len hodnoty (už zo všetkých), ktoré nie sú väčšie/menšie než nejaký n-násobok tohoto priemeru od mediánu. To by mohlo zožrať všetky rozumne blízke hodnoty a tie úplne vzdialené nechať tak. Ale chcelo by to vyskúšať, je to len myšlienka.







_________________
Na súkromné správy týkajúce sa problémov, ktoré sa riešia vo fóre, neodpovedám!
Offline

Prevádzkovateľ fóra
Prevádzkovateľ fóra
MySQL a odfiltrovanie odchylok

Registrovaný: 01.05.05
Príspevky: 13349
Témy: 1496
Bydlisko: Bratislava
Príspevok Napísal autor témyOffline : 23.06.2016 20:51

Diky, podobne riesenie som mal aj od nejakeho matfyzaka, skusal som obe a prve sa ukazalo ako najvhodnejsie, lebo median je dost nepresny ak by mal stlpec prvych 100 riadkov 10 a poslednych 20 riadkov by bolo trebars rozmedzie cisel od 100 od 50000, cize orezavam po zoradeni prvych 10 a poslednych 10 percent, tak to vyzera v poriadku a dalsie vypocty co nasleduju uz su ok a su uz v realite, nie ako predtym :) diky







_________________
Streacom DA2 | SilverStone Titanium SX800-LTI 800W | ASRock X299E-ITX/ac | Intel Core i9-9980XE & be quiet! Dark Rock TF | Kingston HyperX Impact 64 GB DDR4 2666 MHz | NVIDIA Titan RTX 24 GB | Intel SSD Optane 905P 480 GB NVMe U.2 & Intel SSD 750 1,2 TB NVMe U.2 & Intel SSD 660p 2 TB NVMe M.2 & Seagate BackUp Plus Portable 56 TB USB | 55" 4K OLED Dell Alienware AW5520QF & 24" LCD EIZO FlexScan EV2451 | Ergotron LX Wall Mount Keyboard Arm | Logitech Craft | Logitech G603 | Logitech F710 | Harman Kardon Sabre SB 35 & Sennheiser RS 175 | Microsoft Windows 7 Ultimate | APC Back-UPS ES 700 | Lenovo ThinkPad X250 | iPhone X 256 GB & Pitaka Aramid | SilverStone ML05B Milo | Corsair SF600 SFX 600W | ASRock X99E-ITX/ac | Intel Xeon E5-2683 v4 & NOCTUA NH-L12S | Kingston HyperX Savage 32 GB DDR4 2400 MHz | NVIDIA GeForce GT 710 1 GB | Intel SSD Optane Memory 32 GB NVMe M.2 & Intel SSD 730 240 GB SATA | Ubuntu Server
Odpovedať na tému [ Príspevkov: 3 ] 


Podobné témy

 Témy  Odpovede  Zobrazenia  Posledný príspevok 
V tomto fóre nie sú ďalšie neprečítané témy. MySql

v Databázy

15

2230

26.03.2008 12:48

marekkk Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. MysQl

v Databázy

2

738

28.10.2009 19:05

BYNGY Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. MySQL

v Databázy

1

984

25.03.2009 10:48

prostor Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. MySQL

v Databázy

0

762

04.11.2020 15:19

jumper Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. Mysql + FB

v Databázy

3

636

10.10.2010 12:57

stenley Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. Bezpečnosť MYSQL

v PHP, ASP

2

565

15.03.2008 18:55

Tominator Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. Free MySQL

v Webhosting a servery

3

818

01.12.2009 20:59

Semtex Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. MySQL vypis

v Databázy

1

313

07.01.2014 15:34

kudzo3 Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. Heslo mysql

v Databázy

3

682

22.06.2010 16:24

Forty- Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. mysql update_once

v Databázy

1

564

09.01.2010 10:03

asken Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. Java MySQL

v Databázy

2

463

24.02.2012 22:05

Mike7400 Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. MySQL join...

v Databázy

7

673

11.07.2011 18:39

coldak Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. Rýchle MySQL

v Databázy

13

971

07.02.2009 15:06

Flety Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. MySql query

v Databázy

2

597

04.01.2011 14:05

blazej44800 Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. upgrade mysql

v Redakčné systémy

3

454

25.12.2006 13:49

Tooom Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. wampp mysql

v Operačné systémy Unix a Linux

4

610

28.12.2010 23:36

seniorT Zobrazenie posledných príspevkov


Nemôžete zakladať nové témy v tomto fóre
Nemôžete odpovedať na témy v tomto fóre
Nemôžete upravovať svoje príspevky v tomto fóre
Nemôžete mazať svoje príspevky v tomto fóre

Skočiť na:  

Powered by phpBB Jarvis © 2005 - 2024 PCforum, webhosting by WebSupport, secured by GeoTrust, edited by JanoF
Ako väčšina webových stránok aj my používame cookies. Zotrvaním na webovej stránke súhlasíte, že ich môžeme používať.
Všeobecné podmienky, spracovanie osobných údajov a pravidlá fóra