Obsah fóra
PravidláRegistrovaťPrihlásenie




Odpovedať na tému [ Príspevkov: 3 ] 
AutorSpráva
Offline

Prevádzkovateľ fóra
Prevádzkovateľ fóra
MySQL a odfiltrovanie odchylok

Registrovaný: 01.05.05
Príspevky: 13343
Témy: 1494
Bydlisko: Bratislava
Príspevok NapísalOffline : 22.06.2016 10:20

Potreboval by som odfiltrovat odchylky vo vysledokch, mam dva ciselne stlpce zistime AVG prveho stlcpa a videlim AVG druheho stlpca, cize robim taky pomer tych dvoch hodnot. Lenze su v nom odchylky

prvy_stlpec | druhy_stlpec
12000 | 150
1500 | 30
27000 | 78
17000 | 180
11000 | 90

Vysledok by mal byt okolo 130

No niekedy sa moze stat ze ak si cez WHERE odfiltrujem ine data, tak tam bude

prvy_stlpec | druhy_stlpec
10 | 500
12000 | 150
1500 | 30
27000 | 78
38600 | 250
7000000 | 2

Tu je ale vysledok 7009 ak dobre pocitam, no a to je ta chyba, lebo je to nezmysel skrz zle zadanych dat a toho by som sa chcel zbavit, cize prvy a posledny riadok skrz nejakej odchylky je abnormalny a nebol by zaratany (samozrejme nie je pravidlo ze odchylky su na prvom a poslednom riadku, mozu sa nachadzat kdekolvek), kedze tam by mal byt tiez vysledok okolo 155 co by bol uz spravny udaj, je jasne ze sa taka abnormalita moze objavit a mohlo by to byt aj spravne, ale je to tak 10% sanca, cize by som chcel tieto vysledky odstranit uz priamo v mysql, vedel by niekto helfnut ako na to?







_________________
Streacom DA2 | SilverStone Titanium SX800-LTI 800W | ASRock X299E-ITX/ac | Intel Core i9-9980XE & be quiet! Dark Rock TF | Kingston HyperX Impact 64 GB DDR4 2666 MHz | NVIDIA Titan RTX 24 GB | Intel SSD Optane 905P 480 GB NVMe U.2 & Intel SSD 750 1,2 TB NVMe U.2 & Intel SSD 660p 2 TB NVMe M.2 & Seagate BackUp Plus Portable 56 TB USB | 55" 4K OLED Dell Alienware AW5520QF & 24" LCD EIZO FlexScan EV2451 | Ergotron LX Wall Mount Keyboard Arm | Logitech Craft | Logitech G603 | Logitech F710 | Harman Kardon Sabre SB 35 & Sennheiser RS 175 | Microsoft Windows 7 Ultimate | APC Back-UPS ES 700 | Lenovo ThinkPad X250 | iPhone X 256 GB & Pitaka Aramid | SilverStone ML05B Milo | Corsair SF600 SFX 600W | ASRock X99E-ITX/ac | Intel Xeon E5-2683 v4 & NOCTUA NH-L12S | Kingston HyperX Savage 32 GB DDR4 2400 MHz | NVIDIA GeForce GT 710 1 GB | Intel SSD Optane Memory 32 GB NVMe M.2 & Intel SSD 730 240 GB SATA | Ubuntu Server
Offline

Skúsený užívateľ
Skúsený užívateľ
Obrázok užívateľa

Registrovaný: 17.07.11
Prihlásený: 29.12.20
Príspevky: 1516
Témy: 3
Príspevok NapísalOffline : 22.06.2016 10:43

Záleží, ako definuješ tú zlú hodnotu. Takto na pohľad to možno tebe je jasné, ale mne ani nie. V prvom príklade napr. ako viem, že 1500 nie je zlá hodnota? A v druhom príklade 10 je, alebo nie je zlá hodnota? Veď má blízko k 1500.
Ujasni, čo znamená "zlá hodnota" a možno že aj sám prídeš na to, ako na to ;)

K filtrovaniu extrémnych hodnôt sú ale bežné takéto postupy

1. Zoradíš podľa veľkosti a trebárs 5% výsledkov odsekneš z hora aj z dola (ostane ti 90% hodnôt v prostriedku). Tým priemer necháš v podstate správny (+-), aj keby tam boli validné hodnoty. Tie extrémne to odfiltruje. Tu je ale predpoklad, že tých extrémnych tam bude naozaj málo hore aj dole. (A nemusíš ísť po percentách, ale napr zoberieš dve z hora a dve z dola).
Ale záleží, ako veľmi presný ten priemer potrebuješ.

2. Preložíš dáta sigmoidou a zmažeš zase napr. 5% z hora aj z dola. To je len trocha sofistikovanejšia prvá možnosť.

mimo. Napadá ma, možno úplná blbosť, spočítať priemer z prvej možnosti (čiže 90% hodnôt v strede) a potom vybrať len hodnoty (už zo všetkých), ktoré nie sú väčšie/menšie než nejaký n-násobok tohoto priemeru od mediánu. To by mohlo zožrať všetky rozumne blízke hodnoty a tie úplne vzdialené nechať tak. Ale chcelo by to vyskúšať, je to len myšlienka.







_________________
Na súkromné správy týkajúce sa problémov, ktoré sa riešia vo fóre, neodpovedám!
Offline

Prevádzkovateľ fóra
Prevádzkovateľ fóra
MySQL a odfiltrovanie odchylok

Registrovaný: 01.05.05
Príspevky: 13343
Témy: 1494
Bydlisko: Bratislava
Príspevok Napísal autor témyOffline : 23.06.2016 20:51

Diky, podobne riesenie som mal aj od nejakeho matfyzaka, skusal som obe a prve sa ukazalo ako najvhodnejsie, lebo median je dost nepresny ak by mal stlpec prvych 100 riadkov 10 a poslednych 20 riadkov by bolo trebars rozmedzie cisel od 100 od 50000, cize orezavam po zoradeni prvych 10 a poslednych 10 percent, tak to vyzera v poriadku a dalsie vypocty co nasleduju uz su ok a su uz v realite, nie ako predtym :) diky







_________________
Streacom DA2 | SilverStone Titanium SX800-LTI 800W | ASRock X299E-ITX/ac | Intel Core i9-9980XE & be quiet! Dark Rock TF | Kingston HyperX Impact 64 GB DDR4 2666 MHz | NVIDIA Titan RTX 24 GB | Intel SSD Optane 905P 480 GB NVMe U.2 & Intel SSD 750 1,2 TB NVMe U.2 & Intel SSD 660p 2 TB NVMe M.2 & Seagate BackUp Plus Portable 56 TB USB | 55" 4K OLED Dell Alienware AW5520QF & 24" LCD EIZO FlexScan EV2451 | Ergotron LX Wall Mount Keyboard Arm | Logitech Craft | Logitech G603 | Logitech F710 | Harman Kardon Sabre SB 35 & Sennheiser RS 175 | Microsoft Windows 7 Ultimate | APC Back-UPS ES 700 | Lenovo ThinkPad X250 | iPhone X 256 GB & Pitaka Aramid | SilverStone ML05B Milo | Corsair SF600 SFX 600W | ASRock X99E-ITX/ac | Intel Xeon E5-2683 v4 & NOCTUA NH-L12S | Kingston HyperX Savage 32 GB DDR4 2400 MHz | NVIDIA GeForce GT 710 1 GB | Intel SSD Optane Memory 32 GB NVMe M.2 & Intel SSD 730 240 GB SATA | Ubuntu Server
Odpovedať na tému [ Príspevkov: 3 ] 


Podobné témy

 Témy  Odpovede  Zobrazenia  Posledný príspevok 
V tomto fóre nie sú ďalšie neprečítané témy. MysQl

v Databázy

2

735

28.10.2009 19:05

BYNGY Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. MySQL

v Databázy

1

972

25.03.2009 10:48

prostor Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. MySQL

v Databázy

0

754

04.11.2020 15:19

jumper Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. MySql

v Databázy

15

2221

26.03.2008 12:48

marekkk Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. Mysql Adminer

v Databázy

10

629

05.10.2011 22:39

shaggy Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. Chyba MySQL

v Databázy

16

2350

04.10.2007 14:07

pepek92 Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. MySQL kodovanie

v Databázy

3

997

28.02.2008 14:26

emer Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. Mysql porovnávanie

v Databázy

6

816

03.01.2011 14:01

Karo88 Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. mysql filter

v Databázy

2

851

30.05.2008 15:37

javo Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. zaloha MYSQL

v PHP, ASP

2

676

18.11.2007 15:15

Matho Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. mysql: COUNT

v Databázy

12

512

17.10.2014 13:52

JanoF Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. Chyba MySQL

v Správy pre vedenie fóra

1

1056

20.02.2008 18:36

JanoF Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. MySQL UPDATE

v PHP, ASP

6

978

25.11.2010 19:41

Ecko Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. MySQL kurz

v Databázy

6

679

19.12.2009 11:27

achbo Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. instalacia MySQL

v Databázy

6

814

24.05.2010 23:29

sedlák Zobrazenie posledných príspevkov

V tomto fóre nie sú ďalšie neprečítané témy. Mysql + FB

v Databázy

3

630

10.10.2010 12:57

stenley Zobrazenie posledných príspevkov


Nemôžete zakladať nové témy v tomto fóre
Nemôžete odpovedať na témy v tomto fóre
Nemôžete upravovať svoje príspevky v tomto fóre
Nemôžete mazať svoje príspevky v tomto fóre

Skočiť na:  

Powered by phpBB Jarvis © 2005 - 2024 PCforum, webhosting by WebSupport, secured by GeoTrust, edited by JanoF
Ako väčšina webových stránok aj my používame cookies. Zotrvaním na webovej stránke súhlasíte, že ich môžeme používať.
Všeobecné podmienky, spracovanie osobných údajov a pravidlá fóra