Data Mining - Verfahren, Prozesse, Anwendungsarchitektur
Buchausgabe: 44,80€
Download-Version: 39,80€
(Preis inkl. Mwst. )
| Autor(en): | Helge Petersohn |
| Verlag: | Oldenbourg Wissenschaftsverlag GmbH |
| Version: | 1. Auflage, 2005 |
| Umfang: | 343 Seiten |
| Format: | PDF: 20,47MB |
| Gewicht: | 656 g |
| ISBN: | 3486577158 |
| Bestell-Nr.: | 48657715P |
| Artikeltyp: | E-Book |
In vielen, insbesondere größeren Unternehmen entstehen in kurzen Zeiträumen Terabyte von Daten. Diese umfangreichen Datenbestände beinhalten wertvolle Information für Entscheider und erfordern die Anwendung von anspruchsvollen mathematisch-statistischen Verfahren zur Datenanalyse. In diesem Buch wird eine Anwendungsarchitektur für Data Mining entwickelt.
Ein wesentlicher Beitrag besteht in der systematischen Aufarbeitung von Data Mining-Verfahren und deren anwendungsbezogene Einordnung in die Data Mining-Anwendungsarchitektur (DMA).In vielen, insbesondere größeren Unternehmen entstehen in kurzen Zeiträumen Terabyte von Daten, bspw. über das Kaufverhalten von Kunden, über Produkte oder über Informationsbedürfnisse. Diese umfangreichen Datenbestände beinhalten wertvolle Information für Entscheider und erfordern die Anwendung von anspruchsvollen mathematisch-statistischen Verfahren zur Datenanalyse.
Leseprobe:
"2 Datenselektion und Datenaufbereitung (S. 40-41)
2.1 Datenselektion
2.1.1 Data Warehouse als Datenbasis für Data Mining
2.1.1.1 Komponenten eines Data Warehouse
In frühen Phasen der Datenbankdiskussion dominierte die Auffassung, daß ein Datenbanksystem allumfassend und im Zentrum aller Anwendungssysteme eines Unternehmens stehen sollte. Es galt solche Probleme wie z.B. Redundanz und Datenabhängigkeit zu lösen. Diese Ansicht mußte korrigiert werden, denn die Anforderungen an Datenbanksysteme für operative Anwendungen unterscheiden sich sehr stark von denen, die an Management Support Systeme (MSS) gestellt werden.
Operative Systeme sind auf die Verarbeitung von Transaktionen ausgerichtet, um spezielle Funktionsbereiche schnell und präzise mit Steuerungsdaten versorgen zu können. Sie werden täglich aktualisiert. Die wichtige Bezugsgröße Zeit geht verloren. Die Daten sind für das Auffinden inhaltlicher Zusammenhänge ungenügend aufbereitet. In einem Data Warehouse lassen sich die Datenbestände zu einer einheitlichen Informationsbasis aufbereiten. Damit besteht separat zu den OLTP-Systemen eine Datenbasis für den dispositiven und strategischen Bereich. Der Data Warehouse-Begriff wurde von INMON geprägt. Er beschreibt ein Data Warehouse als subjektorientierte, integrierte, zeitbezogene und dauerhafte Datensammlung zur Unterstützung von Managemententscheidungen.
Ein Data Warehouse (auch: Atomic Database, Decision Support System Foundation, Information Warehouse, Business Information Resource, Reporting Database und Data Market) beinhaltet die unternehmensindividuelle Hardund Softwaresystemlösung, um Daten aus internen und externen Informationsquellen in regelmäßigen Zeitabständen so zu speichern, daß diese für den Endbenutzer (vorwiegend Analysten und Manager) zugänglich, verständlich und für unternehmensweite Auswertungen mit Hilfe verschiedener Tools verfügbar sind.61,62 Ein Data Warehouse bezieht seine Daten aus den operativen Quelldaten, Webdaten (Logfiles) oder sonstigen Quellen über eine Import-/ Sammelkomponente und die Vermittlungskomponente (vgl. Abbildung 18).
„Die Import-/Sammelkomponente verbindet Daten verschiedener Quellen und übernimmt die Übertragung der Daten in die Data Warehouse-Datenbank. In Intervallen werden über diese Komponente die Daten des Data Warehouse aktualisiert. Die Vermittlungskomponente ist für die Zuordnung und Steuerung zwischen den Datenbeständen und den einzelnen Analysewerkzeugen verantwortlich. Die für die Import-/Sammelkomponente und Vermittlungskomponente erforderliche Software basiert physisch auf Middleware und logisch auf einer Metadatenbank. Die Metadatenbank steht somit über den verfügbaren Daten und Anwendungen.
Das dort enthaltene Wissen muß übersichtlich abgelegt und verwaltet werden. Dafür eignen sich bereits bekannte Verfahren zur Prozeßmodellierung wie bspw. die erweiterten ereignisgesteuerten Prozeßketten und Vorgangskettendiagramme.63 Jeder Prozeß einer Unternehmung kann mit diesen Verfahren auf verschiedenen Abstraktionsebenen abgebildet werden. Die Metadatenbank von Data Warehouse-Lösungen hat eine Repository-Funktion zu übernehmen.
Sie umfaßt zum einen Ausschnitte der verschiedenen Prozeß- und Datenmodelle der operativen Ebene, zum anderen sollte sie die Analyseprozeßmodelle, insbesondere der strategischen Ebene, beinhalten. Die aufgabenorientierte Verknüpfung dieser Modelle ermöglicht die strukturierte mehrdimensionale Modellierung von Daten für das Data Warehouse."" Für die Übernahme der Daten in ein Data Warehouse werden ETL-Tools eingesetzt."
Der besondere Tipp
Denken Sie nicht an einen blauen Elefanten!
Anhand verblüffender Experimente und einfacher Übungen lernen Sie, wie unsere Umwelt die Gedanken und die Gedanken unsere Umwelt beeinflussen.
Früher: 12,00€
bei uns nur: 4,99€

