Advertisement

Blocking-Verfahren

Chapter
  • 887 Downloads

Zusammenfassung

In Kapitel 2.3 wurde die Notwendigkeit der Reduzierung des Suchraums bei der Duplikaterkennung bereits angesprochen. Die Datensätze sind daher in Partitionen zu zerlegen und der Vergleich ist auf diese Partitionen beschränkt. Durch die Partitionierung sinkt der Recall, da Duplikate in unterschiedliche Partitionen fallen können und somit nicht mehr als Duplikate erkannt werden. Gleichzeitig steigt jedoch die Effizienz, da viele unnötige Vergleiche von Nicht-Duplikaten entfallen. Wie die Zerlegung in Partitionen erfolgt, ist abhängig von der Partitionierungsstrategie, die einen großen Einfluss auf das Ergebnis der Duplikaterkennung hat. In diesem Kapitel wird das Blocking vorgestellt. Kapitel 4 beschreibt anschließend die Sorted-Neighborhood-Methode.

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Copyright information

© Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden 2012

Authors and Affiliations

  1. 1.PotsdamDeutschland

Personalised recommendations