Snippets

Ein Snippet ist ein kleiner Denkanstoss aus meinem Alltag.

Kevin Kuhn 18.01.24 Kevin Kuhn 18.01.24

Konfabulation

Ich habe gerade einen faszinierenden Blogbeitrag von Beren Millidge entdeckt, "LLMs confabulate not hallucinate".

Er bietet eine faszinierende Perspektive auf KI-Sprachmodelle! Millidge beleuchtet, warum "Konfabulation" ein treffenderer Begriff als "Halluzination" für die gelegentlichen Ungenauigkeiten von KI wie ChatGPT ist.

Diese Analogie zur menschlichen Psychologie ist ein echter Augenöffner! Sehr lesenswert für KI-Enthusiasten und Fachleute.

Hier geht’s zum Beitrag: https://www.beren.io/2023-03-19-LLMs-confabulate-not-hallucinate/

Kevin Kuhn 16.02.23 Kevin Kuhn 16.02.23

Aus unstrukturierten Daten Themen extrahieren

Spannendes Gespräch zwischen Seth Levine und Maarten Grootendorst über BERTopic, Data Science und Psychologie.

Kevin Kuhn 06.02.23 Kevin Kuhn 06.02.23

Semantic Workflow

Semantische Workflows beziehen sich auf eine Reihe von Natural Language Processing-Aufgaben oder -Prozessen, die durchgeführt werden, um Bedeutung oder Wissen aus geschriebenem Text zu extrahieren.

Zu diesen Aufgaben gehören unter anderem Textvorverarbeitung, Tokenisierung, Part-of-Speech-Tagging, Named Entity Recognition, Coreference Resolution und Sentiment Analysis.

Die Schritte eines semantischen Workflows können je nach spezifischem Anwendungsfall variieren, aber im Allgemeinen können die folgenden Schritte befolgt werden:

Vorverarbeitung von Text: Bereinigung und Normalisierung von Textdaten, z. B. Umwandlung in Kleinbuchstaben, Entfernen von Stoppwörtern, Interpunktionen usw.
Tokenisierung: Zerlegung des Textes in kleinere Einheiten, sogenannte Token. z. B. von Absätzen zu Sätzen und von Sätzen zu Wörtern.
Part-of-Speech-Tagging: Zuweisung eines POS-Tags zu jedem Token auf der Grundlage seiner Rolle im Satz (z. B. Substantiv, Verb, Adjektiv usw.).
Erkennung von Entitäten: Identifizierung und Extraktion von Entitäten wie Personen, Organisationen, Orten usw. aus dem Text.
Auflösung von Koreferenzen (Coreference Resolution): Erkennung, wenn sich zwei oder mehr Erwähnungen in einem Text auf dieselbe Entität beziehen.
Stimmungsanalyse (Sentiment Analysis): Bestimmung der im Text ausgedrückten Stimmung, z. B. positiv, negativ oder neutral.

Diese Schritte werden in der Regel nacheinander durchgeführt, wobei die Ergebnisse eines Schrittes als Input für den nächsten dienen.

Das Endergebnis des semantischen Workflows ist eine strukturierte Darstellung des Textes, die eine weitere Analyse und Wissensextraktion ermöglicht.

Kevin Kuhn 02.12.22 Kevin Kuhn 02.12.22

Der Bund setzt sich Ziele zum Einsatz von Data Science

Der Bund setzt sich Ziele zum Einsatz von Data Science

TLDR

* Gemeinsame Sprache und Verständnis als Grundlage
* Verständnis schaffen, was Data Science ist
* 4 klare Stossrichtungen und Massnahmen
* Zielbild transversales «Ökosystem Datenwissenschaft»

Etwas mehr ins Detail

Für die Bundesverwaltung bedeutet die Datenwissenschaft: «Menschenzentrierte und vertrauenswürdige Datenwissenschaft unterstützt das Gemeinwohl und die Staatstätigkeit»

Zu den Stossrichtungen gehören Vertrauen in datenbasierte Entscheidungsunterstützung zu schaffen, Bewusstsein und Kompetenz aufbauen, technische Zugänglichkeit und Verfügbarkeit zu erhöhen und Synergiepotenzial auszuschöpfen und gemeinsam Herausforderungen zu bewältigen.

Folgende Hebel wurden definiert:

1) Grundprinzipien fördern, verständlich machen und festigen
Mit einem «Data Science Oath» oder «Data Science Code of Conduct» werden Rahmenbedingungen gesetzt, wie mit Daten umgegangen wird. Diese orientieren sich an den «Leitlinien KI für den Bund».

2) Gouvernanz zur Datenwissenschaftsstrategie klären und etablieren
Im Rahmen der Gouvernanz werden Rahmenbedingungen geschaffen, die es erlauben effizient und effektiv mit Daten zu arbeiten. Dies bedeutet ebenfalls sämtliche Akteure mit einzubeziehen, sowie Prozesse und Organisationen zu schaffen, welche diesen Prozess unterstützen.

3) Transversales «Ökosystem Datenwissenschaft»
Ein transversal ausgerichtetes «Ökosystem Datenwissenschaft» bedeutet, dass die entsprechenden ethischen, technischen und organisatorischen Voraussetzung geschaffen werden, um Optimierungen, Innovation und spannende Use Cases mit Daten zu ermöglichen.

Massnahmen:

Das Schaffen einer gemeinsamen (Daten-)Kultur, resp. des entsprechenden Wissens und Austausches in Bezug auf Daten. Weiter gilt es Talente und Fähigkeiten zu fördern und Möglichkeiten zu bieten sich weiter zu bilden. Das Potenzial wird jedoch erst freigesetzt, wenn auch die Möglichkeiten geschaffen werden um mit Daten in Kontakt zu kommen und damit zu interagieren. Dazu wird der Zugang zu Daten (Open Data), Infrastruktur, Wissen, Werkzeugen und Plattformen vereinfacht. So wie wir bei gopf Menschen und Daten näher zu einander bringen.

Spannende Entwicklungen stehen an und es freut mich sehr zu sehen, dass die Wichtigkeit von Daten in der Schweiz mehr und mehr an Bedeutung gewinnt. 🇨🇭🤍🤖

Das ganze Dokument: https://www.bfs.admin.ch/bfs/de/home/aktuell/medienmitteilungen.gnpdetail.2022-0738.html

Kevin Kuhn 26.08.22 Kevin Kuhn 26.08.22

Limitation durch Sprache

Im Artikel «AI And The Limits Of Language» von Jacob Browning und Yann Lecun wird interessant und umfassend beschrieben, weshalb eine Maschine nie in der Lage sein wird, wie ein Mensch zu denken und zu handeln.

Der Grund dafür liegt in der Linguistik.

Selbst immer grösser werdende Sprachmodelle (Large Language Model > LLM) werden nicht dabei helfen können, dass es für eine Maschine schwierig bleiben wird wie ein Mensch zu «denken».

Wir besitzen ein tiefes Verständnis der Welt und können so schnell verstehen, worüber andere Menschen sprechen. LLMs haben keine Welt, die sie wahrnehmen können - ihr Wissen beginnt und endet mit Worten und ihr «gesunder Menschenverstand» bleibt oberflächlich.

Wenn man sich ausführlich mit LLMs beschäftigt, wird deutlich, wie wenig man allein durch Sprache wissen kann.

«It is clear that these systems are doomed to a shallow understanding that will never approximate the full-bodied thinking we see in humans.»

Kevin Kuhn 10.06.22 Kevin Kuhn 10.06.22

KI, die jedes beliebige Bild erstellt

Wie schafft es eine KI neue Bilder zu generieren? Welche Daten werden dazu verwendet? Welche Aufgabe übernimmt der Algorithmus?

Spannendes Video, welches den Entstehungsprozess von durch Künstliche Intelligenz geschaffene Bilder erklärt.

Kevin Kuhn 14.04.22 Kevin Kuhn 14.04.22

gopf

Ein lang ersehnter Traum von mir ist es, ein Gefäss zu schaffen, welches erlaubt zu Experimentieren und ungewöhnliche Wege zu gehen. Aus diesem Grund habe ich die gopf GmbH gegründet.

Sie schafft den Raum sich zu entfalten und unterschiedliche Menschen mit unterschiedlichen Blickwinkeln auf Daten zusammen zu bringen. Bei gopf wird geforscht, Wissen weitere gegeben und Mehrwert geschaffen.

Das erste Produkt aus der gopf Schmiede trägt denselben Namen; gopf.ai hilft wertvolle Erkenntnisse aus unstrukturierten Daten zu gewinnen.

Kevin Kuhn 04.04.22 Kevin Kuhn 04.04.22

Daten brauchen Kontext

Daten ohne Kontext zu analysieren ist fahrlässig. Denn Daten entstehen unter gewissen, oft von Menschenhand erschaffenen, Umständen. Diese Umstände bilden eine wichtige Information und Erklärungshilfe für die Interpretation der Daten. Wer mit Daten arbeitet, muss sie in Kontext setzen können und auch entsprechend im Kontext interpretieren.

Source: 9gag.com – Without context, data is just random information.

Kevin Kuhn 07.02.22 Kevin Kuhn 07.02.22

Web Scraping 2022

Das Unternehmen ScrapeOps hat einen spannende Outlook rund ums Thema Web Scraping veröffentlicht. Sie beleuchten, wie sich Web Scraping in den letzten Jahren weiterentwickelt hat und wie es im Jahr 2022 (erneut) vor einigen rechtlichen Herausforderungen steht. Vertieft wird auch auf den Umgang mit neuen Anti-Bot-Systemen eingegangen und welche technologischen Weiterentwicklungen es gibt.

Hier geht’s zum Artikel

Kevin Kuhn 25.11.21 Kevin Kuhn 25.11.21

«Open by Default»

Mit dem zu starten, was man hat und auf Basis dessen die Richtlinien und Stossrichtungen zu definieren, bis zu dem Punkt, dass man Open by Default als Grundsatz definiert, ist ein wunderschönes Beispiel eines zeitgemässen und nachhaltigen Umgangs mit Daten.

Seit dem 1. September 2021 gilt in der Stadt Zürich das Prinzip «Open by Default». So werden bestehende Datensätze der Stadtverwaltung standardmässig öffentlich zur freien Verfügung gestellt, wenn sie keine schutzbedürftigen Inhalte enthalten.

“Im nächsten Schritt geht es darum, Strategie und Reglement umzusetzen.”

Seit fast zehn Jahren veröffentlicht die Stadt Zürich Verwaltungsdaten in ihrem Katalog. Und unzählige nützliche Dienste und Services sind bereits daraus entstanden oder nutzen diese Daten als Grundlage. In der zweiten Phase werden nun Strategie und Reglemente definiert. Dies zeigt einen vielversprechenden und pragmatischen Ansatz , bei welchem der Nutzen in der Vordergrund gestellt wird und im Prozess die Bedürfnisse nach Strategie und Regeln im Umgang mit diesen Daten entstehen.

Regeln und Strategien auf Basis von Etwas zu definieren, dessen Nutzen und Möglichkeiten man noch nicht abschätzen kann ist unmöglich und führt primär zu Zurückhaltung und Abwehr. Mit dem zu starten, was man hat und auf Basis dessen die Richtlinien und Stossrichtungen zu definieren, bis zu dem Punkt, dass man Open by Default als Grundsatz definiert, ist ein wunderschönes Beispiel eines zeitgemässen und nachhaltigen Umgangs mit Daten.

Kevin Kuhn 05.11.21 Kevin Kuhn 05.11.21

KI ist nicht so intelligent wie du vielleicht denkst – Sie könnte es aber werden

Jeff Dean, Leiter von Googles AI, erklärt die zugrunde liegende Technologie, die Künstliche Intelligenz in die Lage versetzt, alle möglichen Dinge zu tun, vom Sprachverständnis bis zur Krankheitsdiagnose

Interessante und anschauliche Erklärung, was KI wirklich ist und wie sie sich entwickelt hat. Jeff Dean, Leiter von Googles AI, erklärt die zugrunde liegende Technologie, die Künstliche Intelligenz in die Lage versetzt, alle möglichen Dinge zu tun, vom Sprachverständnis bis zur Krankheitsdiagnose - und stellt einen Fahrplan für den Aufbau besserer, verantwortungsbewussterer Systeme vor, die ein tieferes Verständnis der Welt haben.

Kevin Kuhn 28.10.21 Kevin Kuhn 28.10.21

Buchempfehlung: Ask Your Developer

Kevin Kuhn 14.10.21 Kevin Kuhn 14.10.21

Nur 24.1% aller Jupyter Notebooks können ohne Fehler ausgeführt werden.

Jupyter Notebooks erfreuen sich, sowohl in der Wissenschaft als auch in der Industrie grosser Beliebtheit. Sie unterstützen die Erstellung von aussagekräftigen Programmierdokumenten, die Code, Text und Output mit Visualisierungen und allen Arten von Rich Media kombinieren.

Die Aspekte der Selbstdokumentation und der Reproduzierbarkeit von Ergebnissen wurden als wesentliche Vorteile von Notebooks angepriesen. Gleichzeitig wird zunehmend kritisiert, dass die Art und Weise, wie Notebooks verwendet werden, zu unerwartetem Verhalten führt, zu schlechten Programmierpraktiken anregt und dass ihre Ergebnisse schwer zu reproduzieren sind.

Eine interessante Studie über 1.4 Mio. Jupyter Notebooks auf GitHub zeigt, dass lediglich 24.1% aller Notebooks problemlos ausgeführt werden können und lediglich 4.03% dasselbe Resultat generieren, wie von den Autoren vorgezeigt.

Kevin Kuhn 01.10.21 Kevin Kuhn 01.10.21

Sprich mit Einstein – Text-to-Speech

Ein Team hat auf Basis historischer Daten ein Sprachmodell von Einstein entwickelt, welches seiner Stimme ähnlich ist. Das Projekt nennt sich Digital Einstein und erlaubt mit Einstein zu sprechen. Dank des trainierten Text-to-Speech Models kann Einstein nun auch neuere Begriffe wie «Data Science» oder «Blockchain» aussprechen.

Kevin Kuhn 09.09.21 Kevin Kuhn 09.09.21

KI-Reifegrad von Unternehmen

Was ist der KI-Reifegrad? Es ist ein Mass für die Fähigkeit eines Unternehmens, die Möglichkeiten von KI für sich zu nutzen und zu skalieren

Was ist der KI-Reifegrad? Es ist ein Mass für die Fähigkeit eines Unternehmens, die Möglichkeiten von KI für sich zu nutzen und zu skalieren.

In der Anfangsphase konzentriert sich der KI-Reifegrad in der Regel auf die Verbesserung von Abläufen, damit Unternehmen ihre bestehenden strategischen Ziele erreichen können.

Ein Beispiel ist die Verarbeitung von schriftlichen Anfragen, sodass diese schneller und besser beantwortet werden können.

In späteren Phasen rückt KI stärker in den Mittelpunkt der Strategie des Unternehmens. KI bricht die Silos in Unternehmen auf, so dass die Zusammenarbeit von Mensch und Maschine das gesamte Unternehmen vorantreiben kann.

In den höchsten Reifegraden ist KI von zentraler Bedeutung für die Art und Weise, wie Unternehmen neue Geschäftsmodelle, Produkte und Dienstleistungen entwickeln und anbieten.

Zunächst müssen Unternehmen, die KI erforschen, Zeit darauf verwenden, zu verstehen, was KI wirklich leisten kann und wie sie für sie von Nutzen sein könnte.
Experimentierende Unternehmen finden heraus, was tatsächlich funktioniert und zu welchen Kosten.
Formalisierende Unternehmen bringen ihre ersten Modelle mit klaren Leistungskennzahlen in Produktion und nutzen diesen Prozess in der Regel, um weitere Investitionen zu tätigen.
Optimierende Organisationen konzentrieren sich darauf, ihre Fähigkeit zur Auswahl, Bereitstellung und Verwaltung von KI-Lösungen zu verbessern.
Transformierende Unternehmen schliesslich nutzen KI, um die Grenzen der Technologie und ihrer eigenen Strategie zu erweitern.

Kevin Kuhn 07.09.21 Kevin Kuhn 07.09.21

Explainable AI (XAI)

Hinter Explainable AI (XAI) verbirgt sich das Bestreben die «Black-Boxes» der Künstlichen Intelligenz in transparente und interpretierbare Algorithmen zu transformieren.

Nachfolgend drei Beispiele für Packages, welche bei der Erklärbarkeit von Modellen unterstützen können.

SHAP (SHapley Additive ExPlanations), eine der heute beliebtesten Methoden, ist ein auf der Spieltheorie basierender Ansatz zur Erklärung der Ergebnisse eines ML-Modells.

Lime war eine der ersten Techniken, die im Bereich der Erklärbarkeit eine gewisse Popularität erlangte. Lime steht für Local interpretable model agnostic explanations. Derzeit hilft Lime, Vorhersagen für Tabellendaten, Bilder und Textklassifikatoren zu erklären.

ExplainerDashboard is a library for quickly building interactive dashboards for analyzing and explaining the predictions and workings of (scikit-learn compatible) machine learning models, including xgboost, catboost and lightgbm. This makes your model transparant and explainable with just two lines of code.

Das Forschungsgebiet und die Open-Source-Beiträge in Bezug auf XAI entwickeln sich in rasantem Tempo, was im Einklang damit steht, wie wichtig es ist, unsere Modellentscheidungen zu erklären, mögliche Fehler zu finden und zu validieren, insbesondere wenn KI-Modelle in unserem täglichen Leben Einzug finden.

Durch Explainable AI wird das Vertrauen in KI-basierte Lösungen gestärkt, was wiederum ihre Akzeptanz beschleunigen wird.

Kevin Kuhn 18.08.21 Kevin Kuhn 18.08.21

Zusätzliche Brain-Power!

Seit dem 18. August 2021 darf ich mit einem neuen Geschäftspartner zusammenarbeiten.

Sein Name ist Oscar.

Er beschäftigt sich aktuell stark mit seiner eigenen Entwicklung und versucht die Muster des Alltags zu erkennen und entsprechend darauf zu reagieren.

Ich freue mich diese wunderbare Wesen bei seiner ganz eigenen Entwicklung begleiten zu dürfen und mir die Welt aus einer anderen Perspektive zeigen zu lassen.

Die nächsten Wochen werde ich mir die Zeit für das gemeinsame Kennenlernen und Einstimmen nehmen und bin gerne ab Mitte September wieder erreichbar.

Kevin Kuhn 11.08.21 Kevin Kuhn 11.08.21

Entwicklung einer Strategie für unstrukturierte Daten

Entscheidungsträger lieben Daten. Sie nutzen strukturierte Daten um eine Vielzahl wichtiger Entscheidungen zu treffen. Unstrukturierte Daten, wie bspw. E-Mails, Protokolle, Bilder oder Sprachnachrichten werden aufgrund der ihnen innewohnenden Schwierigkeiten sie zu analysieren oftmals ignoriert.

Für mich nur schwer nachzuvollziehen, dass wichtige Geschäftsentscheidungen nur auf der Grundlage eines Teils der relevanten Informationen getroffen werden. Gerade aufgrund der schieren Menge an unstrukturierten Daten in Unternehmen und der Möglichkeit diese heute zu analysieren, halte ich es für besonders wertvoll sich mit diesen Daten auseinander zu setzen.

Sie liefern einen umfassenden, detaillierten und qualitativen Einblick in das geben, was im Unternehmen wirklich passiert und beantworten letztlich nicht nur die Frage des Was, sondern auch des Warum.

Kevin Kuhn 02.08.21 Kevin Kuhn 02.08.21

Wie Machine Learning funktioniert

How machine learning works

Interviewer: What’s your biggest strength?

Me: I’m fast learner.

Interviewer: What’s 11 * 11

Me: 65

Interviewer: not even close. It’s 121

Me: It’s 121
— One Devloper Army (@OneDevloperArmy) June 13, 2019

Kevin Kuhn 20.07.21 Kevin Kuhn 20.07.21

Quanten Computer und ihr Einfluss auf Machine Learning (QML)

Quant Computer faszinieren mich seit Monaten. Sie versprechen exponentielles Wachstum in Computerleistung. Etwas, was selbst mit heutigen Super-Computer nicht möglich scheint.

Das wird für Bereiche wie Finanzen, Medizin, Chemie, Physik, Kryptographie (Verschlüsselung von Informationen) und viele Weitere neue Möglichkeiten eröffnen. Es werden Komplexitäten berechnet werden können, welche heute unmöglich erscheinen.

In der von IBM veranstalteten Qiskit Global Summer School 2021 durfte ich während zwei Wochen erfahren, was es bedeutet mit Quanten Computer zu arbeiten und wie diese im speziellen Machine Learning – Quantum Machine Learning (QML) – beeinflussen werden.

Mein Fazit:

Quanten Computer (QC) sind heute bereits über die Cloud verfügbar
Quanten Computer werden klassische Computer nicht ersetzten, sondern als hybride Systeme, im Zusammenspiel mit klassischen Computern, eingesetzt werden
Mit Quanten Computer werden Berechnungen möglich, welche heute undenkbar sind. Das wird uns helfen unsere Welt um uns herum besser zu verstehen.
In Bezug auf Machine Learning bieten QC Zugang zu Rechenleistung, welche für die Berechnung schwer zu lösender Probleme benötigt wird.
QC und im speziellen Quantum Machine Learning (QML) steckt in den Kinderschuhen und sowohl auf Seiten der Hardware, wie auch der Algorithmen muss noch viel Forschung und Entwicklung betrieben werden.

Wie profitiert das Schweizer KMU von Quanten Computern?

Quanten Computer werden wohl noch lange nicht in einem KMU stehen und sind durch ihre Spezialisierung auch nur für ganz bestimmte Berechnungen von Nutzen. Ich schätze, dass der Nutzen in erster Linie indirekt sein wird; Durch Modelle, welche mit Unterstützung von Quanten Computer berechnet und auf klassischen Computer angewendet werden können.

QGSSC21-Qiskit-Global-Summer-School-2021-Experience.gif