ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

How Machine Learning Helps Humans Search Millions of Documents Instantly

Автор: Exaptive

Загружено: 2018-04-19

Просмотров: 262

Описание: TRANSCRIPT:

Exaptive uses sophisticated technology to make discoveries easier, especially when researchers are looking through data contained within millions of documents. We use machine learning to facilitate the exploration of data that would otherwise be too vast to support valuable insights.

Machine Learning allows for a model to improve over time.. given new training data.. without requiring more human effort. For example, a common “text-classification benchmark task” is to train a model on messages for multiple discussion board threads.. and then later use it to predict what the topic of discussion was.. Whether it was space, computers, religion, anything. Besides being able to classify new texts, Machine Learning approaches can also attempt to identify the authors or find similar documents. The ability to identify similar documents can lead to a “recommender system” for new content that a user might find interesting.

Machine Learning-based models are commonly desired to be “black-box” in the sense that a user desires to be able to put data in.. and get answers out.. without having to know the details of how this is achieved. However, there is usually a desire to understand the resulting model and why a recommendation is given. There is also a desire to understand a collection of texts, such as search results, where the user may want a summary of a 100 page list of a thousand “ranked results.” In this use case, we build a data landscape, which is a visualization of the documents that conveys their similarities as well as the relationships to key terms which were identified when learning the model.

In one application of data landscape technology, Exaptive processed over 100 million documents which had been “machine read” from “scanned documents” via “optical character recognition”. Some of the documents were hundreds of years old. We recorded counts for roughly 200,000 words.. and then estimated the importance of those words to the documents as a “feature engineering” step. This measure is known as “term frequency-inverse document frequency” or TF-IDF. “Singular value decomposition”.. or S-V-D.. was then used to find high level concepts which are each defined by many words. At that point in the process, documents are described by high level concepts that align with areas of medicine, economics, religion, politics, et cetera.

The concepts that are learned are data-dependent. If only medical documents are used, then the model’s resources will be used to identify more “finely-detailed” categories. We then clustered the documents in that “topic space” to find which documents are similar. The “silhouette coefficient measure” allowed us to automatically select a good “number of clusters.” Next, we projected the documents down to a two dimensional scatterplot using a combination of SVD and multi-dimensional scaling. Based on the density of the documents, we fit a contour map, which looks like a topological map. Color varies across the contour map according to the cluster assignment for documents in that area. Finally, we solve for landmarks which correspond to the x-y location of the key “driver terms” for each cluster.

Using these same concepts, the Exaptive team designed the PubMed® Explorer. PubMed Explorer makes it easy to search PubMed’s extensive collection of papers. One of the visualizations provided is a “term landscape”. The term landscape is similar to the key “term landmarks” from the previously described data landscape. The positions are found in a more direct method by projecting TF-IDF values directly to 2-D. For a collection of search results, the user may then view a two-dimensional landscape where related terms are grouped together spatially. Depending on how this project is performed, it is easy to obtain either the documents locations, or the term locations. This allows us to provide the user with options to create the same visualization for articles or journals, instead of topics. As with the previously described visualizations, the documents are categorized using clustering which provides for distinction with the term and cluster colors.

Many people associate Machine Learning with A-I, or Artificial Intelligence. At Exaptive, we use it to support I-A, or “intelligence augmentation.” The difference is.. that instead of using machine learning to eliminate the need for humans in a process, the technology supports the intelligence of the human researcher, so researchers can accomplish more than what would otherwise be humanly possible.

www.exaptive.com

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
How Machine Learning Helps Humans Search Millions of Documents Instantly

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Удаляем свои фото, выходим из чатов, скрываем фамилию? Как избежать штрафов

Удаляем свои фото, выходим из чатов, скрываем фамилию? Как избежать штрафов

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Что скрывают в вашем номере отеля? Реальный случаи слежки..

Что скрывают в вашем номере отеля? Реальный случаи слежки..

SUNO.AI Как стереть цифровой след

SUNO.AI Как стереть цифровой след

Feed Your OWN Documents to a Local Large Language Model!

Feed Your OWN Documents to a Local Large Language Model!

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Что такое квантовая теория

Что такое квантовая теория

Предел развития НЕЙРОСЕТЕЙ

Предел развития НЕЙРОСЕТЕЙ

Гренландия: остров китов, нищеты и алкоголизма | Интервью с местными, снег, лед и хаски

Гренландия: остров китов, нищеты и алкоголизма | Интервью с местными, снег, лед и хаски

Learning to Rank - The ML Problem You've Probably Never Heard Of

Learning to Rank - The ML Problem You've Probably Never Heard Of

Я случайно создал приложение на работе. Gemini Canvas + NotebookLM гайд.

Я случайно создал приложение на работе. Gemini Canvas + NotebookLM гайд.

Bluetooth-шпионаж: Как ваши гаджеты следят за вами? OSINT-расследование

Bluetooth-шпионаж: Как ваши гаджеты следят за вами? OSINT-расследование

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

ИИ в 2026: Как создать AI-бизнес в одиночку (без кода)

ИИ в 2026: Как создать AI-бизнес в одиночку (без кода)

LLMs and AI Agents: Transforming Unstructured Data

LLMs and AI Agents: Transforming Unstructured Data

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Почему Питер Шольце — математик, каких бывает раз в поколение?

Почему Питер Шольце — математик, каких бывает раз в поколение?

Zettelkasten + AI: Как я связал ChatGPT и Obsidian в единую систему знаний

Zettelkasten + AI: Как я связал ChatGPT и Obsidian в единую систему знаний

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]