Как парсить PubMed: различия между версиями

Материал из hpluswiki
Перейти к навигации Перейти к поиску
 
(не показаны 3 промежуточные версии этого же участника)
Строка 1: Строка 1:
'''PubMed (Пабмед)''' − библиографическая база данных научных публикаций, в основном биологической и медицинской направленности. Более широко трактуется как совокупность всех библиографических баз данных NCBI (Национального Центра Биотех Информации), куда, наряду с собственно PubMed, входят такие базы данных как PubChem, Gene, PMC и другие.
'''PubMed (Пабмед)''' − библиографическая база данных научных публикаций, в основном биологической и медицинской направленности. Более широко трактуется как совокупность всех библиографических баз данных NCBI (Национального Центра Биотехнологической Информации), куда, наряду с собственно PubMed, входят такие базы данных как PubChem, Gene, PMC и другие.


Самая биомедиинская мякотка концентрируется в базе данных под названием «Medline». В ней ищут интерфейсы вышеназванных тематических баз данных.
Самая биомедицинская мякотка концентрируется в базе данных под названием «Medline». В ней ищут интерфейсы вышеназванных тематических баз данных.


Почему есть Medline и есть куча других баз данных? Потому что
Почему есть Medline и есть куча других баз данных? Потому что
* У каждой тематической базы данных есть свой специфический интерфейс заточенный под предметную область
* У каждой тематической базы данных есть свой специфический интерфейс, заточенный под ее предметную область
* Наряду с Medline они {{abbr|норвежский русский aka рюссеношк: от норвежского å søke, искать. Удобное слово|сёкают}} по дополнительным каталогам, которые содержат инфу по статьям, по тем или иным причинам не попавшим в Medline (неопубликованные, не биомед тематики и т.д. <ref>https://www.nlm.nih.gov/bsd/difference.html</ref>).
* Наряду с Medline они также {{abbr|норвежский русский aka рюссеношк: от норвежского å søke, искать. Удобное слово|сёкают}} по дополнительным каталогам, которые содержат инфу по статьям, не попавшим в Medline (неопубликованные, не биомед тематики и т.д. <ref>https://www.nlm.nih.gov/bsd/difference.html</ref>).


{|class="wikitable"
{|class="wikitable"
Строка 28: Строка 28:
==Парсинг==
==Парсинг==


Автоматический поиск происходит через обычные GET запросы. Для более чем 2 запросов в секунду требуется ключ.
Автоматический поиск происходит через обычные HTTP GET запросы. Для более чем 2 запросов в секунду требуется ключ.


Получение информации о публикации происходит в два этапа.
Получение информации о публикации происходит в два этапа.
# Вначале получают список id статей, удовлетворяющих критериям поиска (совпадение с ключевыми словами в указанных частях). Подробнее: [[Получение id статей на PubMed]]
# Вначале получают список идентификаторов статей (PMID), удовлетворяющих критериям поиска (совпадение с ключевыми словами в указанных частях). Подробнее: [[Получение id статей на PubMed]]
# По известной id статьи отправляют второй запрос на выдачу информации об этой статье. В ответ, сервер присылает данные в [[MEDLINE_(формат_данных)|формате Medline]]
# По известной id статьи отправляют второй запрос на выдачу информации об этой статье. В ответ, сервер присылает данные в [[MEDLINE_(формат_данных)|формате Medline]]


==Ссылки==
==Ссылки==
<references />
<references />

Текущая версия от 10:56, 16 марта 2021

PubMed (Пабмед) − библиографическая база данных научных публикаций, в основном биологической и медицинской направленности. Более широко трактуется как совокупность всех библиографических баз данных NCBI (Национального Центра Биотехнологической Информации), куда, наряду с собственно PubMed, входят такие базы данных как PubChem, Gene, PMC и другие.

Самая биомедицинская мякотка концентрируется в базе данных под названием «Medline». В ней ищут интерфейсы вышеназванных тематических баз данных.

Почему есть Medline и есть куча других баз данных? Потому что

  • У каждой тематической базы данных есть свой специфический интерфейс, заточенный под ее предметную область
  • Наряду с Medline они также сёкают по дополнительным каталогам, которые содержат инфу по статьям, не попавшим в Medline (неопубликованные, не биомед тематики и т.д. [1]).
У кого сколько
PubMed более 30 млн. записей
Medline более 26 млн. записей
PubMed Central (PMC) более 5.2 млн. записей

Адреса[править]

Entrez[править]

Пабмед использует поисковый движок под названием Entrez.

Парсинг[править]

Автоматический поиск происходит через обычные HTTP GET запросы. Для более чем 2 запросов в секунду требуется ключ.

Получение информации о публикации происходит в два этапа.

  1. Вначале получают список идентификаторов статей (PMID), удовлетворяющих критериям поиска (совпадение с ключевыми словами в указанных частях). Подробнее: Получение id статей на PubMed
  2. По известной id статьи отправляют второй запрос на выдачу информации об этой статье. В ответ, сервер присылает данные в формате Medline

Ссылки[править]