Как парсить PubMed

Материал из hpluswiki
Перейти к навигации Перейти к поиску

PubMed (Пабмед) − библиографическая база данных научных публикаций, в основном биологической и медицинской направленности. Более широко трактуется как совокупность всех библиографических баз данных NCBI (Национального Центра Биотехнологической Информации), куда, наряду с собственно PubMed, входят такие базы данных как PubChem, Gene, PMC и другие.

Самая биомедицинская мякотка концентрируется в базе данных под названием «Medline». В ней ищут интерфейсы вышеназванных тематических баз данных.

Почему есть Medline и есть куча других баз данных? Потому что

  • У каждой тематической базы данных есть свой специфический интерфейс, заточенный под ее предметную область
  • Наряду с Medline они также сёкают по дополнительным каталогам, которые содержат инфу по статьям, не попавшим в Medline (неопубликованные, не биомед тематики и т.д. [1]).
У кого сколько
PubMed более 30 млн. записей
Medline более 26 млн. записей
PubMed Central (PMC) более 5.2 млн. записей

Адреса[править]

Entrez[править]

Пабмед использует поисковый движок под названием Entrez.

Парсинг[править]

Автоматический поиск происходит через обычные HTTP GET запросы. Для более чем 2 запросов в секунду требуется ключ.

Получение информации о публикации происходит в два этапа.

  1. Вначале получают список идентификаторов статей (PMID), удовлетворяющих критериям поиска (совпадение с ключевыми словами в указанных частях). Подробнее: Получение id статей на PubMed
  2. По известной id статьи отправляют второй запрос на выдачу информации об этой статье. В ответ, сервер присылает данные в формате Medline

Ссылки[править]