Проект: парсинг UniProt: различия между версиями

нет описания правки
(Новая страница: «UniProt — база знаний о протеинах. Она связывает сами протеины с последовательностями гено...»)
 
Нет описания правки
 
(не показано 7 промежуточных версий 2 участников)
Строка 1: Строка 1:
UniProt — база знаний о протеинах. Она связывает сами протеины с последовательностями генов, кодирующими их.
[https://www.uniprot.org/ UniProt] — база знаний о протеинах. Она связывает сами протеины с последовательностями генов, кодирующими их.
 
Она сохранена в одном маленьком текстовом файле и я решил, что пример парсинга этого файла на Python может быть полезен.
Она сохранена в одном маленьком текстовом файле и я решил, что пример парсинга этого файла на Python может быть полезен.
Структурно, файл состоит из описания, заголовка таблицы, контента и лицензии. Мы отделяем от файла всё лишнее, потому, что так его можно читать построчно.
Структурно, файл состоит из описания, заголовка таблицы, контента и лицензии. Мы отделяем от файла всё лишнее, потому, что так его можно читать построчно.


Требуется комментарий специалиста. Я не очень хорошо понимаю, почему здесь говорят только о первой хромосоме.
{{
  Запрос экспертизы
  | text=Я не очень хорошо понимаю, почему в заголовке базы [https://www.uniprot.org/ UniProt] говорят только о первой хромосоме.
  | qualification=Биолог
}}


== Пример экспорта в JSON ==
<nowiki>− Не помню откуда я вышел на файлы, но для каждой хромосомы существует свой отдельный файл вида https://www.uniprot.org/docs/humchr<nn>.txt, где <nn> ::= [0-9]{2} | [xy]</nowiki> [[Участник:Denis.s|Denis.s]] ([[Обсуждение участника:Denis.s|обсуждение]])
 
== Selenium ==
=== Пример экспорта в JSON ===


<syntaxhighlight lang="python" line>
<syntaxhighlight lang="python" line>
Строка 45: Строка 53:
</syntaxhighlight>
</syntaxhighlight>


== Пример экспорта в CSV ==
=== Пример экспорта в CSV ===
Tab-delimited.
Tab-delimited.


Строка 94: Строка 102:
     main()
     main()
</syntaxhighlight>
</syntaxhighlight>
== [[Racket]] ==
=== Сохранение отпарсенного в [[Tabtree]] ===


== Заметка о лицензии ==
== Заметка о лицензии ==
Строка 101: Строка 112:
=== Creative commons ===
=== Creative commons ===
Вот сам текст лицензии из файла UniProt. "Copyrighted by the UniProt Consortium, see https://www.uniprot.org/terms. Distributed under the Creative Commons Attribution (CC BY 4.0) License"
Вот сам текст лицензии из файла UniProt. "Copyrighted by the UniProt Consortium, see https://www.uniprot.org/terms. Distributed under the Creative Commons Attribution (CC BY 4.0) License"
[https://creativecommons.org/licenses/by/4.0/ Текст и описание] лицензии на сайте Creative Commons.
[[Категория:Скрипты]]